Data Wrangling

Trifacta revolutioniert die Datenaufbereitung in Hadoop

| Autor / Redakteur: Ariane Rüdiger / Nico Litzel

Adam Wilson, CEO des 2012 gegründeten Start-ups Trifacta
Adam Wilson, CEO des 2012 gegründeten Start-ups Trifacta (Bild: Trifacta)

Trifacta bringt ein Werkzeug, das die Aufbereitung von Hadoop-Daten für analytische Applikationen verbessert und gravierend vereinfacht. Das Unternehmen zentralisiert Forschung und Entwicklung in Deutschland.

„In vielen Unternehmen verschlingt die Datenaufbereitung 80 Prozent des Analytik-Budgets“, sagt Adam Wilson, CEO des 2012 gegründeten Start-ups Trifacta. Das Unternehmen ist angetreten, um mit seinem Tool die Datenaufbereitung von Hadoop-Daten grundlegend zu verändern, zu vereinfachen und für IT-Laien machbar zu gestalten. „Die Fachspezialisten der jeweiligen Bereiche verstehen am besten, welche Daten zu den Fragen, die sie haben, passen“, sagt Wilson.

Die heutigen Werkzeuge für die Datenaufbereitung aber seien meist so komplex, dass nur IT-Fachleute damit arbeiten könnten. Die verstünden allerdings meist zu wenig von den Fragen, die die Kerngeschäftsbereiche beantworten müssten. Daraus resultierten lange Verzögerungen und unzählige Rückfragen beiderseits.

Hier setzt Trifacta an. Entwickelt wurde die Lösung von Joe Hellerstein, einem Spezialisten für Distributed Computing an der University of California, Berkeley, und Jeff Heer, fokussiert auf das Thema Mensch-Computer-Interaktion und damals an der Universität Stanford tätig. Dritter im Bunde war Sean Kandel, ein Data Scientist, der zunächst für den Hedgefonds Citadel arbeitete. Er störte sich an den langen Datenaufbereitungszeiten und machte die beiden Wissenschaftler auf das Problem aufmerksam. „Kandel dachte sich, wenn er so viel Zeit für Datenaufbereitung braucht, dann ist das bei anderen wahrscheinlich genauso“, erklärt Wilson.

3.000 Kunden aus unterschiedlichen Branchen

Aus der Kooperation entstand Trifacta. Das Unternehmen brachte 2014, nach rund zwei Jahren Entwicklung, „Trifacta Wrangler Enterprise“ auf den Markt. Inzwischen hat Trifacta über 70 Millionen US-Dollar Venture Capital eingeworben, soll in einigen Jahren an die Börse und bedient mit seinen Lösungen rund 3.000 Kunden aus unterschiedlichen Branchen und aus 129 Ländern, darunter viele Finanz-, Pharma- und Handelsunternehmen,. Der Umsatz liegt inzwischen im zweistelligen Millionenbereich.

Im Fokus stehen größere Unternehmenskunden. Sie zahlen pro Platz und Rechenknoten samt Training Abogebühren – die Dealgrößen reichen bis in den siebenstelligen Bereich. Ein Platz mit einem Knoten plus Training schlägt mit rund 10.000 US-Dollar zu Buche. Sinnvoll ist der Einsatz von Trifacta „für Datenvolumina ab dem Terabytebereich“. Die Software läuft on premise beim Kunden oder in den Clouds von Amazon, Microsoft und Google. Kleinanwender können eine kleine und kostenlose Version herunterladen, um beispielsweise ihre Daten aus Office zu analysieren.

Heute verarbeitet Trifacta Enterprise nur Hadoop-Daten. „Hier liegt die technologische Zukunft“, meint Wilson. Andere Systeme, etwa relationale Datenbanken, wolle man gegebenenfalls sukzessive bedienen, doch die Herausforderung sei dank immer neuer Datentypen und immenser Datenmassen im Hadoop-Bereich nun mal am größten.

Die Europazentrale von Trifacta steht in Berlin. Dort arbeiten von den insgesamt rund 100 Mitarbeitern 20 – Tendenz steigend. Wilson: „Dass wir nach Berlin gekommen sind, ergab sich eher zufällig, wir finden es aber günstig, in einem Land zu forschen und zu entwickeln, in dem sehr hohe Standards bei Datenschutz und Datensicherheit gelten.“ Eine Reihe europäischer Kunden, darunter viele Banken, hätten zudem nach einem Gesprächspartner vor Ort verlangt.

Datenaufbereitung leicht gemacht

Trifactas Werkzeug wirkt auf den ersten Blick leicht verständlich: Liest man ungeordnete Daten im Rohformat ein, beispielweise Call Records von Telekommunikationskunden, versucht das System von sich aus, sie auf plausible Weise in Spalten zu ordnen. Mehrere Datenquellen können zusammengespielt und in ein analysefähiges Format gebracht werden, sodass die aufgelagerten analytischen Werkzeuge gutes Material für ihre Arbeit vorfinden.

Screenshot Trifacta Wrangler Enterprise
Screenshot Trifacta Wrangler Enterprise (Bild: Trifacta)

Durchdachte Funktionen erleichtern die Arbeit der Daten: So zeigt ein Streifen am oberen Rand des Fensters über jeder Spalte an, wie viele Daten dieser Spalte dem angenommenen Standardformat der Spalte entsprechen (grün) oder irgendwie abweichen (rot). Klickt man den roten Bereich an, werden die abweichenden Daten zusammen mit einer ganzen Reihe von Aktionsvorschlägen aufgelistet.

Ebenfalls am oberen Seitenrand erscheint eine statistische Auswertung der in der jeweiligen Spalte dargestellten Merkmale, bei „Name“ würden gleiche Nachnamen also in dieser Häufigkeitsverteilung in einer Säule zusammengefasst. Teile der Informationen, die das System in einer Spalte zusammengefasst hat, lassen sich durch Markieren in einer Tabellenzeile aussondern, sie werden dann in einer separaten Spalte dargestellt oder lassen sich löschen – das ist etwa wichtig, wenn wegen Anonymisierung von Daten alle Namen oder andere persönliche Daten verschwinden sollen. Für jede einzelne Spalte sind grafisch aufbereitete Detailsichten möglich.

Automatisch erzeugte Skripts

Wer Aktionen auf einem Datensample durchführt, erzeugt automatisch ein Skript ähnlich einem Office-Makro, dessen einzelne Schritte gespeichert, später modifiziert oder gelöscht und auch an anderen Arbeitsplätzen oder im gesamten Unternehmen benutzt werden können. Damit genügt ein Unternehmen auch den geforderten Dokumentationspflichten hinsichtlich der Handhabung von Daten.

Verwenden Dashboards oder Analysetools eigene Aufbereitungssoftware, ist von uneinheitlichen Analysen auszugehen, denn jeder Softwarehersteller geht die Aufbereitungs-Aufgabe etwas anders an. „Wenn man die Daten im Gesamtunternehmen einheitlich mit Trifacta präpariert, nutzen alle Bereiche dasselbe Grundmaterial“, sagt Wilson. Er habe einmal ein Unternehmen erlebt, das insgesamt über 130 freigegebene Analysetools mit integrierter Datenaufbereitung nutzte.

Das nächste Release von Trifacta Wrangler Enterprise (derzeit Version 3) steht im Sommer an. „Hier liegt der Fokus auf Connectivity und auf unserer Photon-Engine, mit der Desktop-Anwender die Daten noch schneller bearbeiten können“, erklärt Wilson und ergänzt: „Mit etwas Übung kann schon heute jeder, seine Daten mit Trifacta so vorbereiten, wie sie in die analytischen Tools einfließen sollen.“ Neben der Skriptsprache gibt es auch ein Programmiertool für eher technisch orientierte Nutzer, das demnächst eine grafische Oberfläche bekommt.

Partnerschaften

Eine wichtige Rolle spielen für Trifacta Partnerschaften. Soeben wurde in Europa das Partner-„Ökosystem“ Data Preparation Network mit derzeit etwas mehr als 50 Partnern implementiert. Dazu gehören klassische Reseller, Integrationspartner wie Infosys, Lockheed Martin oder WiPro und Partner aus dem Big-Data-Stack.

Der deutsche Markt wurde bisher von anderen anderen europäischen Ländern aus bedient. Der frischgebackene Country Manager Germany, Bernard Doering, war zuvor Deutschlandchef von Cloudera, neben Hortonworks und MapR ein wichtiger Partner des Unternehmens, was Wilson als eine Bereicherung der ohnehin engen Kooperation zwischen beiden Firmen ansieht.

Trifacta hält sich sowohl hinsichtlich der Hadoop-Distributionen als auch der aufgelagerte Darstellungs- und Analysewerkzeuge strikt neutral. Man sei hier offen nach oben und unten. Auch die derzeit massenweise angekündigten IoT-Plattformen sind ein mögliches Anwendungsfeld. „Wir können uns sehr gut vorstellen, als Werkzeug in den IoT-Plattformen von Siemens, GE oder anderen Anbietern die Datenaufbereitung zu übernehmen“, sagt Wilson.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44095008 / Analytics)