Was ist der Unterschied zwischen Data Wrangling und ETL?

Kommentar von Bernard Doering, Trifacta Was ist der Unterschied zwischen Data Wrangling und ETL?

20.12.2017Autor / Redakteur: Bernard Doering / Nico Litzel

Es ist kein Geheimnis: Daten spielen eine immer wichtigere Rolle. Nicht nur in der heutigen Geschäftswelt, sondern in unserer Gesellschaft insgesamt. In einem im Mai 2017 erschienenen Artikel legt „The Economist“ ausführlich dar, warum Daten dem Öl als wertvollste Ressource weltweit den Rang abgelaufen haben. Es kann kaum bezweifelt werden, dass mit Blick in die Zukunft diejenigen Unternehmen und Organisationen am erfolgreichsten sein werden, denen es am besten gelingt, die ständig wachsende Datenvielfalt zu ihrem Vorteil zu nutzen.

Anbieter zum Thema

Disy Informationssysteme GmbH

QUNIS GmbH

Fivetran Germany GmbH

Der Autor: Bernard Doering ist VP Sales, Central Europe, bei Trifacta
(Bild: Trifacta)

Um dies zu erreichen, sind die Unternehmen, mit denen ich regelmäßig zusammenarbeite, dazu gehören sowohl große Fortune-500-Unternehmen als auch rasant wachsende Start-ups, sehr darauf fokussiert, ihre Herangehensweise an die Datenanalyse zu modernisieren, um der Konkurrenz stets einen Schritt voraus zu sein. Unter Modernisierung versteht jedes Unternehmen etwas anderes: „datengetriebene Unternehmenskultur“, „Datafizierung (Datafication)“ oder „Einsatz von Big Data“. Für alle Unternehmen gilt jedoch, dass die Modernisierung Veränderungen in den folgenden Bereichen nach sich zieht:

Datenspeicher und Infrastruktur für die Verarbeitung

Datenmanagement und Datenanalyse-Anwendungen

Menschen und neue Prozesse zur Erzielung von Wertschöpfung aus Daten

Auf übergeordneter Ebene verfolgen fast alle Unternehmen im Zuge der Modernisierung der Analyse zwei gemeinsame Ziele: Nutzung größerer Datenmengen und schnellere Wertschöpfung aus Daten. Die Unternehmen müssen in der Lage sein, immer größere Mengen an Daten in ihre Analyseprozesse einzubinden, unabhängig von Herkunft, Format oder Größe der Daten. Die zunehmende Datenvielfalt gilt es dann zu nutzen, um für ihr Unternehmen schneller Wert aus Daten zu schöpfen. Das ist kein leichtes Unterfangen, wie jedes Unternehmen bestätigen wird.

Diese beiden Ziele, mehr Daten und schnellere Wertschöpfung, lassen sich mit genau dieser relativ neuen Generation von Self-Service-Lösungen zur Datenaufbereitung (auch bekannt als Data Wrangling) erreichen. Es ist umfassend dokumentiert, dass die Aufbereitung von Daten den größten Engpass in jedem Analyse-Projekt darstellt. Sie macht oft mehr als 80 Prozent des End-to-End-Prozesses aus. Data-Wrangling-Lösungen zielen auf den Bereich des Analyse-Prozesses ab, der das größte Verbesserungspotenzial in sich birgt.

Größere Vielfalt

Das ist vor allem auch deshalb zutreffend, weil die Unternehmen ihren Analyse-Bereich immer mehr ausdehnen, indem sie eine größere Vielfalt an neuen oder unbekannten Datenquellen integrieren. Vor einer Analyse sind alle Daten zu extrahieren, aufzubereiten und mit bereits vorhandenen Daten zu kombinieren, um sie nachfolgend zur Visualisierung, für Statistiken oder maschinelles Lernen zu nutzen. Jede zusätzliche Datenquelle erhöht den Aufwand für die Aufbereitung der Daten.

Herkömmliche Herangehensweisen an die Datenaufbereitung waren nicht für die heutigen Anforderungen an Geschwindigkeit und Vielfalt ausgelegt. Die Vielfalt an Datenquellen, die vor zehn Jahren eine herkömmliche ETL-Daten-Pipeline ausmachte, hat sich damals nicht so schnell oder häufig verändert wie bei heutigen Pipelines. Ein paar Monate darauf warten zu müssen, um einige neue Attribute in eine Analyse einbinden zu können, ist aus heutiger Sicht für viele moderne Unternehmen undenkbar, und doch war dies vor einigen Jahren an der Tagesordnung.

Das hat in den vergangenen Jahren dazu geführt, dass sich Data Wrangling als schnell wachsender Bereich der Analyse-Industrie herauskristallisiert hat. Einst ein Flaschenhals in Analyse-Projekten, aufgrund anstrengender und zeitaufwendiger Arbeiten zur Aufbereitung von Daten aus unterschiedlichen Datenquellen für Berichterstellung und Analysen, haben sich Data-Wrangling-Technologien enorm weiterentwickelt.

Als Verkaufsleiter Zentraleuropa bei Trifacta, einem Anbieter von Data-Wrangling-Software, lautet eine der Fragen, die mir Kunden, Partner und Analysten immer wieder stellen: „Worin unterscheiden sich Data Wrangling und Extract, Transform, Load (ETL)?” Bedenkt man, dass sich die beiden Technologiebereiche in puncto Funktionalität überlappen, ist diese Frage nachvollziehbar. Der Markt muss die Unterschiede klarer herausarbeiten.

Zum besseren Verständnis zeige ich im Folgenden die wichtigsten Unterschiede zwischen den beiden Technologien auf.

Verschiedenartige Daten

Das Aufkommen von Data-Wrangling-Lösungen wurde aus Notwendigkeit geboren. Heute können immer mehr Datenquellen für Analysen herangezogen werden. Früher verfügten Analytiker jedoch nicht über die richtigen Tools, um diese Daten verstehen, bereinigen und in ein geeignetes Format bringen zu können. Ein nicht unerheblicher Teil der Daten, mit denen Business-Analytiker es heute zu tun haben, steht immer mehr in unterschiedlichen Formaten und Größen zur Verfügung. Für das Arbeiten in herkömmlichen Self-Service-Tools wie Excel sind diese Daten entweder zu umfangreich oder zu komplex. Data-Wrangling-Lösungen sind so konzipiert, dass sie verschiedenartige komplexe Daten in jeder Größenordnung verarbeiten können.

ETL ist so ausgelegt, dass es allgemein gut strukturierte, oft aus unterschiedlichen operativen Systemen oder Datenbanken stammende Daten für die Erstellung von Reports verarbeiten kann. Die Verarbeitung umfangreicher Datenmengen oder komplexer Rohquellen, deren Strukturierung mit einem erheblichen Aufwand für Extrahierung und Herleitung von abgeleiteten Attributen einhergeht, gehört nicht zu den Stärken der ETL-Tools.

Darüber hinaus erfolgen immer mehr Analysen in Umgebungen, in denen ein Datenschema nicht definiert oder vorher nicht bekannt ist. Das heißt, der mit der Datenaufbereitung befasste Analytiker legt fest, wie die Daten für Analysen genutzt werden können. Er legt auch das für diese Analysen erforderliche Schema fest.

Unterschiedliche Anwendungsfälle

Use Cases für Data-Wrangling-Lösungen sind tendenziell mehr explorativer Natur. Oft werden sie zunächst von kleinen Teams und Abteilungen genutzt, bevor das unternehmensweite Rollout erfolgt. Typischerweise versuchen Nutzer von Data-Wrangling-Technologien im Rahmen einer Analyse-Initiative mit einer neuen Datenquelle oder einer neuen Kombination von Datenquellen zu arbeiten. Auch ist zu beobachten, dass sich mit Data-Wrangling-Lösungen bereits vorhandene Analyse-Prozesse effizienter und sorgfältiger gestalten lassen, da Nutzer bei der Aufbereitung ihrer Daten stets ein Auge auf die Daten haben.

ETL-Technologien gewannen ursprünglich in den 1980er-Jahren an Popularität, als die Tools primär für das Extrahieren, Transformieren und Laden der Daten in ein zentrales „Enterprise Data Warehouse“ eingesetzt wurden, um die Daten zur Reporterstellung und Durchführung von Analysen mit Business-Intelligence-Anwendungen zu nutzen. Das ist auch heute noch der wichtigste Use Case für ETL-Tools. Ein Anwendungsfall, der die besonderen Stärken dieser Tools unterstreicht.

Bei einigen Kunden sind Data-Wrangling- und ETL-Lösungen komplementär als Komponenten einer Datenplattform im Einsatz. Die IT nutzt ETL-Tools, um Daten zu bewegen und zu verwalten, sodass die Business-Nutzer Zugriff auf geeignete Daten haben, sie erforschen und mit Data-Wrangling-Lösungen aufbereiten können.

Faszinierende Einsatzmöglichkeiten

Während immer mehr Unternehmen auf die Self-Service-Aufbereitung von Daten als Teil der Modernisierungsstrategie ihrer Analyse-Prozesse setzen, zeichnet sich ab, welches Spektrum an Möglichkeiten Datenerweiterung eröffnet. Ein inspirierendes Beispiel für eine Organisation, in der die Datenaufbereitung dazu dient, einige der größten Herausforderungen unserer Gesellschaft zu meistern, ist das „Centers for Disease Control and Prevention (CDC)“. Durch den Einsatz zahlreicher neuer Datenmanagement- und Analyse-Technologien, einschließlich Self-Service-Datenaufbereitung, konnte das Team ermitteln, wie sich der Gebrauch von Opioiden auf die Ausbreitung von HIV in Indiana auswirkt und die richtigen Maßnahmen ergreifen, um die Weiterübertragung zu stoppen.

Vieles ist möglich. Wir stehen erst am Anfang. In den nächsten Monaten und Jahren sehe ich mit Freude, wie mehr Nutzer in immer mehr Unternehmen und Organisationen von Lösungen zur Self-Service-Aufbereitung von Daten profitieren, um noch immer mehr wertvolle Information aus der Arbeit mit Daten herauszuholen.

Artikelfiles und Artikellinks

Link: Artikel „The world’s most valuable resource is no longer oil, but data“ („The Economist“, 6. Mai 2017

Link: Trifacta im Web

(ID:45007271)