Data Preparation Datenaufbereitung ist ein unterschätzter Prozess

Autor / Redakteur: Michael Matzer / Nico Litzel

Der Prozess der Datenaufbereitung umfasst die Reinigung, Formung und Mischung von Daten, damit sie für analytische und andere Aufgaben in optimaler Qualität bereitstehen. Nur mit erstklassigen Daten lassen sich beispielsweise Lösungen für Machine Learning und Künstliche Intelligenz effizient, sicher und zuverlässig versorgen.

Anbieter zum Thema

Data Preparation kostet Zeit, ist aber unerlässlich. Geeignete Tools können den Prozess beschleunigen und vereinfachen.
Data Preparation kostet Zeit, ist aber unerlässlich. Geeignete Tools können den Prozess beschleunigen und vereinfachen.
(Bild: © momius - stock.adobe.com)

Data Preparation ist für alle IT-Nutzer, die geeignete Informationen für eine Aufgabe wie etwa eine Marketingkampagne suchen, eine lästige, aber notwendige Angelegenheit, eine Hürde, die sie von echter Produktivität abhält. Auf vielen IT-Konferenzen ist zu vernehmen, dass die leidgeprüften Anwender bis zu vier Fünftel ihrer kostbaren Zeit darauf verwenden, Daten zu suchen, aufzubereiten und bereitzustellen. Und damit sind nicht einmal die Excel-Jockeys gemeint, sondern Nutzer von moderneren Informations-Suiten. Im Jahr 2018 veröffentlichten mehrere neue Anbieter wie Trifacta interessante Ansätze zur Lösung des Problems Data Preparation.

Bildergalerie
Bildergalerie mit 7 Bildern

Der Mehrwert einer Data-Preparation-Lösung ist beträchtlich, denn er kommt nicht nur den Prozessen zugute, sondern auch Business-Aspekten wie Data Governance, Compliance und Vertrauenswürdigkeit der wirtschaftlichen Aussagen. Im Bereich der Business Intelligence beschleunigen und demokratisieren solche Lösungen die Prozesse für das Erlangen von Erkenntnissen, das Fällen von Entscheidungen und die entsprechenden Handlungen. Das Bereinigen und Aufbereiten von Daten ist kein Selbstzweck, sondern vielmehr lassen sich bereits vorhandene Daten derart mit wirtschaftlichen Aspekten anreichern, dass sie zunehmend an Wert für das Unternehmen gewinnen.

Nicht zuletzt sind angereicherte und vertrauenswürdige Daten von höchster Bedeutung für die Anwendungsentwicklung. Nur wer Umfang, Standort und Besitzer von Daten kennt, kann mit ihnen auch entsprechend verlässliche Apps entwickeln und testen – das gilt insbesondere für Big Data und Streaming Data, etwa im IoT und in Industrie 4.0. Anders als erwartet, ist Data Preparation also auch ein Thema für Entwickler und Sicherheitsexperten.

Fünf große Schritte

Worin bestehen überhaupt die Abschnitte im langen Prozess der Data Preparation? Der bekannte Blogger und Podcaster Jim Harris von Obsessive-Compulsive Data Quality (OCDQ) hat für The Data Warehouse Institute (TDWI) ein konzises Papier erstellt, das die fünf Hauptphasen des Prozesses beschreibt. Er legt Wert auf Effizienz und Automatisierung dieser Schritte, sodass der Nutzer nicht immer wieder das Rad neu erfinden muss, sondern bei jeder erneuten Aufgabe auf erprobte und geregelte Schritte zurückgreifen kann. Die benutzte Softwarelösung sollte also zumindest eine Funktion für Makros umfassen, besser noch eine für Regeln (Rules Management) oder gar Machine Learning. Im Hinblick auf die Ermächtigung von geschäftlichen Nutzern und Data Scientists geht der Trend zur Entwicklung von Self-Service-Werkzeugen, die keine Kenntnisse in SQL, Python etc. voraussetzen.

1. Schritt: Discovery

Beim Entdecken geht es darum, die am besten geeigneten Daten für einen bestimmten Zweck zu finden. Die beste Hilfe bei der effizienten Suche ist ein Data Catalog. Wer dieses Metadaten-Repository anlegt und sorgfältig pflegt, verfügt über einen umfassenden und gut dokumentierten Überblick. Nicht nur stellt der Data Catalog einen Index bereit, der auf die vorhandenen Daten verweist (die ja an ganz verschiedenen Lokationen unter unterschiedlichen Zugriffsbedingungen gespeichert sein können), er erlaubt auch das Data Profiling.

Das Data Profiling liefert Auskünfte über die Attribute der Daten selbst. Dazu gehören beispielsweise Zähler für Zeilen einer Tabelle, die Datentypen in Tabellenspalten, Spaltenwerte (Minimum, Maximum und Mittelwert) sowie Leerstellen. Häufig sind Datenbestände, wie etwa Adressen, weder vollständig noch aktuell. Die Attribute liefern wertvolle statistische Aussagen darüber, von welcher Qualität und Herkunft die untersuchten Daten sind. Handelt es sich um persönlich identifizierbare Informationen (PII), muss der Nutzer Aspekte des Datenschutzes beachten, oder er bekommt schnell Probleme mit der Datenaufsicht (Data Steward).

2. Detention

Nachdem der Nutzer die geeigneten Daten gefunden hat, muss er sie an einem geeigneten Ort sammeln und ablegen. Da alle weiteren Arbeitsschritte von dieser Phase abhängen, ist eine sorgfältige Wahl der Lokation ratsam. Sofern es sich nicht um eine Excel-Tabellenkalkulation handelt, empfiehlt Jim Harris einen Speicherplatz, der geteilt und gemeinsam verwaltet wird – nur für alle Fälle. Es eignen sich eine relationale Datenbank (etwa in einem Data Warehouse), ein Network File System (wie etwa IBM Spectrum alias GPFS) oder gar ein Big Data Repository wie etwa einen Data Lake, der Hadoop als Basis hat. Um die nötigen Prozesse zu beschleunigen, geht der Trend zur Nutzung von In-Memory-Speicherorten (oder in der Cloud). Das bedeutet mitunter eine Beschleunigung um den Faktor 100.

3. Destillieren

Während der Bereitstellungs- oder Detention-Phase müssen Daten dedupliziert und validiert werden. Hier besteht erneut die Chance zu Anreicherung der Metadaten. Regeln und Makros, die in der Datenbereinigung und Transformation angewandt wurden, lassen sich hier gut wiederverwenden. Ziel ist das Zusammenführen erstklassiger Daten zu einer einzigen Datenquelle, einem einzigen Datenmodell, auf das sich Analysen etc. anwenden lassen. Auf dieser Ebene besteht die Chance, durch Filtern und Aggregieren angepasste Sichten zu kreieren bzw. Sichten, die Detail in bestimmter Tiefe zeigen.

4. Dokumentation

Entdeckte, bereitgestellte und destillierte Daten werden im Data Catalog sowohl in technischer als auch in geschäftlicher Hinsicht verzeichnet und dokumentiert. Dazu gehören:

  • Technische Definitionen
  • Wirtschaftliche Terminologie
  • Stammbäume der Datenherkunft
  • Historie der während des Destillierens angewandten Änderungen (Transformationen etc.)
  • Beziehungen zu anderen Daten
  • Empfehlungen für die Verwendung der Daten
  • Damit verknüpfte Richtlinien der Data Governance
  • Identifizierte Data Stewards

Man sieht also: Diese Phase bereitet entscheidend eine richtlinienkonforme Verwendung der Daten und Metadaten vor. Durch Regeln und Makros lässt sich ihre fehlerfreie Wiederverwendung sicherstellen, insbesondere wenn verschiedene Nutzer daran kollaborieren. Jim Harris spricht sogar von einer Beschleunigung bei der Fertigstellung der Data Preparation, wenn man diesen Data Catalog nutzt. Er warnt noch einmal eindringlich vor Excel-Jockeys, die diese Regeln, Richtlinien und Vorgaben ignorieren. Diese Daten-Silos würden nicht nur viel länger brauchen, sondern zudem verschiedenen Nutzern unterschiedliche Resultate liefern – eine hochriskante Sache für das gesamte Unternehmen.

5. Delivery (Lieferung)

Die Lieferung von Daten erfolgt in demjenigen Datenformat, das der Zielprozess oder -nutzer anfordert. Die strukturierte Formatierung erfolgt als Destillat. Jede ausgelieferte Datenmenge sollte für die persistente Bereitstellung (Detention) bewertet und ggf. in den Data Catalog mitsamt relevanter Metadaten in den Data Catalog aufgenommen werden. Auf diese Weise ließe sich der Discovery-Prozess auf andere Nutzer ausweiten, was wiederum Zeit spart.

Bei der Lieferung sind Governance-Richtlinien zu beachten, so etwa das Vermeiden jeglicher Risiken für vertrauliche Daten. Klartext: Sie müssen gegebenenfalls verschlüsselt werden. In einem Mainframe fällt dieser Schritt weg, weil die Datenverarbeitung nur innerhalb ein und desselben Systems stattfindet. Beim Export verschlüsselt der Kryptoprozessor alle Daten. Jim Harris empfiehlt dringend, generell alle ungenutzten Daten sicher zu löschen, um die Angriffsfläche zu minimieren.

Für Reports muss man berücksichtigen, dass die Lieferung in regelmäßigen Abständen erfolgt, beispielsweise am Monats- oder Quartalsende. Da sich die Basis-Daten aber geändert haben, muss der Prozess komplett neu angestoßen werden. Gut, wenn man dafür ein Makro gespeichert hat. Harris rät zudem, die Verwendung der gelieferten Daten zu überwachen und die Aufzeichnung über die Lieferungen aus dem Data Catalog zu löschen. Man kann nie vorsichtig genug sein, so sein Motto.

Dynamischer Markt

Es gibt zahlreiche Hersteller von Data-Prep-Lösungen. Dazu zählen erstens die Datenintegrationswerkzeuge wie etwa die Informatica-Plattform und zweitens die Anbieter von Big Data Fabrics wie etwa Hortonworks. Jeder bedeutende Hersteller von Datenbanken wie etwa SAP, SAS, Oracle und IBM bietet ebenfalls solche Tools an. Schließlich kommen noch innovative neue Offerten von Nischenanbietern hinzu, die entweder einen andersartigen Ansatz verfolgen oder nur in bestimmten Branchen – wie etwa Pharma- und Gesundheitswesen – tätig sind.

Deutlich ist der Trend zu erkennen, Produkte in der Public Cloud bereitzustellen. So bietet etwa Datameer, ein Spezialist für Data Pipelines und Data Discovery, sein Tool Datameer Express für AWS S3 und EC2 in einem skalierbaren EMR-Cluster an. Datameer AWS lässt sich auch containerisiert für EC2-Instanzen (Amazon Machine Instances, AMI) betreiben. Durch AWS IAM sind die Daten vollständig vor unbefugten Nutzern geschützt. Eine Enterprise-Version bietet seit Februar 2019 größere Kapazitäten an. Nach Angaben des deutschen Vertriebsleiters Ulrich Wenz ist der Support von Containern (Elastic Kubernetes Service, EKS) geplant.

Mehrere Hersteller werden in zwei aktuellen Forrester-Reports aufgelistet. Die zehn wichtigsten Anbieter wurden hier anhand von 18 Auswahlkriterien bewertet: ClearStory Data, Datameer, Datawatch, Oracle, Paxata, SAP, SAS, TIBCO Software, Trifacta, and Unifi Software. Sie alle zu würdigen, würde den Rahmen dieses Beitrags sprengen.

Self-Service Data Preparation mit Trifacta

Ein weiterer Trend besteht darin, das Prinzip der Selbstbedienung aus dem BI-Bereich auch auf Data Prep zu übertragen. Das Ziel ist, diesen wichtigen Schritt der Datenaufbereitung einem viel größeren Nutzerkreis als bisher zugänglich zu machen, schreibt Cinny Little im genannten Forrester-Report: „Zu diesen Personas gehören Business Users bzw. -Analysten, Data Scientists und Data Engineers.“

Trifacta behauptet hingegen, dass diese Business-Analysten – da sie auf einer sehr hohen wirtschaftlichen Ebene arbeiten – nicht in der Lage seien, auf ihre Rohdaten zuzugreifen und könnten sich infolgedessen sowieso nicht mit dem Data-Prep-Prozess befassen. Das wiederum könne fatale Folgen haben: Weil sie quasi betriebsblind sind, ändert dies ihre Anforderungen und letztlich auch das Resultat ihrer Analysen.

Self-Service Data Prep Tools, wie etwa Trifacta Wrangler, lösen die Probleme der Sichtbarkeit und der einfachen Benutzbarkeit für eben jene Business Analysten und -User. Ähnlich wie die Qliks und Tableaus dieser Welt erobern sie sich einen neuen Markt, in dem offenbar eine hohe Nachfrage herrscht.

Die Methode lautet Data Wrangling und verspricht den nicht-technischen Nutzern in den Fachbereichen nicht nur, schneller zu Erkenntnissen zu gelangen, sondern auch eigene Data-Prep-Projekte schneller und einfacher vorantreiben zu können. Der Haken: Eigentlich sollte man im Data-Prep-Schritt der Excel-Hölle mit ihren Datensilos entkommen, aber Data Wrangling scheint ein guter Weg zu sein, das Chaos wieder einzuführen.

Anwendererfahrung

Talend ist neben Informatica einer der großen Datenintegratoren. Data Prep ist 2018 vorangetrieben und im Herbst-Release 2018 noch einmal skalierbarer gemacht worden. Die Desktop-Version des Tools steht kostenlos zur Verfügung, weist aber natürlich eine entsprechende Begrenztheit bei der Kapazität auf (siehe die Abbildungen). In der Produktbeschreibung lassen sich damit Excel-Daten sowie Daten im universalen CSV-Format (CSV: Comma-separated Value) verarbeiten. Sie unterstützt also das Self-Service-Prinzip ebenso wie Datameer Express und Trifacta Wrangler.

Avalara ist ein US-Privatunternehmen, das anderen Unternehmen hilft, Compliance im Bereich Transaktionssteuern zu erzielen. Die Unterschiede zwischen nationalen und internationalen Steuerregeln und Tarifen können erheblich ausfallen und Unternehmen wollen lieber auf der sicheren Seite sein, wenn es um Steuerkonformität geht. Als Softwarehersteller bietet Avalara dafür seine Compliance-Cloud-Plattform an.

In seiner britischen Niederlassung sollten Steuerexperten E-Commerce-Umsatzdaten aus Amazon & Co. vereinheitlichen – und das mit dem gefürchteten MS Excel. Diese Transformation wäre sehr zeitaufwendig und teuer geworden. Die gut bezahlten Steuerexperten sahen nicht ein, warum sie Excel-Jockeys werden sollten. Als beriet sich Chris Potter, Data Services Architect bei Avalara, mit den Experten und führte statt Excel lieber Talend ein, denn mit dessen Datenintegrationsprozess hatte er bereits gute Erfahrungen gemacht.

„Talend Data Preparation verbindet intuitive bedienbare Self-Service Data Preparation sowohl mit Data Curation Tools als auch mit Datenintegration“, so Potter. „Das machte Talend zu einer offensichtlichen Wahl als Data-Prep-Komponente in unserer Architektur.“ Potter & Co. mussten den Prozess lediglich auf die benötigten Daten und Formate anpassen. Die Lösung entdecke Fehler sofort und transformierte jede Datenmenge aus jeder beliebigen Quelle zum Export in jedes beliebige Ziel (Format, Lokation usw.) – und das binnen Minuten statt Stunden. Diese Abteilung kann jetzt mit ihrem sicheren und automatisierten Prozess mehr Kunden bedienen, aber dennoch die Termine für die Abgabe von Steuererklärungen einhalten.

In der Case Study auf der Talend-Webseite für Data Preparation beschreibt Avalara den Prozess im Detail. Doch allein schon die Vermeidung von Excel, die Fehlerbereinigung und die Beschleunigung und Skalierung um Größenordnungen sind am Ende des Tages pures Gold wert.

(ID:45769942)