Definition Was ist Data Preparation?

Autor / Redakteur: Tutanch / Nico Litzel

Data Preparation umfasst das Sammeln, Bereinigen, Aufbereiten und Bereitstellen von Daten. Ziel ist es, konsistente Daten in geeigneter Form für Analysezwecke zu liefern. Data Preparation lässt sich bis zu einem gewissen Grad automatisieren. Für Nicht-IT-Spezialisten stehen Self-Service-Data-Preparation-Werkzeuge zur Verfügung.

Anbieter zum Thema

(Bild: © aga7ta - stock.adobe.com)

Data Preparation gehört zu den vorbereitenden Arbeiten zur Durchführung von Analysen. Bestandteile der Data Preparation sind das Sammeln, Bereinigen, Aufbereiten und das Bereitstellen von verlässlichen und konsistenten Daten im benötigten Format. Die Ausgangsdaten können aus verschiedenen Quellen stammen und unterschiedliche Formate besitzen. Es kann sich sowohl um bereits strukturierte Daten als auch um unstrukturiert vorliegende Rohdaten und Informationen handeln.

Bis zu einem gewissen Grad lassen sich die Aufbereitungsprozesse automatisieren. Unter anderem kann das Machine Learning für die Automatisierung der Data Preparation eingesetzt werden. Für bestimmte Aufgaben können jedoch auch manuelle Eingriffe in die Prozesse notwendig sein. Mithilfe der sogenannten Self-Service Data Preparation ist es möglich, dass Anwender ohne tiefere IT- und Datenbankkenntnisse Data-Preparation-Prozesse erledigen. Bei besonders großen Datenmengen im Big-Data-Umfeld kann die Data Preparation ein sehr zeitaufwendiger Prozess sein, der mehr Ressourcen in Anspruch nimmt als die eigentlichen Analysen.

Die Ziele von Data Preparation

Daten sind in ihrer ursprünglichen Form oft inkonsistent, fehlerhaft und nicht-standardisiert. Das ist insbesondere der Fall, wenn die Daten aus vielen verschiedenen Quellen stammen oder mithilfe von manuellen Prozessen erhoben wurden. Ziel der Data Preparation ist es, die vorliegenden Daten so aufzubereiten und zusammenzufassen, dass sich aussagekräftige, fortgeschrittene Analysen durchführen lassen.

Die Data Preparation soll sicherstellen, dass die Daten korrekt, konsistent und relevant sind. Zudem sollen die Daten in das für die Analyse benötigte Format gebracht werden. Fehlerhafte Daten sind komplett zu erkennen und zu eliminieren. Nach einer erfolgreichen Bereinigung und Aufbereitung der Daten sind die Analysen wesentlich schneller durchzuführen. Vor allem wenn sogenannte Data Lakes zum Einsatz kommen, in denen Daten in ihrem ursprünglichen Rohformat zusammengetragen und unbearbeitet gespeichert werden, muss vor einer Analyse zwingend die Data Preparation erfolgen.

Ablauf der Data Preparation

Der Prozess der Data Preparation durchläuft viele verschiedene Einzelschritte und kann je nach Art der vorliegenden Daten und der durchzuführenden Analysen sehr unterschiedlich sein. Grundsätzlich lässt sich der Ablauf folgendermaßen beschreiben:

Zunächst werden die benötigten Daten identifiziert und aus den verschiedenen Datenspeichern zusammengetragen. Im nächsten Schritt erfolgt die Bereinigung der Daten, indem fehlerhafte oder irrelevante Daten entfernt werden. Die nun noch vorhandenen Daten sind anschließend in die korrekte Form zu bringen. Hierfür sind sie in die benötigten Formate zu überführen. Das Ergebnis mit den bereinigten Datensätzen kann als einzelne Datei vorliegen oder in Form von Daten in einer Datenbank beziehungsweise einem Data Warehouse bereitgestellt werden. Die Analyse greift über definierte Schnittstellen auf diese Daten zu.

Self-Service Data Preparation

Anwender, die mit der Durchführung von Analysen beschäftigt sind, verfügen oft nicht über tiefere IT- oder Datenbankkenntnisse. In vielen Fällen möchten die einzelnen Fachbereiche die Analysen selbstständig durchführen, ohne Ressourcen der IT-Abteilung in Anspruch nehmen zu müssen. Da die Data Preparation jedoch spezielles IT- und Datenbank-Know-how voraussetzt, werden den Fachbereichen Werkzeuge zur Self-Service Data Preparation bereitgestellt. Diese Tools ermöglichen es Anwendern, die Bereinigung und Aufbereitung der Daten über komfortabel bedienbare Oberflächen selbst durchzuführen.

Cloud Dataprep – Beispiel für einen cloudbasierten Data Preparation Service

Data Preparation Services sind mittlerweile auch in Form von cloudbasierten Services verfügbar. Ein Beispiel für einen solchen Service ist Cloud Dataprep. Cloud Dataprep ist in die Google-Cloud-Plattform integriert und stellt intelligente Dienste für die Bereinigung, Aufbereitung und Vorbereitung von strukturierten oder unstrukturierten Daten zur Verfügung. Anwender können diese Services ohne eigene Infrastruktur in Anspruch nehmen. Cloud Dataprep, entstanden in Kooperation mit dem Data-Wrangling-Spezialisten Trifacta, lässt sich leicht skalieren und ist für Business-Intelligence-Anwendungen im Big-Data-Umfeld einsetzbar. Selbst großen Datenmengen lassen sich in kurzer Zeit verarbeiten. Durch die Unterstützung unterschiedlicher Datenquellen sowie strukturierten und unstrukturierten Datenbanken ist der Service flexibel in verschiedenen Umgebungen nutzbar. Ergebnisse lassen sich in vielen verschiedenen Formaten und Dateiformen bereitstellen. Durch die Integration in die Google-Cloud-Plattform sind sowohl Daten vom eigenen lokalen Rechner als auch Daten aus Cloud Services wie Google Cloud Storage problemlos zu verarbeiten. Ergebnisse können direkt in Google BigQuery exportiert und dort analysiert werden.

(ID:45158370)