Definition

Was ist Data Preparation?

| Autor / Redakteur: Tutanch / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Data Preparation umfasst das Sammeln, Bereinigen, Aufbereiten und Bereitstellen von Daten. Ziel ist es, konsistente Daten in geeigneter Form für Analysezwecke zu liefern. Data Preparation lässt sich bis zu einem gewissen Grad automatisieren. Für Nicht-IT-Spezialisten stehen Self-Service-Data-Preparation-Werkzeuge zur Verfügung.

Data Preparation gehört zu den vorbereitenden Arbeiten zur Durchführung von Analysen. Bestandteile der Data Preparation sind das Sammeln, Bereinigen, Aufbereiten und das Bereitstellen von verlässlichen und konsistenten Daten im benötigten Format. Die Ausgangsdaten können aus verschiedenen Quellen stammen und unterschiedliche Formate besitzen. Es kann sich sowohl um bereits strukturierte Daten als auch um unstrukturiert vorliegende Rohdaten und Informationen handeln.

Bis zu einem gewissen Grad lassen sich die Aufbereitungsprozesse automatisieren. Unter anderem kann das Machine Learning für die Automatisierung der Data Preparation eingesetzt werden. Für bestimmte Aufgaben können jedoch auch manuelle Eingriffe in die Prozesse notwendig sein. Mithilfe der sogenannten Self-Service Data Preparation ist es möglich, dass Anwender ohne tiefere IT- und Datenbankkenntnisse Data-Preparation-Prozesse erledigen. Bei besonders großen Datenmengen im Big-Data-Umfeld kann die Data Preparation ein sehr zeitaufwendiger Prozess sein, der mehr Ressourcen in Anspruch nimmt als die eigentlichen Analysen.

Die Ziele von Data Preparation

Daten sind in ihrer ursprünglichen Form oft inkonsistent, fehlerhaft und nicht-standardisiert. Das ist insbesondere der Fall, wenn die Daten aus vielen verschiedenen Quellen stammen oder mithilfe von manuellen Prozessen erhoben wurden. Ziel der Data Preparation ist es, die vorliegenden Daten so aufzubereiten und zusammenzufassen, dass sich aussagekräftige, fortgeschrittene Analysen durchführen lassen.

Die Data Preparation soll sicherstellen, dass die Daten korrekt, konsistent und relevant sind. Zudem sollen die Daten in das für die Analyse benötigte Format gebracht werden. Fehlerhafte Daten sind komplett zu erkennen und zu eliminieren. Nach einer erfolgreichen Bereinigung und Aufbereitung der Daten sind die Analysen wesentlich schneller durchzuführen. Vor allem wenn sogenannte Data Lakes zum Einsatz kommen, in denen Daten in ihrem ursprünglichen Rohformat zusammengetragen und unbearbeitet gespeichert werden, muss vor einer Analyse zwingend die Data Preparation erfolgen.

Ablauf der Data Preparation

Der Prozess der Data Preparation durchläuft viele verschiedene Einzelschritte und kann je nach Art der vorliegenden Daten und der durchzuführenden Analysen sehr unterschiedlich sein. Grundsätzlich lässt sich der Ablauf folgendermaßen beschreiben:

Zunächst werden die benötigten Daten identifiziert und aus den verschiedenen Datenspeichern zusammengetragen. Im nächsten Schritt erfolgt die Bereinigung der Daten, indem fehlerhafte oder irrelevante Daten entfernt werden. Die nun noch vorhandenen Daten sind anschließend in die korrekte Form zu bringen. Hierfür sind sie in die benötigten Formate zu überführen. Das Ergebnis mit den bereinigten Datensätzen kann als einzelne Datei vorliegen oder in Form von Daten in einer Datenbank beziehungsweise einem Data Warehouse bereitgestellt werden. Die Analyse greift über definierte Schnittstellen auf diese Daten zu.

Self-Service Data Preparation

Anwender, die mit der Durchführung von Analysen beschäftigt sind, verfügen oft nicht über tiefere IT- oder Datenbankkenntnisse. In vielen Fällen möchten die einzelnen Fachbereiche die Analysen selbstständig durchführen, ohne Ressourcen der IT-Abteilung in Anspruch nehmen zu müssen. Da die Data Preparation jedoch spezielles IT- und Datenbank-Know-how voraussetzt, werden den Fachbereichen Werkzeuge zur Self-Service Data Preparation bereitgestellt. Diese Tools ermöglichen es Anwendern, die Bereinigung und Aufbereitung der Daten über komfortabel bedienbare Oberflächen selbst durchzuführen.

Cloud Dataprep – Beispiel für einen cloudbasierten Data Preparation Service

Data Preparation Services sind mittlerweile auch in Form von cloudbasierten Services verfügbar. Ein Beispiel für einen solchen Service ist Cloud Dataprep. Cloud Dataprep ist in die Google-Cloud-Plattform integriert und stellt intelligente Dienste für die Bereinigung, Aufbereitung und Vorbereitung von strukturierten oder unstrukturierten Daten zur Verfügung. Anwender können diese Services ohne eigene Infrastruktur in Anspruch nehmen. Cloud Dataprep, entstanden in Kooperation mit dem Data-Wrangling-Spezialisten Trifacta, lässt sich leicht skalieren und ist für Business-Intelligence-Anwendungen im Big-Data-Umfeld einsetzbar. Selbst großen Datenmengen lassen sich in kurzer Zeit verarbeiten. Durch die Unterstützung unterschiedlicher Datenquellen sowie strukturierten und unstrukturierten Datenbanken ist der Service flexibel in verschiedenen Umgebungen nutzbar. Ergebnisse lassen sich in vielen verschiedenen Formaten und Dateiformen bereitstellen. Durch die Integration in die Google-Cloud-Plattform sind sowohl Daten vom eigenen lokalen Rechner als auch Daten aus Cloud Services wie Google Cloud Storage problemlos zu verarbeiten. Ergebnisse können direkt in Google BigQuery exportiert und dort analysiert werden.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Tableau veröffentlicht Explain Data, Catalog und weitere Neuheiten

Analytics-Plattform erweitert

Tableau veröffentlicht Explain Data, Catalog und weitere Neuheiten

Tableau Software hat seine Analytics-Plattform in Version 2019.3 um einige Neuheiten erweitert. Dazu zählen Explain Data für statistische Analysen, Catalog zur Datenverwaltung sowie ein Add-on für das Server-Management. lesen

Wie Datenanalyse im Unternehmen umgesetzt werden kann

Data Analytics

Wie Datenanalyse im Unternehmen umgesetzt werden kann

Potenziale aus Daten zu heben, steht aktuell im Fokus vieler Unternehmen – gleichzeitig stehen sie vor dem Frage, wie Datenanalyse im eigenen Unternehmen umgesetzt werden kann. Ein Überblick, was beachtet werden muss. lesen

Enterprise-BI-Anbieter im Vergleich

BARC Score veröffentlicht

Enterprise-BI-Anbieter im Vergleich

Das Business Application Research Center (BARC) hat die fünfte Ausgabe seines BARC Score Enterprise BI and Analytics Platforms veröffentlicht. Darin werden 20 marktrelevante Hersteller auf Basis umfangreicher Kriterien und Anwenderbewertungen eingestuft. lesen

Tableau – eine Zukunft unter dem Dach von Salesforce

Nachbericht Tableau Conference Europe 2019

Tableau – eine Zukunft unter dem Dach von Salesforce

Auf der europäischen Kundenkonferenz in Berlin kündigte Tableau, ein Spezialist für Datenvisualisierung, kürzlich eine Reihe von Neuheiten an. Zudem äußerte sich der CEO Adam Selipsky zu den möglichen Auswirkungen der geplanten Übernahme seines Unternehmens durch den Cloud-Giganten Salesforce. lesen

IBM Db2 11.5 erhält KI-Ausstattung

Weniger Aufwand, mehr Flexibilität

IBM Db2 11.5 erhält KI-Ausstattung

IBMs Db2-Datenbank erhält ein Update auf Version 11.5. Mit an Bord: KI-Tools, um Data Management und Data Science auf einer Plattform zusammenzuführen, sowie Suchfunktionen in natürlicher Sprache. lesen

Wie die Cloud hilft, den Bierabsatz zu optimieren

Data Lake in Azure-Cloud beschleunigt Entscheidungsfindung bei AB InBev

Wie die Cloud hilft, den Bierabsatz zu optimieren

Bei der Brauereigruppe AB InBev verbrachten einzelne Mitarbeiter früher bis zu 80 Prozent ihrer Zeit damit, relevante Daten zu identifizieren und aufzubereiten. Über eine zentrale Cloud-Lösung werden heute Daten schneller bereitgestellt, sodass Mitarbeiter mehr Zeit für die Analyse und die strategische Entscheidungsfindung haben. lesen

Benutzerfreundlichkeit ist das wichtigste Kaufkriterium

Advanced-Analytics-Software

Benutzerfreundlichkeit ist das wichtigste Kaufkriterium

Laut der „The Advanced Analytics Survey 19“ des Business Application Research Centers (BARC) ist die Benutzerfreundlichkeit das wichtigste Kaufkriterium für Unternehmen, die eine Advanced-Analytics-Lösung erwerben wollen. lesen

Digitale Transformation – 10 Punkte, die Unternehmen beachten sollten

Kommentar von Markus Enderlein, Infomotion

Digitale Transformation – 10 Punkte, die Unternehmen beachten sollten

Komplexere Datenwelten, neue Möglichkeiten der Vernetzung und der Wandel etablierter Technologien – die digitale Transformation schreitet in einer Geschwindigkeit voran, die selbst so manchen Branchenexperten verblüfft. Neue Herstellungsprozesse, Services und Märkte entstehen und die Nutzungsmuster und Erwartungen der Konsumenten verändern sich. lesen

Informatica erweitert KI-Funktionen in fünf Segmenten

Release erweitert

Informatica erweitert KI-Funktionen in fünf Segmenten

Im aktuellen Release bietet die Informatica-Plattform KI-gesteuerte Automatisierungsfähigkeiten in fünf verschiedenen Segmenten. Zudem wurden die Cloud- und Serverless-Fähigkeiten ausgebaut. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45158370 / Definitionen)