Definition

Was ist Data Profiling?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Beim Data Profiling handelt es sich um überwiegend automatisierte Prozesse, mit denen sich die Qualität von Daten im Hinblick auf Struktur, Eindeutigkeit, Konsistenz und Logik analysieren und bewerten lässt. Data Profiling behebt jedoch keine Qualitätsprobleme der Daten.

Data Profiling analysiert und bewertet die Qualität von Datenbeständen beispielsweise von einer oder mehrerer Datenbanken. Die Prozesse des Data Profilings laufen zum größten Teil automatisiert ab. In bestimmten Bereichen ist jedoch der manuelle Eingriff von Datenanalysten erforderlich. Zum Einsatz kommen verschiedene Analysetechniken, die die Daten nach Kriterien wie Struktur, Eindeutigkeit, Konsistenz und Logik analysieren und bewerten.

Erkannte Qualitätsprobleme der Daten kann das Data Profiling nicht beheben. Allenfalls zugehörige Metadaten lassen sich korrigieren. Die Behebung der Qualitätsprobleme ist nachfolgenden Prozessen vorbehalten. Mithilfe der vom Data Profiling gelieferten Ergebnisse ist es möglich, zu beurteilen, wie gut die vorhandenen Daten für bestimmte Zwecke nutzbar sind und welche Aufwände bei weiteren Aktivitäten entstehen. Vor allem im Big-Data-Umfeld, wo große Datenmengen gesammelt und teilweise unbearbeitet gespeichert werden, ist das Data Profiling ein unentbehrlicher Vorbereitungsprozess zur Aufbereitung der Daten für aussagekräftige und relevante Business-Analysen.

Es existieren zahlreiche Tools für das Data Profiling, die Verfahren der Statistik und des Data Minings anwenden. In Zusammenarbeit von IT-Experten, Datenanalysten und Anwendern der Fachabteilungen erfolgen die Interpretation der Ergebnisse und eventuelle Prozessveränderungen.

Ziele und Vorteile des Data Profilings

Data Profiling verfolgt mehrere Ziele. Mithilfe der Data-Profiling-Prozesse kann herausgefunden werden, wie gut sich die Daten für weitere Zwecke nutzen lassen. Die Prozesse liefern Erkenntnisse über die Qualität der Daten beispielsweise im Hinblick auf eine gute Durchsuchbarkeit nach bestimmten Kriterien oder Keywords. Zudem lassen sich die Risiken und Aufwände abschätzen, die bei der Integration der Daten in bestehende Prozesse oder neue Anwendungen entstehen. Datenanalysten und Anwender erhalten ein besseres Verständnis, um die durch die Datenqualität verursachten Aufwände oder Herausforderungen exakter beurteilen zu können. Es lassen sich Überraschungen in Datenprojekten verhindern und Verzögerungen oder zusätzliche Kosten schon im Vorfeld vermeiden. Data Profiling minimiert und optimiert Projektlaufzeiten und Aufwände im Umgang mit den vorhandenen Daten.

Die verschiedenen Data-Profiling-Verfahren

Das Data Profiling nutzt verschiedene Analysemethoden, um die Qualität, Struktur und den Inhalt von Daten zu bewerten. Bei den Analysen werden sowohl die Beziehungen der Daten innerhalb von Datensätzen als auch zwischen verschiedenen Datensätzen herangezogen. Die Verfahren können nach Analysen von einzelnen Attributen, verschiedenen Datensätzen und unterschiedlichen Tabellen unterteilt werden.

Während die Attribut-Analyse nur die Eigenschaften der Attribute einer Tabelle untersucht, analysiert die Datensatz-Analyse alle Datensätze in einer Tabelle. Tabellenübergreifend arbeitet die Tabellen-Analyse. Sie untersucht Beziehungen und Verknüpfungen zwischen verschiedenen Tabellen. Bei den verschiedenen Analysemethoden kommen statistische Verfahren wie die Miminalwertsuche, Maximalwertsuche, Durchschnittswerte, Standardverteilungen, Häufigkeiten und viele weitere zum Einsatz. Die Komplexität der eingesetzten Verfahren erhöht sich von der Attribut-Analyse über die Datensatz-Analyse zur Tabellen-Analyse. Je höher die Komplexität, desto leistungsfähigere Systeme werden für das Data Profiling benötigt.

Möglicher Ablauf beim Data Profiling

Data Profiling kann in vielen verschiedenen Einzelschritten ablaufen. Ein typischer Ablauf besteht aus vier Schritten. Diese vier Schritte sind:

  • Integration der Daten
  • Analyse der integrierten Daten
  • Darstellung der Ergebnisse
  • fachliche Bewertung der Ergebnisse

Im ersten Schritt geht es darum, die Daten aus den verschiedenen Datenquellen für das Data Profiling zu extrahieren. Beispielsweise lassen sich alle zu analysierenden Daten in einen eigens hierfür vorgesehenen Bereich kopieren. Durch diese Entkopplung minimiert sich die Beeinflussung von Produktivsystemen durch Data Profiling und gleichzeitig ist die Konsistenz der Daten über den kompletten Profiling-Prozess sichergestellt.

Im Rahmen der Integration der Daten findet auch eine Aufbereitung statt, bei der beispielsweise nicht benötigte Attribute entfernt werden. Die gesammelten und aufbereiteten Daten stehen anschließend für die Analyse zur Verfügung. Hierfür kommen die verschiedenen Methoden und Verfahren des Data Profilings zum Einsatz. Viele Analysen laufen automatisiert ab. Der Datenanalyst wählt die passenden Analyseverfahren aus, konfiguriert und überwacht sie und betrachtet die Ergebnisse. Die Analyse selbst kann in mehreren iterativen Prozessschritten erfolgen.

Im dritten Schritt werden die Ergebnisse in geeigneter Form aufbereitet und einem Business-Analysten übergeben. Wichtig ist es in diesem Prozessschritt, sich von der IT-lastigen Darstellung zu trennen und die Ergebnisse in für den Business-Analysten verständliche Begriffe zu überführen. Abschließend findet die eigentliche Bewertung der Ergebnisse des Data Profilings durch den Business-Analysten statt. Der Datenanalyst kann in dieser Phase für Fragen und unterstützende Maßnahmen zur Verfügung stehen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Datenaufbereitung ist ein unterschätzter Prozess

Data Preparation

Datenaufbereitung ist ein unterschätzter Prozess

Der Prozess der Datenaufbereitung umfasst die Reinigung, Formung und Mischung von Daten, damit sie für analytische und andere Aufgaben in optimaler Qualität bereitstehen. Nur mit erstklassigen Daten lassen sich beispielsweise Lösungen für Machine Learning und Künstliche Intelligenz effizient, sicher und zuverlässig versorgen. lesen

Data Management über verteilte Landschaften

Kommentar von Timo Kubach & Christian Mathis, SAP

Data Management über verteilte Landschaften

Das Volumen relevanter Unternehmensdaten wächst exponentiell und soll laut einer Studie von IDC aus dem Jahr 2017 bis 2025 158 Zettabyte erreichen. Diese explosionsartige Zunahme an zumeist unstrukturierten Daten (IoT, Bilder, soziale Netzwerke) entfesselt neue Innovationspotenziale für Unternehmen. lesen

In fünf Schritten zu optimalen IoT-Daten

Tipps von Information Builders

In fünf Schritten zu optimalen IoT-Daten

Die Datenmanagement-Spezialisten von Information Builders erklären in fünf Schritten die wichtigsten Maßnahmen zum Aufbau und Betrieb eines Programms für hohe IoT-Datenqualität. lesen

Sechs Schritte für mehr Datenqualität

Tipps von Information Builders

Sechs Schritte für mehr Datenqualität

Ist die Datenqualität unzureichend, kostet das Zeit und im schlimmsten Fall viel Geld. Der Business-Intelligence-Spezialist Information Builders gibt deshalb sechs einfache Tipps, um Konsistenz und Zuverlässigkeit der Daten zu optimieren. lesen

Das Virtual Data Warehouse verhilft zur schnelleren digitalen Transformation

Big Data und Virtual Data Warehouse

Das Virtual Data Warehouse verhilft zur schnelleren digitalen Transformation

Das traditionelle Data Warehouse ist auf die Verarbeitung strukturierter Daten ausgelegt, welche es effizient und performant erledigt. Doch Big Data besteht aus unstrukturierten Daten, Datenströmen, die in großen Mengen und mit hoher Geschwindigkeit eintreffen. Um Leistung und Effizienz zu erhalten, aber Flexibilität hinzuzugewinnen, bietet das Virtual Data Warehouse eine vielversprechende Alternative. lesen

Yellowfin bringt integriertes und virtualisiertes Data Preparation Module

Neue Version der Business-Intelligence-Plattform

Yellowfin bringt integriertes und virtualisiertes Data Preparation Module

Parallel zur Vorstellung der neuen Version 7.3 der BI-Plattform Yellowfin bringt der gleichnamige Hersteller erstmals ein integriertes und virtualisiertes Data Preparation Module auf den Markt. lesen

So verbinden Sie das Data Warehouse mit Big Data

Big Data mit Talend

So verbinden Sie das Data Warehouse mit Big Data

Mit der „Big Data Sandbox“ von Talend können Unternehmen ihre Data Warehouses oder andere Datenquellen mit einer vorkonfigurierten Big-Data-Umgebung verbinden, inklusive Hadoop. Die Umgebung soll vor allem dabei helfen einen besseren Einstieg in Big Data zu finden. Integrieren lassen sich unter anderem Cloudera oder MapR. lesen

Fachliche Vielseitigkeit und Kreativität sind gefragt

Berufsbild Data Scientist

Fachliche Vielseitigkeit und Kreativität sind gefragt

Bei Big-Data-Projekten fällt der Rolle des Data Scientist eine Schlüsselfunktion zu: Dieser Mitarbeiter, der Kenntnisse in Mathematik, Informatik und Betriebswirtschaft vereint, kommuniziert den möglichen Mehrwert von analytischen Resultaten an die Unternehmensleitung. So wird er Teil von strategischen Entscheidungsprozessen. lesen

So verbessern Unternehmen ihre Datenqualität

Grundlagen für fundierte Big Data Analytics

So verbessern Unternehmen ihre Datenqualität

Analysen sind nur so gut wie die Daten, auf denen sie beruhen. Hier gilt es, viele Fallstricke zu vermeiden. Fehlerpotenzial steckt nach Angaben von SAS in den Quellen, aus denen die Daten stammen, in den angewandten Prozessen und in den Mitarbeitern, die sie auswerten. Andreas Gödde, Director Business Analytics bei SAS Deutschland, gibt fünf Tipps für bessere Unternehmensdaten. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45169635 / Definitionen)