Definition Was ist Data Profiling?

Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel |

Beim Data Profiling handelt es sich um überwiegend automatisierte Prozesse, mit denen sich die Qualität von Daten im Hinblick auf Struktur, Eindeutigkeit, Konsistenz und Logik analysieren und bewerten lässt. Data Profiling behebt jedoch keine Qualitätsprobleme der Daten.

Anbieter zum Thema

(Bild: © aga7ta - stock.adobe.com)

Data Profiling analysiert und bewertet die Qualität von Datenbeständen beispielsweise von einer oder mehrerer Datenbanken. Die Prozesse des Data Profilings laufen zum größten Teil automatisiert ab. In bestimmten Bereichen ist jedoch der manuelle Eingriff von Datenanalysten erforderlich. Zum Einsatz kommen verschiedene Analysetechniken, die die Daten nach Kriterien wie Struktur, Eindeutigkeit, Konsistenz und Logik analysieren und bewerten.

Erkannte Qualitätsprobleme der Daten kann das Data Profiling nicht beheben. Allenfalls zugehörige Metadaten lassen sich korrigieren. Die Behebung der Qualitätsprobleme ist nachfolgenden Prozessen vorbehalten. Mithilfe der vom Data Profiling gelieferten Ergebnisse ist es möglich, zu beurteilen, wie gut die vorhandenen Daten für bestimmte Zwecke nutzbar sind und welche Aufwände bei weiteren Aktivitäten entstehen. Vor allem im Big-Data-Umfeld, wo große Datenmengen gesammelt und teilweise unbearbeitet gespeichert werden, ist das Data Profiling ein unentbehrlicher Vorbereitungsprozess zur Aufbereitung der Daten für aussagekräftige und relevante Business-Analysen.

Es existieren zahlreiche Tools für das Data Profiling, die Verfahren der Statistik und des Data Minings anwenden. In Zusammenarbeit von IT-Experten, Datenanalysten und Anwendern der Fachabteilungen erfolgen die Interpretation der Ergebnisse und eventuelle Prozessveränderungen.

Ziele und Vorteile des Data Profilings

Data Profiling verfolgt mehrere Ziele. Mithilfe der Data-Profiling-Prozesse kann herausgefunden werden, wie gut sich die Daten für weitere Zwecke nutzen lassen. Die Prozesse liefern Erkenntnisse über die Qualität der Daten beispielsweise im Hinblick auf eine gute Durchsuchbarkeit nach bestimmten Kriterien oder Keywords. Zudem lassen sich die Risiken und Aufwände abschätzen, die bei der Integration der Daten in bestehende Prozesse oder neue Anwendungen entstehen. Datenanalysten und Anwender erhalten ein besseres Verständnis, um die durch die Datenqualität verursachten Aufwände oder Herausforderungen exakter beurteilen zu können. Es lassen sich Überraschungen in Datenprojekten verhindern und Verzögerungen oder zusätzliche Kosten schon im Vorfeld vermeiden. Data Profiling minimiert und optimiert Projektlaufzeiten und Aufwände im Umgang mit den vorhandenen Daten.

Die verschiedenen Data-Profiling-Verfahren

Das Data Profiling nutzt verschiedene Analysemethoden, um die Qualität, Struktur und den Inhalt von Daten zu bewerten. Bei den Analysen werden sowohl die Beziehungen der Daten innerhalb von Datensätzen als auch zwischen verschiedenen Datensätzen herangezogen. Die Verfahren können nach Analysen von einzelnen Attributen, verschiedenen Datensätzen und unterschiedlichen Tabellen unterteilt werden.

Während die Attribut-Analyse nur die Eigenschaften der Attribute einer Tabelle untersucht, analysiert die Datensatz-Analyse alle Datensätze in einer Tabelle. Tabellenübergreifend arbeitet die Tabellen-Analyse. Sie untersucht Beziehungen und Verknüpfungen zwischen verschiedenen Tabellen. Bei den verschiedenen Analysemethoden kommen statistische Verfahren wie die Miminalwertsuche, Maximalwertsuche, Durchschnittswerte, Standardverteilungen, Häufigkeiten und viele weitere zum Einsatz. Die Komplexität der eingesetzten Verfahren erhöht sich von der Attribut-Analyse über die Datensatz-Analyse zur Tabellen-Analyse. Je höher die Komplexität, desto leistungsfähigere Systeme werden für das Data Profiling benötigt.

Möglicher Ablauf beim Data Profiling

Data Profiling kann in vielen verschiedenen Einzelschritten ablaufen. Ein typischer Ablauf besteht aus vier Schritten. Diese vier Schritte sind:

  • Integration der Daten
  • Analyse der integrierten Daten
  • Darstellung der Ergebnisse
  • fachliche Bewertung der Ergebnisse

Im ersten Schritt geht es darum, die Daten aus den verschiedenen Datenquellen für das Data Profiling zu extrahieren. Beispielsweise lassen sich alle zu analysierenden Daten in einen eigens hierfür vorgesehenen Bereich kopieren. Durch diese Entkopplung minimiert sich die Beeinflussung von Produktivsystemen durch Data Profiling und gleichzeitig ist die Konsistenz der Daten über den kompletten Profiling-Prozess sichergestellt.

Im Rahmen der Integration der Daten findet auch eine Aufbereitung statt, bei der beispielsweise nicht benötigte Attribute entfernt werden. Die gesammelten und aufbereiteten Daten stehen anschließend für die Analyse zur Verfügung. Hierfür kommen die verschiedenen Methoden und Verfahren des Data Profilings zum Einsatz. Viele Analysen laufen automatisiert ab. Der Datenanalyst wählt die passenden Analyseverfahren aus, konfiguriert und überwacht sie und betrachtet die Ergebnisse. Die Analyse selbst kann in mehreren iterativen Prozessschritten erfolgen.

Im dritten Schritt werden die Ergebnisse in geeigneter Form aufbereitet und einem Business-Analysten übergeben. Wichtig ist es in diesem Prozessschritt, sich von der IT-lastigen Darstellung zu trennen und die Ergebnisse in für den Business-Analysten verständliche Begriffe zu überführen. Abschließend findet die eigentliche Bewertung der Ergebnisse des Data Profilings durch den Business-Analysten statt. Der Datenanalyst kann in dieser Phase für Fragen und unterstützende Maßnahmen zur Verfügung stehen.

(ID:45169635)