Suchen

Grundlagen für fundierte Big Data Analytics So verbessern Unternehmen ihre Datenqualität

| Redakteur: Nico Litzel

Analysen sind nur so gut wie die Daten, auf denen sie beruhen. Hier gilt es, viele Fallstricke zu vermeiden. Fehlerpotenzial steckt nach Angaben von SAS in den Quellen, aus denen die Daten stammen, in den angewandten Prozessen und in den Mitarbeitern, die sie auswerten. Andreas Gödde, Director Business Analytics bei SAS Deutschland, gibt fünf Tipps für bessere Unternehmensdaten.

Firma zum Thema

Andreas Gödde, Director Business Analytics bei SAS Deutschland
Andreas Gödde, Director Business Analytics bei SAS Deutschland
(Bild: SAS)

Andreas Gödde, Director Business Analytics bei SAS Deutschland, sieht folgende fünf Schritte als entscheidende Voraussetzung für bessere Unternehmensdaten:

Data Profiling untersucht die Struktur, die Beziehungen und den Inhalt vorhandener Datenquellen, um ein genaues Bild vom Zustand der Daten zu ermöglichen. Diese Einschätzung bildet die Grundlage für die Planung der sinnvollsten Wege zur Korrektur und Harmonisierung der Informationsbestände. Dabei werden die Aspekte Datenstruktur, Dateneinträge und Datenbeziehungen erfasst und bewertet. Data Profiling liefert quantifizierbare, detaillierte Informationen über die Stärken und Schwächen der Unternehmensdaten. Aus diesen Kenntnissen lassen sich weitere Maßnahmen für eine Verbesserung der Datenqualität ableiten.

Datenqualität: Das Verfahren nutzt die Resultate der Datenanalyse, um mit dem Aufbau höherwertiger Daten zu beginnen. In diesem Schritt werden Fehler korrigiert, Informationen standardisiert und Daten unternehmensweit validiert. Mittels Verfahren wie Datenstandardisierung, Musterstandardisierung oder Adressvalidierung werden Regeln definiert, um die Daten kontinuierlich auf einem höheren Qualitätslevel zu halten. Ist der Datenqualitätsprozess abgeschlossen, verfügt ein Unternehmen über die notwendigen Mittel, um Daten aus jeder Quelle hinsichtlich ihrer Vollständigkeit und Präzision auf das angestrebte Niveau zu bringen. Der nächste Schritt besteht in der Integration vielfältiger Quellen.

Datenintegration dient dazu, die Daten aus verschiedenen Quellen zu optimieren, und ermöglicht die Konsolidierung von voneinander abweichenden Einträgen zu einem einzigen Stammdatensatz. Intelligente Verfahren wie beispielsweise Fuzzy Matching führen hierbei Daten aus unterschiedlichen Datenbeständen zusammen. Nach erfolgreicher Integration verfügt das Unternehmen über eine vollständige Sicht auf alle Daten zu einem Objekt.

Datenanreicherung ergänzt Datensätze, um den Informationswert und die Nützlichkeit der Daten zu erhöhen. Dies kann beispielsweise durch von Partnern oder anderen Firmen beigetragene (Kunden-)Daten beziehungsweise durch Kombination mit Daten zum Kundenverhalten sowie durch die Verbindung zu externen Quellen geschehen.

Datenkontrolle ist ein wesentlicher Erfolgsfaktor in einem Data-Governance-Programm. Sie verschafft Unternehmen kontinuierlich Kenntnis vom Zustand ihrer Daten, sodass sie die Ursachen für Datenqualitätsprobleme isolieren und korrigieren können. Zu den Ansätzen gehören unter anderem automatisierte Data Profiling Reports, die in regelmäßigen Abständen Analysen der Daten in Bezug auf Ausnahmen und nicht standardisierte Daten liefern. Bei einem hohen Anteil außergewöhnlicher Daten gibt es eine Meldung an den verantwortlichen Mitarbeiter. Dynamischer und effektiver ist die Durchsetzung von Geschäftsprozessregeln in Form von Web Services. Daten werden nach diesen Regeln in Echtzeit während der Eingabe oder auf ihrem Weg durch das Unternehmen überprüft.

(ID:43065931)