Suchen

Definition Was ist Datenbereinigung?

| Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

Die Datenbereinigung findet fehlerhafte, doppelte, inkonsistente, ungenaue, falsch formatierte oder irrelevante Daten in einer Datenbank und korrigiert sie. Der Prozess der Datenbereinigung besteht aus mehreren aufeinander folgenden Einzelschritten, die teilweise immer wieder zu durchlaufen sind.

(Bild: © aga7ta - stock.adobe.com)

Der englische Begriff für Datenbereinigung lautet Data Cleansing. Ziel der Datenbereinigung ist es, fehlerhafte, doppelte, inkonsistente, falsch formatierte oder ungenaue und irrelevante Daten in einer Datenbank zu finden und sie zu korrigieren. Im Rahmen der Bereinigung werden Daten beispielsweise ergänzt, gelöscht, umformatiert oder angepasst. Nach der Bereinigung haben die Daten eine höhere Informationsqualität. Unternehmen können mit größerer Zuverlässigkeit mit ihnen arbeiten.

Im Big-Data-Umfeld hat das Data Cleansing wesentlichen Anteil an der Qualität und Richtigkeit der durchgeführten Analysen. In der Regel führen Softwareprogramme die Bereinigung automatisiert durch. Administratoren stellen die Anforderungen auf, überwachen den Vorgang und greifen bei bestimmten erkannten Problemen aktiv ein.

Der Prozess der Datenbereinigung besteht aus mehreren aufeinander folgenden Einzelschritten. Je nach Informationssystem und erforderlicher Zielqualität sind diese Einzelschritte mehrfach zu durchlaufen. In vielen Fällen handelt es sich bei der Datenbereinigung um einen kontinuierlich, in regelmäßigen Abständen immer wieder stattfindenden Vorgang.

Die Ziele der Datenbereinigung

Um auf Basis der von den Daten gelieferten Informationen verlässliche Auswertungen zu erstellen, muss die Fehlerfreiheit, Konsistenz und richtige Form der Daten sichergestellt sein. Die Datenbereinigung hat zum Ziel, genau das zu gewährleisten. Folgende Fragestellungen werden während der Datenbereinigung bearbeitet:

  • Sind die Informationen richtig (treten beispielsweise falsche Schreibweisen oder Tippfehler auf)?
  • Sind Informationen doppelt in der Datenbank vorhanden?
  • Sind die Daten in sich konsistent und stimmig?
  • Wurden Datenbereiche eventuell abgeschnitten oder nur teilweise erfasst?
  • Sind die Daten veraltet und haben nicht die benötigte Aktualität?
  • Liegen die Daten im richtigen Format vor?
  • Haben die Daten korrekt Bezüge untereinander?
  • Sind die Daten frei von Manipulationen?

Abhängig von den Antworten auf die verschiedenen Fragen, führt die Datenbereinigung unterschiedliche Aktionen aus.

Die verschiedenen Schritte der Datenbereinigung

Der komplette Prozess der Datenbereinigung lässt sich in mehrere Einzelschritte unterteilen. Im Wesentlichen handelt es sich um folgende vier Schritte:

  • 1. Definition der Anforderungen an die Datenqualität
  • 2. Analyse der vorliegenden Daten gemäß den zuvor erstellten Anforderungen
  • 3. Auflistung der während der Analyse festgestellten Probleme der Datenqualität
  • 4. Durchführung der eigentlichen Bereinigung

Eventuell ist es notwendig, die Schritte mehrfach zu durchlaufen. In diesem Fall startet direkt nach Schritt 4 die erneute Analyse der Daten (Schritt 2). Die Schritte 2 bis 4 werden so lange durchlaufen, bis die gewünschte Datenqualität erreicht ist. Im Vorfeld einer Datenbereinigung sollte ein Backup der Datenbank angelegt werden. Sämtliche Aktionen der Datenbereinigung und die veränderten oder gelöschten Daten selbst sind zudem zu protokollieren und zu speichern, um die Nachvollziehbarkeit und Revisionssicherheit zu gewährleisten. Die eigentliche Datenbereinigung (Schritt 4) besteht wiederum aus mehreren Einzelprozessen. Diese Einzelprozesse sind beispielsweise:

  • Duplikate entfernen
  • leere Datenfelder füllen oder entfernen
  • Daten vervollständigen
  • Daten im Zielformat formatieren
  • Ableiten von Daten aus vorhandenen Daten
  • Ersetzen oder Löschen fehlerhafter Daten
  • Zusammenfassen von Daten
  • Trennen von Daten

Wichtig festzuhalten ist, dass der Aufwand der Datenbereinigung reduziert werden kann, wenn Fehler schon bei der Datenerfassung vermieden werden. Typische Fehlerquellen lassen sich beispielsweise ausschließen, wenn während der Datenerfassung bereits eine Prüfung auf Plausibilität, Form und Richtigkeit durchgeführt wird. Realisierbar ist dies durch intelligente Eingabemasken und vorgegebene Wertebereiche sowie Datenformate.

Die Bedeutung der Datenbereinigung im Big-Data-Umfeld

Aufgrund der zunehmenden Digitalisierung fallen in Unternehmen immer größere Datenmengen an. Zur Analyse dieser riesigen Datenmengen kommen spezielle Big-Data-Anwendungen und Business Intelligence Tools zum Einsatz. Entscheidend für die Zuverlässigkeit und Richtigkeit der Auswertungen ist die Qualität der vorliegenden Daten. Unternehmen stehen vor der Herausforderung, die relevanten Daten aus vielen verschiedenen Datenquellen zusammenzuführen und in das gewünschte Format zu bringen. Die Datenbasis ist zu bereinigen, um die geforderte Qualität zu erreichen. Wichtig ist, dass die Datenbereinigung systematisch mit hoher Performance und größtenteils automatisiert abläuft. Nur so sind die großen Datenmengen zu bewältigen.

Vorteile durch die Datenbereinigung

Eine Datenbereinigung bietet ein Vielzahl an Vorteilen. Die Datenqualität hat direkten Einfluss auf die Fähigkeit eines Unternehmens, fundierte Entscheidungen zu treffen. Fehlentscheidungen aufgrund einer mangelhaften Datenbasis werden vermieden. Die Effizienz und Produktivität eines Unternehmen steigt. Das Unternehmen erzielt Wettbewerbsvorteile, da Kundenbedürfnisse schneller erkannt werden. Weitere Vorteile der Datenbereinigung sind:

  • Bereitstellung einer verlässlichen Datenbasis für alle Business Intelligence Tools
  • effiziente, fehlerfreie und beschleunigte Geschäftsprozesse
  • Steigerung der Kundenzufriedenheit
  • höhere Qualität der Analysen und Reports für das Management
  • optimiertes Bestell- und Produktmanagement
  • effiziente Logistikprozesse
  • verbesserte Planung von Ressourcen
  • verbessertes Controlling

(ID:46006830)

Über den Autor