Definition

Was ist Datenbereinigung?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Die Datenbereinigung findet fehlerhafte, doppelte, inkonsistente, ungenaue, falsch formatierte oder irrelevante Daten in einer Datenbank und korrigiert sie. Der Prozess der Datenbereinigung besteht aus mehreren aufeinander folgenden Einzelschritten, die teilweise immer wieder zu durchlaufen sind.

Der englische Begriff für Datenbereinigung lautet Data Cleansing. Ziel der Datenbereinigung ist es, fehlerhafte, doppelte, inkonsistente, falsch formatierte oder ungenaue und irrelevante Daten in einer Datenbank zu finden und sie zu korrigieren. Im Rahmen der Bereinigung werden Daten beispielsweise ergänzt, gelöscht, umformatiert oder angepasst. Nach der Bereinigung haben die Daten eine höhere Informationsqualität. Unternehmen können mit größerer Zuverlässigkeit mit ihnen arbeiten.

Im Big-Data-Umfeld hat das Data Cleansing wesentlichen Anteil an der Qualität und Richtigkeit der durchgeführten Analysen. In der Regel führen Softwareprogramme die Bereinigung automatisiert durch. Administratoren stellen die Anforderungen auf, überwachen den Vorgang und greifen bei bestimmten erkannten Problemen aktiv ein.

Der Prozess der Datenbereinigung besteht aus mehreren aufeinander folgenden Einzelschritten. Je nach Informationssystem und erforderlicher Zielqualität sind diese Einzelschritte mehrfach zu durchlaufen. In vielen Fällen handelt es sich bei der Datenbereinigung um einen kontinuierlich, in regelmäßigen Abständen immer wieder stattfindenden Vorgang.

Die Ziele der Datenbereinigung

Um auf Basis der von den Daten gelieferten Informationen verlässliche Auswertungen zu erstellen, muss die Fehlerfreiheit, Konsistenz und richtige Form der Daten sichergestellt sein. Die Datenbereinigung hat zum Ziel, genau das zu gewährleisten. Folgende Fragestellungen werden während der Datenbereinigung bearbeitet:

  • Sind die Informationen richtig (treten beispielsweise falsche Schreibweisen oder Tippfehler auf)?
  • Sind Informationen doppelt in der Datenbank vorhanden?
  • Sind die Daten in sich konsistent und stimmig?
  • Wurden Datenbereiche eventuell abgeschnitten oder nur teilweise erfasst?
  • Sind die Daten veraltet und haben nicht die benötigte Aktualität?
  • Liegen die Daten im richtigen Format vor?
  • Haben die Daten korrekt Bezüge untereinander?
  • Sind die Daten frei von Manipulationen?

Abhängig von den Antworten auf die verschiedenen Fragen, führt die Datenbereinigung unterschiedliche Aktionen aus.

Die verschiedenen Schritte der Datenbereinigung

Der komplette Prozess der Datenbereinigung lässt sich in mehrere Einzelschritte unterteilen. Im Wesentlichen handelt es sich um folgende vier Schritte:

  • 1. Definition der Anforderungen an die Datenqualität
  • 2. Analyse der vorliegenden Daten gemäß den zuvor erstellten Anforderungen
  • 3. Auflistung der während der Analyse festgestellten Probleme der Datenqualität
  • 4. Durchführung der eigentlichen Bereinigung

Eventuell ist es notwendig, die Schritte mehrfach zu durchlaufen. In diesem Fall startet direkt nach Schritt 4 die erneute Analyse der Daten (Schritt 2). Die Schritte 2 bis 4 werden so lange durchlaufen, bis die gewünschte Datenqualität erreicht ist. Im Vorfeld einer Datenbereinigung sollte ein Backup der Datenbank angelegt werden. Sämtliche Aktionen der Datenbereinigung und die veränderten oder gelöschten Daten selbst sind zudem zu protokollieren und zu speichern, um die Nachvollziehbarkeit und Revisionssicherheit zu gewährleisten. Die eigentliche Datenbereinigung (Schritt 4) besteht wiederum aus mehreren Einzelprozessen. Diese Einzelprozesse sind beispielsweise:

  • Duplikate entfernen
  • leere Datenfelder füllen oder entfernen
  • Daten vervollständigen
  • Daten im Zielformat formatieren
  • Ableiten von Daten aus vorhandenen Daten
  • Ersetzen oder Löschen fehlerhafter Daten
  • Zusammenfassen von Daten
  • Trennen von Daten

Wichtig festzuhalten ist, dass der Aufwand der Datenbereinigung reduziert werden kann, wenn Fehler schon bei der Datenerfassung vermieden werden. Typische Fehlerquellen lassen sich beispielsweise ausschließen, wenn während der Datenerfassung bereits eine Prüfung auf Plausibilität, Form und Richtigkeit durchgeführt wird. Realisierbar ist dies durch intelligente Eingabemasken und vorgegebene Wertebereiche sowie Datenformate.

Die Bedeutung der Datenbereinigung im Big-Data-Umfeld

Aufgrund der zunehmenden Digitalisierung fallen in Unternehmen immer größere Datenmengen an. Zur Analyse dieser riesigen Datenmengen kommen spezielle Big-Data-Anwendungen und Business Intelligence Tools zum Einsatz. Entscheidend für die Zuverlässigkeit und Richtigkeit der Auswertungen ist die Qualität der vorliegenden Daten. Unternehmen stehen vor der Herausforderung, die relevanten Daten aus vielen verschiedenen Datenquellen zusammenzuführen und in das gewünschte Format zu bringen. Die Datenbasis ist zu bereinigen, um die geforderte Qualität zu erreichen. Wichtig ist, dass die Datenbereinigung systematisch mit hoher Performance und größtenteils automatisiert abläuft. Nur so sind die großen Datenmengen zu bewältigen.

Vorteile durch die Datenbereinigung

Eine Datenbereinigung bietet ein Vielzahl an Vorteilen. Die Datenqualität hat direkten Einfluss auf die Fähigkeit eines Unternehmens, fundierte Entscheidungen zu treffen. Fehlentscheidungen aufgrund einer mangelhaften Datenbasis werden vermieden. Die Effizienz und Produktivität eines Unternehmen steigt. Das Unternehmen erzielt Wettbewerbsvorteile, da Kundenbedürfnisse schneller erkannt werden. Weitere Vorteile der Datenbereinigung sind:

  • Bereitstellung einer verlässlichen Datenbasis für alle Business Intelligence Tools
  • effiziente, fehlerfreie und beschleunigte Geschäftsprozesse
  • Steigerung der Kundenzufriedenheit
  • höhere Qualität der Analysen und Reports für das Management
  • optimiertes Bestell- und Produktmanagement
  • effiziente Logistikprozesse
  • verbesserte Planung von Ressourcen
  • verbessertes Controlling

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Die größten Herausforderungen beim Outsourcen von Big-Data-Projekten

Kommentar von Dr. Robert Grünwald, Novustat

Die größten Herausforderungen beim Outsourcen von Big-Data-Projekten

Die Notwendigkeit von Data Science für Unternehmen ist unumstritten. Gleichwohl können Auswertungen oft nicht vom Anwender durchgeführt werden: Sei es aufgrund fehlender zeitlicher oder personeller Ressourcen, ungenügender Ausstattung oder dem Fehlen tiefergreifender Kenntnisse von Data Analytics. Viele Anwender suchen daher professionelle Unterstützung bei einer Data-Science-Beratung lesen

Fundierte Entscheidungen durch Datenprozesse der nächsten Generation

Kommentar von Autor Venkata Krishna, HCL Technologies

Fundierte Entscheidungen durch Datenprozesse der nächsten Generation

Daten bilden bei Unternehmen die Basis für detaillierte Einblicke, fundierte Entscheidungen und künftiges Wachstum. Dabei gilt es, den Datenschatz aus den operativen Systemen zu heben. Doch wie lässt sich die ständig wachsende Flut dieser Daten sinnvoll kanalisieren, analysieren und letztendlich in die richtigen Geschäftsentscheidungen umwandeln? lesen

SAS baut Analytics auf der SAS Platform weiter aus

Machine Learning, Computer Vision und NLP

SAS baut Analytics auf der SAS Platform weiter aus

Der Softwareanbieter SAS hat seine Analytics-Plattform um zahlreiche neue Funktionen ergänzt. Dabei handelt es sich überwiegend um KI-basierte Technologien, wie etwa Machine Learning, Computer Vision und Natural Language Processing (NLP). lesen

Data Cleansing – so sichern Unternehmen den Wert von Daten

Kommentar von Frank Schuler, BackOffice Associates

Data Cleansing – so sichern Unternehmen den Wert von Daten

Daten sind erst dann wirklich wertvoll, wenn sie sauber, akkurat und vollständig sind. Doch das Data Cleansing kann wie eine Mammutaufgabe erscheinen. lesen

Datenaufbereitung ist ein unterschätzter Prozess

Data Preparation

Datenaufbereitung ist ein unterschätzter Prozess

Der Prozess der Datenaufbereitung umfasst die Reinigung, Formung und Mischung von Daten, damit sie für analytische und andere Aufgaben in optimaler Qualität bereitstehen. Nur mit erstklassigen Daten lassen sich beispielsweise Lösungen für Machine Learning und Künstliche Intelligenz effizient, sicher und zuverlässig versorgen. lesen

Effektivität durch Data Analytics? Fehlanzeige!

McKinsey attestiert gravierende Schwachpunkte

Effektivität durch Data Analytics? Fehlanzeige!

Beim Einsatz von Data Analytics kommen die Berater von McKinsey zu einem vernichtenden Urteil: Nur acht Prozent der Unternehmen können ihre Lösungen wirksam skalieren. Laut dem Befund der Berater liegen die Probleme nicht nur im technologischen, sondern auch im organisatorischen Bereich. lesen

Information Builders startet Omni-Gen Personal Edition

Self-Service-Tool für Datenqualität

Information Builders startet Omni-Gen Personal Edition

Das Self-Service-Tool „Omni-Gen Personal Edition“ von Information Builders ermöglicht Benutzern in Fachabteilungen datengesteuerte Einblicke in Geschäftsprozesse aller Art. lesen

Data Management über verteilte Landschaften

Kommentar von Timo Kubach & Christian Mathis, SAP

Data Management über verteilte Landschaften

Das Volumen relevanter Unternehmensdaten wächst exponentiell und soll laut einer Studie von IDC aus dem Jahr 2017 bis 2025 158 Zettabyte erreichen. Diese explosionsartige Zunahme an zumeist unstrukturierten Daten (IoT, Bilder, soziale Netzwerke) entfesselt neue Innovationspotenziale für Unternehmen. lesen

Algorithmen-Marktplätze zur Auswertung von Big Data

Datenanalyse-as-a-Service

Algorithmen-Marktplätze zur Auswertung von Big Data

Wer aus Big Data konkret umsetzbare Erkenntnisse gewinnen möchte, kommt um leistungsstarke Algorithmen nicht umhin. Auf einschlägigen AaaS-Marktplätzen – kurz für Algorithmen as a Service – werden Unternehmen schnell fündig. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 46006830 / Definitionen)