Definition

Was ist Data Quality?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Die Data Quality bestimmt, wie gut sich Datenbestände für vorgesehene Aufgaben eignen. Das können beispielsweise Anwendungen aus dem Business-Intelligence-Umfeld sein. Es existieren zahlreiche Kriterien, anhand derer sich die Data Quality bewerten lässt.

Data Quality, im Deutschen Datenqualität, gibt Auskunft darüber, wie gut sich vorhandene Daten für bestimmte Anwendungen oder Aufgaben eignen. Anhand von Kriterien lässt sich die Data Quality eines Datenbestands bestimmen. Neben der Korrektheit und Verlässlichkeit der Daten spielen zahlreiche weitere Kriterien wie die Relevanz und Verfügbarkeit eine wichtige Rolle für die Datenqualität. Für ein Unternehmen kann die Data Quality entscheidend für den geschäftlichen Erfolg sein. Nur wenn die Datenqualität gegeben ist, lassen sich operative Prozess zuverlässig steuern, relevante Berichte erstellen oder Business-Analytics- und Business-Intelligence-Anwendungen effizient ausführen.

Durch eine mangelnde Datenqualität oder fehlerhafte Datenbestände können einem Unternehmen unter Umständen erhebliche Kosten entstehen. Beispielsweise verursachen Adressdubletten einen erhöhten finanziellen und zeitlichen Aufwand beim Versand von Mailings. Schon bei der Erhebung der Daten kann sich die Datenqualität aufgrund verschiedener Datenquellen stark unterscheiden. Aber auch die Speicherung, Verwaltung und das Bereitstellen von Datensätzen hat Einfluss auf die Data Quality.

Im Unternehmensbereich werden zahlreiche Maßnahmen durchgeführt, die die Qualität und Zuverlässigkeit der Daten sichern. Je höher die Data Quality, desto besser lassen sich beispielsweise Marketingaktionen an die Erwartungshaltung potenzieller Kunden anpassen, kritische Unternehmensentscheidungen treffen oder maßgeschneiderte Dienstleistungen erbringen.

Die wichtigsten Kriterien zur Bewertung der Data Quality

Es existieren zahlreiche Kriterien, mit deren Hilfe sich die Qualität von Datenbeständen bewerten lassen. Sie geben Auskunft darüber, wie gut sich Daten für definierte Anwendungen und Aufgaben eignen. Diese Bewertungskriterien sind unter anderem:

  • Die Exaktheit der Daten,
  • die Vollständigkeit der Daten,
  • die Relevanz der Daten für bestimmte Aufgaben und Anwendungen,
  • die Aktualität der Daten,
  • die Zuverlässigkeit der Daten,
  • die Konsistenz der Daten über die verschiedenen Systeme und Quellen hinweg sowie
  • die Verfügbarkeit und Zugänglichkeit der Daten.

Maßnahmen zur Erreichung einer hohen Datenqualität

Um eine hohe Data Quality sicherzustellen, ist es erforderlich, verschiedene Maßnahmen durchzuführen. Diese Maßnahmen umfassen initiale, einmalig durchzuführende Aufgaben aber auch kontinuierliche Tätigkeiten und Prozeduren. Ist ein hoher Level an Datenqualität erreicht, gilt es diesen zu bewahren und die Datenbestände regelmäßig zu analysieren und zu bereinigen. Die Bereinigung der Daten umfasst zum Beispiel das Löschen von Dubletten, die Aktualisierung der Daten oder die Standardisierung der vorhandenen Datenbestände. Insgesamt sind die Maßnahmen in drei grundlegende Schritte unterteilbar. Diese drei Schritte sind:

  • Die Analyse der Daten (Data Profiling),
  • die Bereinigung der Daten (Data Cleaning) und
  • das Monitoring der Daten (Data Monitoring).

Die Datenanalyse erkennt Fehler und Widersprüche in den Beständen. Dazu zählen Inkonsistenzen der Daten und fehlerhafte Daten. Aufgrund der aus der Datenanalyse gewonnenen Erkenntnisse, werden die weiteren Maßnahmen festgelegt, die die Qualität des Datenbestandes verbessern.

Der Prozess der Datenbereinigung behebt die bei der Fehleranalyse erkannten Probleme. Es kommen für die verschiedenen Fehlerarten unterschiedliche Verfahren und Algorithmen zur Bereinigung zum Einsatz. Durch einen hohen Automatisierungsgrad ist der manuelle Aufwand für das Data Cleaning minimierbar. Während der Datenbereinigung werden Dubletten beseitigt, Datentypen korrigiert oder lückenhafte Datensätze vervollständigt.

Das Data Monitoring schließlich prüft in regelmäßigen Abständen die Qualität der vorliegenden Daten. Ergibt sich eine Änderung der Data Quality, informiert das Monitoring und ermöglicht das Einleiten erneuter Analyse- oder Bereinigungsmaßnahmen. Nur wenn die Data Quality kontinuierlich überwacht und die Ergebnisse mitgeteilt werden, lässt sich die Qualität der Datenbestände über größere Zeiträume bewahren. Fehlt das Monitoring, sinkt der erreichte Qualitätslevel über die Zeit kontinuierlich ab. Über Trendreports und Alarmierungen des Data Monitorings wird die Veränderung der Qualitätsniveaus nachverfolgbar.

Die Datenalterung und ihre Auswirkungen auf die Data Quality

Die für bestimmte Zwecke erhobenen Daten unterliegen einer Datenalterung. Werden Daten über einen längeren Zeitraum nicht aktualisiert, verschlechtert sich ihre Data Quality aufgrund der Datenalterung kontinuierlich. Beispielsweise können sich Adressen von Kunden oder Lieferanten, Produkteigenschaften und Produktnamen, Preise von Dienstleistungen und Produkten oder Rechtsformen von Unternehmen ändern. Je mehr Zeit verstreicht, desto wahrscheinlicher ist es, dass der vorliegende Datenbestand von solchen Änderungen betroffen ist. Es entsteht ohne Gegenmaßnahmen alleine durch die Alterung eine schleichende Verschlechterung der Datenqualität. Das Data Monitoring stellt eine entscheidende Maßnahme zur Erhaltung oder Wiederherstellung der von der Datenalterung beeinflussten Data Quality dar.

Unterstützende Software für die Sicherstellung der Data Quality

Um den manuellen Aufwand im Unternehmen für die Sicherstellung einer hohen Data Quality zu minimieren, existieren am Markt zahlreiche Anwendungen. Sie automatisieren Datenanalyse-, Datenbereinigungs- und Datenüberwachungsvorgänge mithilfe intelligenter, zum Teil selbstlernender Algorithmen. Die riesigen Datenbestände im Big-Data-Umfeld sind nur mit solch unterstützender Software auf einem hohen Qualitätslevel zu halten.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Umsatzpotenzial von Daten wird kaum genutzt

Studie zu Monetarisierung

Umsatzpotenzial von Daten wird kaum genutzt

Laut der Studie „Data Monetization – Use Cases, Implementation and Added Value“ des Business Application Research Centers (BARC) und von Tableau Software nutzen nur 17 Prozent der Unternehmen das finanzielle Potenzial ihrer Daten aus. lesen

Streaming von Rohdaten ist ein Erfolgsfaktor

Kommentar von Michael Diestelberg, Webtrekk

Streaming von Rohdaten ist ein Erfolgsfaktor

Durch die fortschreitende digitale Transformation nehmen die Verfügbarkeit und das Sammeln von Daten – über interne Prozesse oder die eigenen Kunden – immer weiter zu. Laut Schätzungen von IDC Research wird das jährlich kumulierte Datenvolumen im Jahr 2025 weltweit bereits 180 Zettabyte umfassen. Das entspricht einer Milliarde Terabytes, ein kaum vorstellbares Ausmaß. Für Unternehmen stellt das eine wachsende Ressource und ein enormes Wissenspotenzial dar. lesen

Wie KI und Industrie 4.0 die Mitarbeiter unterstützen

Künstliche Intelligenz

Wie KI und Industrie 4.0 die Mitarbeiter unterstützen

Die Digitalisierung der Arbeitswelt ruft mitunter auch Ängste hervor, gerade wenn es um KI und Industrie 4.0 geht. Dabei sollen sie vor allem die Mitarbeiter unterstützen. lesen

Datenintegration in der Hybrid Cloud-Ära

ETL-Prozesse einfach gestalten

Datenintegration in der Hybrid Cloud-Ära

Das Thema Datenintegration gehört mit zu den größten Herausforderungen beim Management von hybriden und Multi-Cloud-Umgebungen. Schließlich geht es darum, Daten aus verschiedensten Quellen möglichst verlässlich aufzubereiten und zusammenzuführen. Nur wenn der vorhandene Datenpool, neuenglisch auch als „Data Lake“ bekannt, aktuell und vollständig ist, lassen sich daraus verlässliche Analysen ableiten. lesen

Echtzeit-Analytics mit cloud-basiertem Data Lake

Daten-Kraftwerk für Uniper

Echtzeit-Analytics mit cloud-basiertem Data Lake

In der Energiewirtschaft ist ein zentrales Ziel, Engpässe in der Strom- und Gasversorgung zu vermeiden. Damit dies gelingt, sind unter anderem aktuelle Informationen zur Marktsituation notwendig. Mit einer neuen Datenanalyseplattform erhält der Energieerzeuger Uniper die benötigen Daten, um schnell auf Marktentwicklungen reagieren zu können. Weiterhin hilft die Lösung dabei, den Energiehandel zu optimieren, Risiken zu bewerten und Vorschriften einzuhalten. lesen

BI und Data Analytics unternehmensweit bereitstellen

Kommentar von Peter Walker, Information Builders

BI und Data Analytics unternehmensweit bereitstellen

Eine modulare und zentral verwaltete Enterprise-BI-Plattform nutzt Daten aus unterschiedlichen internen und externen Quellen. Nach einem erfolgreichen Qualitäts-Check stehen die Informationen in aufbereiteter Form Anwendern und Führungskräften in allen Abteilungen als Basis für bessere Entscheidungen zur Verfügung. lesen

Data Cleansing – so sichern Unternehmen den Wert von Daten

Kommentar von Frank Schuler, BackOffice Associates

Data Cleansing – so sichern Unternehmen den Wert von Daten

Daten sind erst dann wirklich wertvoll, wenn sie sauber, akkurat und vollständig sind. Doch das Data Cleansing kann wie eine Mammutaufgabe erscheinen. lesen

Datenaufbereitung ist ein unterschätzter Prozess

Data Preparation

Datenaufbereitung ist ein unterschätzter Prozess

Der Prozess der Datenaufbereitung umfasst die Reinigung, Formung und Mischung von Daten, damit sie für analytische und andere Aufgaben in optimaler Qualität bereitstehen. Nur mit erstklassigen Daten lassen sich beispielsweise Lösungen für Machine Learning und Künstliche Intelligenz effizient, sicher und zuverlässig versorgen. lesen

Fünf Trends für das Jahr 2019

Datenmanagement im Unternehmen

Fünf Trends für das Jahr 2019

Nach Einschätzung von Information Builders, spezialisiert auf Business-Intelligence-, Analytics-, Datenintegritäts- und Datenqualitätslösungen, werden Datenmanagement und Analytik noch enger integriert werden. Unternehmen sollen dadurch noch mehr Nutzen aus den verfügbaren Daten ziehen können. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44931575 / Definitionen)