Definition

Was ist Data Quality?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Die Data Quality bestimmt, wie gut sich Datenbestände für vorgesehene Aufgaben eignen. Das können beispielsweise Anwendungen aus dem Business-Intelligence-Umfeld sein. Es existieren zahlreiche Kriterien, anhand derer sich die Data Quality bewerten lässt.

Data Quality, im Deutschen Datenqualität, gibt Auskunft darüber, wie gut sich vorhandene Daten für bestimmte Anwendungen oder Aufgaben eignen. Anhand von Kriterien lässt sich die Data Quality eines Datenbestands bestimmen. Neben der Korrektheit und Verlässlichkeit der Daten spielen zahlreiche weitere Kriterien wie die Relevanz und Verfügbarkeit eine wichtige Rolle für die Datenqualität. Für ein Unternehmen kann die Data Quality entscheidend für den geschäftlichen Erfolg sein. Nur wenn die Datenqualität gegeben ist, lassen sich operative Prozess zuverlässig steuern, relevante Berichte erstellen oder Business-Analytics- und Business-Intelligence-Anwendungen effizient ausführen.

Durch eine mangelnde Datenqualität oder fehlerhafte Datenbestände können einem Unternehmen unter Umständen erhebliche Kosten entstehen. Beispielsweise verursachen Adressdubletten einen erhöhten finanziellen und zeitlichen Aufwand beim Versand von Mailings. Schon bei der Erhebung der Daten kann sich die Datenqualität aufgrund verschiedener Datenquellen stark unterscheiden. Aber auch die Speicherung, Verwaltung und das Bereitstellen von Datensätzen hat Einfluss auf die Data Quality.

Im Unternehmensbereich werden zahlreiche Maßnahmen durchgeführt, die die Qualität und Zuverlässigkeit der Daten sichern. Je höher die Data Quality, desto besser lassen sich beispielsweise Marketingaktionen an die Erwartungshaltung potenzieller Kunden anpassen, kritische Unternehmensentscheidungen treffen oder maßgeschneiderte Dienstleistungen erbringen.

Die wichtigsten Kriterien zur Bewertung der Data Quality

Es existieren zahlreiche Kriterien, mit deren Hilfe sich die Qualität von Datenbeständen bewerten lassen. Sie geben Auskunft darüber, wie gut sich Daten für definierte Anwendungen und Aufgaben eignen. Diese Bewertungskriterien sind unter anderem:

  • Die Exaktheit der Daten,
  • die Vollständigkeit der Daten,
  • die Relevanz der Daten für bestimmte Aufgaben und Anwendungen,
  • die Aktualität der Daten,
  • die Zuverlässigkeit der Daten,
  • die Konsistenz der Daten über die verschiedenen Systeme und Quellen hinweg sowie
  • die Verfügbarkeit und Zugänglichkeit der Daten.

Maßnahmen zur Erreichung einer hohen Datenqualität

Um eine hohe Data Quality sicherzustellen, ist es erforderlich, verschiedene Maßnahmen durchzuführen. Diese Maßnahmen umfassen initiale, einmalig durchzuführende Aufgaben aber auch kontinuierliche Tätigkeiten und Prozeduren. Ist ein hoher Level an Datenqualität erreicht, gilt es diesen zu bewahren und die Datenbestände regelmäßig zu analysieren und zu bereinigen. Die Bereinigung der Daten umfasst zum Beispiel das Löschen von Dubletten, die Aktualisierung der Daten oder die Standardisierung der vorhandenen Datenbestände. Insgesamt sind die Maßnahmen in drei grundlegende Schritte unterteilbar. Diese drei Schritte sind:

  • Die Analyse der Daten (Data Profiling),
  • die Bereinigung der Daten (Data Cleaning) und
  • das Monitoring der Daten (Data Monitoring).

Die Datenanalyse erkennt Fehler und Widersprüche in den Beständen. Dazu zählen Inkonsistenzen der Daten und fehlerhafte Daten. Aufgrund der aus der Datenanalyse gewonnenen Erkenntnisse, werden die weiteren Maßnahmen festgelegt, die die Qualität des Datenbestandes verbessern.

Der Prozess der Datenbereinigung behebt die bei der Fehleranalyse erkannten Probleme. Es kommen für die verschiedenen Fehlerarten unterschiedliche Verfahren und Algorithmen zur Bereinigung zum Einsatz. Durch einen hohen Automatisierungsgrad ist der manuelle Aufwand für das Data Cleaning minimierbar. Während der Datenbereinigung werden Dubletten beseitigt, Datentypen korrigiert oder lückenhafte Datensätze vervollständigt.

Das Data Monitoring schließlich prüft in regelmäßigen Abständen die Qualität der vorliegenden Daten. Ergibt sich eine Änderung der Data Quality, informiert das Monitoring und ermöglicht das Einleiten erneuter Analyse- oder Bereinigungsmaßnahmen. Nur wenn die Data Quality kontinuierlich überwacht und die Ergebnisse mitgeteilt werden, lässt sich die Qualität der Datenbestände über größere Zeiträume bewahren. Fehlt das Monitoring, sinkt der erreichte Qualitätslevel über die Zeit kontinuierlich ab. Über Trendreports und Alarmierungen des Data Monitorings wird die Veränderung der Qualitätsniveaus nachverfolgbar.

Die Datenalterung und ihre Auswirkungen auf die Data Quality

Die für bestimmte Zwecke erhobenen Daten unterliegen einer Datenalterung. Werden Daten über einen längeren Zeitraum nicht aktualisiert, verschlechtert sich ihre Data Quality aufgrund der Datenalterung kontinuierlich. Beispielsweise können sich Adressen von Kunden oder Lieferanten, Produkteigenschaften und Produktnamen, Preise von Dienstleistungen und Produkten oder Rechtsformen von Unternehmen ändern. Je mehr Zeit verstreicht, desto wahrscheinlicher ist es, dass der vorliegende Datenbestand von solchen Änderungen betroffen ist. Es entsteht ohne Gegenmaßnahmen alleine durch die Alterung eine schleichende Verschlechterung der Datenqualität. Das Data Monitoring stellt eine entscheidende Maßnahme zur Erhaltung oder Wiederherstellung der von der Datenalterung beeinflussten Data Quality dar.

Unterstützende Software für die Sicherstellung der Data Quality

Um den manuellen Aufwand im Unternehmen für die Sicherstellung einer hohen Data Quality zu minimieren, existieren am Markt zahlreiche Anwendungen. Sie automatisieren Datenanalyse-, Datenbereinigungs- und Datenüberwachungsvorgänge mithilfe intelligenter, zum Teil selbstlernender Algorithmen. Die riesigen Datenbestände im Big-Data-Umfeld sind nur mit solch unterstützender Software auf einem hohen Qualitätslevel zu halten.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Zentralisiertes Datenmanagement schafft Mehrwehrt für Kunden

Kommentar von Dr. Ramin Beravat, TeamBank AG Nürnberg

Zentralisiertes Datenmanagement schafft Mehrwehrt für Kunden

Ohne Daten keine Zukunft. Das weiß auch die TeamBank. Aus diesem Grund wurden alle Weichen in Richtung digitale Zukunft gestellt. Das sogenannte „Öl des 21. Jahrhunderts“ wird in großen Mengen gesammelt und mit einer komplexen Daten-Pipeline und ebenso komplexen Algorithmen gesteuert und ausgewertet. Dieser Artikel gibt einen Überblick, wie die TeamBank mittels Machine Learning und Analytics aus Daten Mehrwert für Kunden schafft und weshalb ein zentrales Datenmanagement so wichtig ist. lesen

Ethikbeirat legt Richtlinien für KI im HR-Management vor

Praxisorientierter Entwurf vorgestellt

Ethikbeirat legt Richtlinien für KI im HR-Management vor

HR-Tech, ein Ethikbeirat mit Vertretern aus Wissenschaft, Gewerkschaften, Start-ups und Unternehmen, hat praxisorientierte Richtlinien für den verantwortungsvollen Einsatz von KI im Personalmanagement entwickelt. lesen

Welche Rolle spielt BI in der modernen Datenanalyse?

Kommentar von Thomas Strehlow, Oraylis

Welche Rolle spielt BI in der modernen Datenanalyse?

Im Zuge der rasanten technischen Entwicklung werden konventionelle Ansätze der Datenanalyse zunehmend in Frage gestellt. Anlass hierzu geben unter anderem diverse Business-Intelligence-„Mythen“, die sich inzwischen als gültige Wahrheiten verbreiten. Demnach hat beispielsweise das Data Warehouse ausgedient. Auch die Datenqualität scheint durch einen angedachten Verzicht auf Datenmodellierung und Single Point of Truth an Relevanz zu verlieren. Der konkrete Blick in den Projektalltag führt indes ein anderes Bild zu Tage. lesen

Dieses Potenzial haben Citizen Data Scientists

Kommentar von Hermann Hebben, Qunis

Dieses Potenzial haben Citizen Data Scientists

Unternehmen sind bereit für Big Data und Advanced Analytics, der Mangel an erfahrenen Data-Science-Experten erweist sich jedoch als ernstzunehmender Hemmschuh. Die neu entstehende Funktion des Citizen Data Scientist kann hier Abhilfe schaffen und Digitalisierungsprojekten zu einem Boost verhelfen. lesen

Die sechs größten Fehler beim Stammdatenmanagement

Tipps von Information Builders

Die sechs größten Fehler beim Stammdatenmanagement

Bei nahezu jedem Projekt rund um das Stammdatenmanagement tauchen typische Problemfälle auf. Die Analytics-Experten von Information Builders haben sechs Worst Practices skizziert und geben Tipps, wie sich die Schwierigkeiten vermeiden lassen. lesen

Die 3. BI-Generation schließt Lücken der Vorgängerkonzepte

Kommentar von Wolfgang Kobek, Qlik

Die 3. BI-Generation schließt Lücken der Vorgängerkonzepte

Business Intelligence (BI) im klassischen Sinne beschreibt schlicht den Prozess, der Informationen aus allen Geschäftsbereichen systematisch analysiert und Daten zu anwendbaren Informationen transformiert. Doch die konkrete Umsetzung war oftmals herausfordernd – allein schon wegen der heterogenen Umgebungen, schließlich ist kein Unternehmen wie das andere – von den Data Lakes ganz zu schweigen. lesen

Manchmal gar nicht so schlau: KI für die Cloud

Durchdacht und durchgerechnet

Manchmal gar nicht so schlau: KI für die Cloud

Deutsche Unternehmen begeistern sich für Maschinenlernen, Roboterautomation und künstliche Intelligenz. Doch die Nutzung entsprechender Systeme muss gleich drei Hürden nehmen. Manchmal muss daher die natürliche Verbindung von KI und Cloud gekappt werden. lesen

Umsatzpotenzial von Daten wird kaum genutzt

Studie zu Monetarisierung

Umsatzpotenzial von Daten wird kaum genutzt

Laut der Studie „Data Monetization – Use Cases, Implementation and Added Value“ des Business Application Research Centers (BARC) und von Tableau Software nutzen nur 17 Prozent der Unternehmen das finanzielle Potenzial ihrer Daten aus. lesen

Streaming von Rohdaten ist ein Erfolgsfaktor

Kommentar von Michael Diestelberg, Webtrekk

Streaming von Rohdaten ist ein Erfolgsfaktor

Durch die fortschreitende digitale Transformation nehmen die Verfügbarkeit und das Sammeln von Daten – über interne Prozesse oder die eigenen Kunden – immer weiter zu. Laut Schätzungen von IDC Research wird das jährlich kumulierte Datenvolumen im Jahr 2025 weltweit bereits 180 Zettabyte umfassen. Das entspricht einer Milliarde Terabytes, ein kaum vorstellbares Ausmaß. Für Unternehmen stellt das eine wachsende Ressource und ein enormes Wissenspotenzial dar. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44931575 / Definitionen)