Definition

Was ist Data Quality?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Die Data Quality bestimmt, wie gut sich Datenbestände für vorgesehene Aufgaben eignen. Das können beispielsweise Anwendungen aus dem Business-Intelligence-Umfeld sein. Es existieren zahlreiche Kriterien, anhand derer sich die Data Quality bewerten lässt.

Data Quality, im Deutschen Datenqualität, gibt Auskunft darüber, wie gut sich vorhandene Daten für bestimmte Anwendungen oder Aufgaben eignen. Anhand von Kriterien lässt sich die Data Quality eines Datenbestands bestimmen. Neben der Korrektheit und Verlässlichkeit der Daten spielen zahlreiche weitere Kriterien wie die Relevanz und Verfügbarkeit eine wichtige Rolle für die Datenqualität. Für ein Unternehmen kann die Data Quality entscheidend für den geschäftlichen Erfolg sein. Nur wenn die Datenqualität gegeben ist, lassen sich operative Prozess zuverlässig steuern, relevante Berichte erstellen oder Business-Analytics- und Business-Intelligence-Anwendungen effizient ausführen.

Durch eine mangelnde Datenqualität oder fehlerhafte Datenbestände können einem Unternehmen unter Umständen erhebliche Kosten entstehen. Beispielsweise verursachen Adressdubletten einen erhöhten finanziellen und zeitlichen Aufwand beim Versand von Mailings. Schon bei der Erhebung der Daten kann sich die Datenqualität aufgrund verschiedener Datenquellen stark unterscheiden. Aber auch die Speicherung, Verwaltung und das Bereitstellen von Datensätzen hat Einfluss auf die Data Quality.

Im Unternehmensbereich werden zahlreiche Maßnahmen durchgeführt, die die Qualität und Zuverlässigkeit der Daten sichern. Je höher die Data Quality, desto besser lassen sich beispielsweise Marketingaktionen an die Erwartungshaltung potenzieller Kunden anpassen, kritische Unternehmensentscheidungen treffen oder maßgeschneiderte Dienstleistungen erbringen.

Die wichtigsten Kriterien zur Bewertung der Data Quality

Es existieren zahlreiche Kriterien, mit deren Hilfe sich die Qualität von Datenbeständen bewerten lassen. Sie geben Auskunft darüber, wie gut sich Daten für definierte Anwendungen und Aufgaben eignen. Diese Bewertungskriterien sind unter anderem:

  • Die Exaktheit der Daten,
  • die Vollständigkeit der Daten,
  • die Relevanz der Daten für bestimmte Aufgaben und Anwendungen,
  • die Aktualität der Daten,
  • die Zuverlässigkeit der Daten,
  • die Konsistenz der Daten über die verschiedenen Systeme und Quellen hinweg sowie
  • die Verfügbarkeit und Zugänglichkeit der Daten.

Maßnahmen zur Erreichung einer hohen Datenqualität

Um eine hohe Data Quality sicherzustellen, ist es erforderlich, verschiedene Maßnahmen durchzuführen. Diese Maßnahmen umfassen initiale, einmalig durchzuführende Aufgaben aber auch kontinuierliche Tätigkeiten und Prozeduren. Ist ein hoher Level an Datenqualität erreicht, gilt es diesen zu bewahren und die Datenbestände regelmäßig zu analysieren und zu bereinigen. Die Bereinigung der Daten umfasst zum Beispiel das Löschen von Dubletten, die Aktualisierung der Daten oder die Standardisierung der vorhandenen Datenbestände. Insgesamt sind die Maßnahmen in drei grundlegende Schritte unterteilbar. Diese drei Schritte sind:

  • Die Analyse der Daten (Data Profiling),
  • die Bereinigung der Daten (Data Cleaning) und
  • das Monitoring der Daten (Data Monitoring).

Die Datenanalyse erkennt Fehler und Widersprüche in den Beständen. Dazu zählen Inkonsistenzen der Daten und fehlerhafte Daten. Aufgrund der aus der Datenanalyse gewonnenen Erkenntnisse, werden die weiteren Maßnahmen festgelegt, die die Qualität des Datenbestandes verbessern.

Der Prozess der Datenbereinigung behebt die bei der Fehleranalyse erkannten Probleme. Es kommen für die verschiedenen Fehlerarten unterschiedliche Verfahren und Algorithmen zur Bereinigung zum Einsatz. Durch einen hohen Automatisierungsgrad ist der manuelle Aufwand für das Data Cleaning minimierbar. Während der Datenbereinigung werden Dubletten beseitigt, Datentypen korrigiert oder lückenhafte Datensätze vervollständigt.

Das Data Monitoring schließlich prüft in regelmäßigen Abständen die Qualität der vorliegenden Daten. Ergibt sich eine Änderung der Data Quality, informiert das Monitoring und ermöglicht das Einleiten erneuter Analyse- oder Bereinigungsmaßnahmen. Nur wenn die Data Quality kontinuierlich überwacht und die Ergebnisse mitgeteilt werden, lässt sich die Qualität der Datenbestände über größere Zeiträume bewahren. Fehlt das Monitoring, sinkt der erreichte Qualitätslevel über die Zeit kontinuierlich ab. Über Trendreports und Alarmierungen des Data Monitorings wird die Veränderung der Qualitätsniveaus nachverfolgbar.

Die Datenalterung und ihre Auswirkungen auf die Data Quality

Die für bestimmte Zwecke erhobenen Daten unterliegen einer Datenalterung. Werden Daten über einen längeren Zeitraum nicht aktualisiert, verschlechtert sich ihre Data Quality aufgrund der Datenalterung kontinuierlich. Beispielsweise können sich Adressen von Kunden oder Lieferanten, Produkteigenschaften und Produktnamen, Preise von Dienstleistungen und Produkten oder Rechtsformen von Unternehmen ändern. Je mehr Zeit verstreicht, desto wahrscheinlicher ist es, dass der vorliegende Datenbestand von solchen Änderungen betroffen ist. Es entsteht ohne Gegenmaßnahmen alleine durch die Alterung eine schleichende Verschlechterung der Datenqualität. Das Data Monitoring stellt eine entscheidende Maßnahme zur Erhaltung oder Wiederherstellung der von der Datenalterung beeinflussten Data Quality dar.

Unterstützende Software für die Sicherstellung der Data Quality

Um den manuellen Aufwand im Unternehmen für die Sicherstellung einer hohen Data Quality zu minimieren, existieren am Markt zahlreiche Anwendungen. Sie automatisieren Datenanalyse-, Datenbereinigungs- und Datenüberwachungsvorgänge mithilfe intelligenter, zum Teil selbstlernender Algorithmen. Die riesigen Datenbestände im Big-Data-Umfeld sind nur mit solch unterstützender Software auf einem hohen Qualitätslevel zu halten.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Datenanalysen gegen Viren – warum wir trotz der Krise optimistisch sein sollten

Kommentar von Tom Becker, Alteryx

Datenanalysen gegen Viren – warum wir trotz der Krise optimistisch sein sollten

In der aktuellen Situation rund um die Coronavirus-Krise sind zuverlässige und aktuelle Informationen sehr wichtig. Datenanalysen und weitere clevere IT-Projekte können dabei unterstützen, die richtigen Entscheidungen zu treffen, Leben zu retten oder einfach nur anderen Menschen zu helfen. lesen

Datenexpertise ist keine Frage des Jobtitels

Kommentar von Silka Miki Müller-Kochs, Tealium

Datenexpertise ist keine Frage des Jobtitels

Nicht alle Superhelden tragen einen Umhang. Und nicht alle Datenexperten tragen den Titel des Chief Data Officer (CDO). Laut Mario Faria, Research Vice President der Unternehmensberatung Gartner, haben 90 Prozent aller großen Unternehmen bis Ende 2019 einen CDO ernannt. Das heißt aber noch lange nicht, dass sich alle anderen Mitarbeiter im Unternehmen zurücklehnen und den Datenschutz als erledigt betrachten können. lesen

Echtzeitdaten – Ausreißer identifizieren

Moderne Architekturen zur Datenanalyse – Teil 2

Echtzeitdaten – Ausreißer identifizieren

Im ersten Teil des Artikels ging es um die optimale Analyse von Echtzeitdaten mithilfe der Cloud. Dabei werden beispielhaft in Echtzeit einlaufende Geoinformationen und Bezahldaten eines Taxiunternehmens in New York untersucht. Durch die Vorverarbeitung der Daten musste zunächst für eine ausreichende Datenqualität gesorgt werden. Im nächsten Schritt geht es nun darum, die Daten miteinander zu verglichen, um Ausreißer zu identifizieren. lesen

Talend kündigt Winter-’20-Release an

Update für Data Fabric

Talend kündigt Winter-’20-Release an

Mit dem Winter-’20-Release hat Talend die neue Version seines Data Fabrics angekündigt. Sie enthält zahlreiche neue Funktionen und soll Unternehmen bei der digitalen Transformation unterstützen. lesen

Analyse von Echtzeitdaten

Moderne Architekturen zur Datenanalyse – Teil 1

Analyse von Echtzeitdaten

In dieser dreiteiligen Artikelserie betrachten wir anhand einer konkreten Beispielanwendung den Aufbau einer Architektur zur Analyse von Echtzeitdaten mit AWS. Wir diskutieren, wie durch das Zusammenspiel verschiedener Dienste Aspekte der Echtzeitanalyse und der langfristigen Analyse von Daten flexibel kombiniert werden können. lesen

KI + Machine Learning = neue Chancen für das Datenmanagement

Interview mit Dr. Gerhard Svolba, SAS DACH

KI + Machine Learning = neue Chancen für das Datenmanagement

BigData-Insider sprach mit Dr. Gerhard Svolba, Analytic Solutions Architect und Data Scientist bei SAS DACH, wie Big Data und Digitalisierung die Ansprüche an die Datenverarbeitung verändert haben – Agilität, Elastizität und Integrationsfähigkeit sind nur einige Stichpunkte. Moderne Technologien wie Künstliche Intelligenz (KI) und Machine Learning können dabei helfen, wichtige Aufgaben zu automatisieren und Daten dadurch schneller in genau der benötigten Form zur Verfügung zu stellen. lesen

Wie die Compliance bei KI und bei Big Data zusammenhängt

E-Book von BigData-Insider

Wie die Compliance bei KI und bei Big Data zusammenhängt

Auf dem Weg zu Big Data und Künstlicher Intelligenz (KI) fehlt es vielen Unternehmen noch an Grundlagen, so der Tenor aktueller Studien. Zu diesen Grundlagen gehört zweifellos die Compliance. Um für die Compliance bei Big Data und KI zu sorgen, müssen Unternehmen zuerst wissen, wie die Zusammenhänge dabei sind. Damit befasst sich nun das aktuelle E-Book „Big Data und KI“. lesen

5 Tipps, wie IT-Mitarbeiter ihre Stammdaten stressfrei verwalten können

Master Data Management

5 Tipps, wie IT-Mitarbeiter ihre Stammdaten stressfrei verwalten können

Eine Umfrage der Wirtschaftsprüfungs- und Beratungsgesellschaft PwC aus dem Jahr 2018 hat ergeben, dass 95 Prozent der Befragten ein Master Data Management (MDM) für ihr Unternehmen als erfolgskritisch einstufen. lesen

Mit Augmented Intelligence zu besseren Analyseergebnissen

Eoda erweitert YUNA-Plattform

Mit Augmented Intelligence zu besseren Analyseergebnissen

Die Kasseler Eoda GmbH baut ihre Data-Science-Plattform YUNA um eine neue Funktion aus: Mithilfe von Result Rating sollen sich künftig Analyseergebnisse schneller auf ihre Plausibilität prüfen lassen. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 44931575 / Definitionen)