Gute Datenqualität – die Basis für erfolgreiche KI und gute Unternehmenskultur

IoT-Analytics Gute Datenqualität – die Basis für erfolgreiche KI und gute Unternehmenskultur

28.02.2022 Von Elena Fomenko* 5 min Lesedauer

Anbieter zum Thema

DETECON INTERNATIONAL GMBH

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fsas Technologies GmbH

Disy Informationssysteme GmbH

QUNIS GmbH

Der Einsatz Künstlicher Intelligenz (KI) in Unternehmen schreitet voran. Damit verbunden sind stets hohe Erwartungen. Sind die Ergebnisse eines KI-Projekts enttäuschend, liegt das häufig am unterschätzten Faktor der Qualität der Ausgangsdaten.

Data Owner in Unternehmen wissen oft nicht, welche Datenqualität für KI-Anwendungen gebraucht wird. Um das zu ändern, sollten die Owner frühzeitig in KI-Projekte eingebunden werden.(Bild: gemeinfrei // Unsplash) — Data Owner in Unternehmen wissen oft nicht, welche Datenqualität für KI-Anwendungen gebraucht wird. Um das zu ändern, sollten die Owner frühzeitig in KI-Projekte eingebunden werden.
(Bild: gemeinfrei // Unsplash)

Das Ergebnis einer Befragung des Branchenverbandes Bitkom aus dem Frühjahr 2021 unterstreicht erneut die Aufmerksamkeit, die KI-Systeme inzwischen in Unternehmen erringen. Zwei Drittel der befragten Firmen halten KI für die wichtigste Zukunftstechnologie, jedes vierte Unternehmen will in diesem Bereich investieren. Ein Drittel verspricht sich durch den Einsatz Künstlicher Intelligenz Expertenwissen, das in dieser Form sonst nicht gewonnen werden könnte. Die Erwartungen an Predictive Analytics sind hoch. Die Hoffnung liegt auf einem geringeren Ressourcenverbrauch, der Entwicklung neuer Produkte und Lösungen für die Kundschaft oder die effizientere Gestaltung von Prozessen.

Nicht selten tritt nach der Einführung eines Systems Ernüchterung ein, wenn die von der KI prognostizierten Entwicklungen nicht eingetreten sind oder sich augenscheinlich kein besonderer Erkenntnisgewinn einzustellen scheint.

KI kann keine Wunder vollbringen

Wer sich intensiver mit Künstlicher Intelligenz beschäftigt, weiß, dass die Systeme nur so gut sind, wie ihre Grundlagen. Die dahinterstehenden Algorithmen sind von Menschen entwickelt, die Gefahr laufen, kognitiven Verzerrungen zu unterliegen. Das Phänomen ‚Bias‘ wurde bereits in den Medien diskutiert, etwa im Zusammenhang mit Systemen, die sich mit automatisierten Kreditprüfungen beschäftigen. Da KI von Menschen gemacht ist, kann sie nicht wertfrei agieren. Das liegt daran, dass die Vorurteile der Entwickler in die Programmierung einfließen, egal ob beabsichtigt oder unbeabsichtigt. Die unbewusste oder bewusste Datenethik der Entwickler beeinflusst also auch die Ergebnisse.

Bleiben die erwünschten Ergebnisse in einem KI-Prozess aus, kann das aber auch an der Qualität des Inputs liegen. KI unterscheidet sich in dieser Hinsicht nicht von einer Bildbearbeitung. Die kann ein schlechtes Foto nicht in ein Meisterwerk verwandeln. Genauso wenig ist KI in der Lage, aus mangelhaftem Input ein großartiges Ergebnis zu liefern.

Datenqualität bestimmen und verbessern

Der Weg zu überzeugenden Ergebnissen beim Einsatz künstlicher Intelligenz beginnt bereits beim Zusammenführen der Daten, dem ETL-Prozess (Extract, Transform, Load). Eine gute Datenstrategie im Hinblick auf die Datenqualität ist hier entscheidend.

Kriterien für die Messung der Datenqualität sind:

Vollständigkeit: Der Begriff der Vollständigkeit bezieht sich auf verschiedene Dimensionen. Daten gelten etwa dann als vollständig, wenn in einem ETL-Prozess Inhalte und Daten vollständig übernommen worden sind. Wann eine hundertprozentige Vollständigkeit erreicht ist, definieren die Geschäftsregeln des Unternehmens.

Korrektheit: Vereinfacht ist ein Datensatz dann korrekt, wenn er mit der Realität übereinstimmt.

Konsistenz: Die Eigenschaften eines Datensatzes dürfen keine logischen Widersprüche untereinander oder zu anderen Datensätzen innerhalb einer Datenquelle aufweisen.

Eindeutigkeit: Diese liegt vor, wenn die durch den Datensatz beschriebenen (realen) Objekte nur einmal dargestellt werden.

Konformität: Die Daten müssen dem definierten Format entsprechen.

Gültigkeit: Die Daten entsprechen den definierten Wertebereichen.

Die Qualität der Daten lässt sich durch Regeln bestimmen und verbessern. Diese Regeln gliedern sich in zwei Gruppen:

Formal-technische Regeln und

inhaltliche Regeln.

Formal-technische Regeln lassen sich verhältnismäßig einfach direkt in einer Software implementieren, deren Daten die Ausgangsbasis für Analysen bilden wird. Um dort zu überprüfen, ob ein Datensatz vollständig ist, genügt eine einfache Formel (etwa der Quotient aus den gefüllten Attributen und der Zahl der vorhandenen Attribute.) Auch für inhaltliche Regeln gibt es technische Unterstützung. Plausibilitätsprüfungen bei der Eingabe von Daten verhindern Fehleingaben und tragen somit automatisch zur Verbesserung der Datenqualität bei.

Es geht im Kern also darum, dass KI-Systeme nur dann korrekte (und vorurteilsfreie) Ergebnisse liefern können, wenn Daten in einem bereinigten und geeigneten Format vorliegen. An dieser Stelle liegt meist der erste grundlegende Fehler beim Einsatz von KI-Analysen. Ausgehend von Use Cases muss die Datenqualität gemessen werden. Die Ergebnisse fließen dann in eine GAP-Analyse ein, die aufzeigt, ob zusätzliche Daten erhoben werden müssen oder wo noch Lücken vorhanden sind.

KI-Projekte sind keine reinen IT-Projekte

Ein zweiter wesentlicher Fehler, der aber eng mit der mangelnden Datenqualität verbunden ist, liegt in einem falschen Verständnis von KI-Projekten. Es ist eben nun gerade nicht so, dass es sich hier um ein reines Technologie-Projekt handelt. Die oft anzutreffende Haltung, dass IT und beauftragte Dienstleister ein schlüsselfertiges System bestehend aus Technologien und Software aufstellen und der Rest von allein läuft, führt zwangsläufig in die Irre. Die Notwendigkeit vom Einreißen bestehender Datensilos wird aus technischer Sicht gewöhnlich verstanden. Es bedarf aber mehr für den Erfolg von KI-Analytics-Projekten, als nur die Daten ungehindert fließen zu lassen. Die in der Metapher der Silos immanent enthalten Grenzen müssen auch in den Köpfen niedergerissen werden. KI-Projekte sind auch Change-Projekte.

Data Owner wissen nicht, welche Qualität Daten haben sollten

Damit einher geht auch der Aspekt der Datenqualität. Die benötigten Daten gehören oft einem Fachbereich (Data oder Information Owner), der auch die Datenqualität verantwortet. Das führt oft dazu, dass die Notwendigkeit einer guten Datenqualität nicht verstanden wird. Dahinter stecken keine bösen Absichten: Die beteiligten Personen aus dem Fachbereich erkennen schlicht nicht die Vorteile, die sich für ihren Fachbereich daraus ergeben. Oft wird es als ‚On-Top‘-Aufgabe gesehen, die keinen Mehrwert bietet. Dadurch fehlt dann die Motivation, die Datenqualität zu steigern.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Es genügt also nicht, die Datensilos in Form von Data Lakes einzureißen und die Data Scientists damit dann allein zu lassen. Die Fachbereiche als Data Owner müssen auch davon überzeugt werden, dass ihnen eine bessere Datenqualität Vorteile bringt, also ein echter Mehrwert erreicht werden kann.

Data-Product-Team verbindet Technologie und Unternehmenskultur

Es geht bei erfolgreichen Data-Analytics-Projekten somit auch um Unternehmenskultur und die Definition gemeinsamer Ziele. Das gelingt am besten, wenn datenzentriert gearbeitet wird, also die Stakeholder aus den Fachbereichen, Data Scientists und Data Engineer gemeinsam als sogenanntes Data-Product-Team agieren und an die Definition der Use-Cases und der Entwicklung konkreter Fragestellungen gemeinsam arbeiten. Die unmittelbare Projektarbeit vermittelt die Bedeutung der Datenqualität nachhaltiger, um Maßnahmen zur Verbesserung einleiten zu können. Im Fokus müssen hier immer die Wünsche und die Anforderungen des Fachbereichs stehen, denn schließlich müssen sie später die laufenden Prozesse weiterbetreuen und mit den Informationen arbeiten. Eine hohe Datenqualität und damit sinnvolle KI-Analysen lassen sich also nur im Team erreichen.

Dieser Artikel stammt von unserem Partnerportal Industry of Things.

* Elena Fomenko arbeitet als Senior Data Scientist und Data Thinking Expertin bei Detecon International.

(ID:48025921)