IoT-Analytics Gute Datenqualität – die Basis für erfolgreiche KI und gute Unternehmenskultur

Von Elena Fomenko*

Der Einsatz Künstlicher Intelligenz (KI) in Unternehmen schreitet voran. Damit verbunden sind stets hohe Erwartungen. Sind die Ergebnisse eines KI-Projekts enttäuschend, liegt das häufig am unterschätzten Faktor der Qualität der Ausgangsdaten.

Anbieter zum Thema

Data Owner in Unternehmen wissen oft nicht, welche Datenqualität für KI-Anwendungen gebraucht wird. Um das zu ändern, sollten die Owner frühzeitig in KI-Projekte eingebunden werden.
Data Owner in Unternehmen wissen oft nicht, welche Datenqualität für KI-Anwendungen gebraucht wird. Um das zu ändern, sollten die Owner frühzeitig in KI-Projekte eingebunden werden.
(Bild: gemeinfrei // Unsplash)

Das Ergebnis einer Befragung des Branchenverbandes Bitkom aus dem Frühjahr 2021 unterstreicht erneut die Aufmerksamkeit, die KI-Systeme inzwischen in Unternehmen erringen. Zwei Drittel der befragten Firmen halten KI für die wichtigste Zukunftstechnologie, jedes vierte Unternehmen will in diesem Bereich investieren. Ein Drittel verspricht sich durch den Einsatz Künstlicher Intelligenz Expertenwissen, das in dieser Form sonst nicht gewonnen werden könnte. Die Erwartungen an Predictive Analytics sind hoch. Die Hoffnung liegt auf einem geringeren Ressourcenverbrauch, der Entwicklung neuer Produkte und Lösungen für die Kundschaft oder die effizientere Gestaltung von Prozessen.

Nicht selten tritt nach der Einführung eines Systems Ernüchterung ein, wenn die von der KI prognostizierten Entwicklungen nicht eingetreten sind oder sich augenscheinlich kein besonderer Erkenntnisgewinn einzustellen scheint.

KI kann keine Wunder vollbringen

Wer sich intensiver mit Künstlicher Intelligenz beschäftigt, weiß, dass die Systeme nur so gut sind, wie ihre Grundlagen. Die dahinterstehenden Algorithmen sind von Menschen entwickelt, die Gefahr laufen, kognitiven Verzerrungen zu unterliegen. Das Phänomen ‚Bias‘ wurde bereits in den Medien diskutiert, etwa im Zusammenhang mit Systemen, die sich mit automatisierten Kreditprüfungen beschäftigen. Da KI von Menschen gemacht ist, kann sie nicht wertfrei agieren. Das liegt daran, dass die Vorurteile der Entwickler in die Programmierung einfließen, egal ob beabsichtigt oder unbeabsichtigt. Die unbewusste oder bewusste Datenethik der Entwickler beeinflusst also auch die Ergebnisse.

Bleiben die erwünschten Ergebnisse in einem KI-Prozess aus, kann das aber auch an der Qualität des Inputs liegen. KI unterscheidet sich in dieser Hinsicht nicht von einer Bildbearbeitung. Die kann ein schlechtes Foto nicht in ein Meisterwerk verwandeln. Genauso wenig ist KI in der Lage, aus mangelhaftem Input ein großartiges Ergebnis zu liefern.

Datenqualität bestimmen und verbessern

Der Weg zu überzeugenden Ergebnissen beim Einsatz künstlicher Intelligenz beginnt bereits beim Zusammenführen der Daten, dem ETL-Prozess (Extract, Transform, Load). Eine gute Datenstrategie im Hinblick auf die Datenqualität ist hier entscheidend.

Kriterien für die Messung der Datenqualität sind:

  • Vollständigkeit: Der Begriff der Vollständigkeit bezieht sich auf verschiedene Dimensionen. Daten gelten etwa dann als vollständig, wenn in einem ETL-Prozess Inhalte und Daten vollständig übernommen worden sind. Wann eine hundertprozentige Vollständigkeit erreicht ist, definieren die Geschäftsregeln des Unternehmens.
  • Korrektheit: Vereinfacht ist ein Datensatz dann korrekt, wenn er mit der Realität übereinstimmt.
  • Konsistenz: Die Eigenschaften eines Datensatzes dürfen keine logischen Widersprüche untereinander oder zu anderen Datensätzen innerhalb einer Datenquelle aufweisen.
  • Eindeutigkeit: Diese liegt vor, wenn die durch den Datensatz beschriebenen (realen) Objekte nur einmal dargestellt werden.
  • Konformität: Die Daten müssen dem definierten Format entsprechen.
  • Gültigkeit: Die Daten entsprechen den definierten Wertebereichen.

Die Qualität der Daten lässt sich durch Regeln bestimmen und verbessern. Diese Regeln gliedern sich in zwei Gruppen:

  • Formal-technische Regeln und
  • inhaltliche Regeln.

Formal-technische Regeln lassen sich verhältnismäßig einfach direkt in einer Software implementieren, deren Daten die Ausgangsbasis für Analysen bilden wird. Um dort zu überprüfen, ob ein Datensatz vollständig ist, genügt eine einfache Formel (etwa der Quotient aus den gefüllten Attributen und der Zahl der vorhandenen Attribute.) Auch für inhaltliche Regeln gibt es technische Unterstützung. Plausibilitätsprüfungen bei der Eingabe von Daten verhindern Fehleingaben und tragen somit automatisch zur Verbesserung der Datenqualität bei.

Es geht im Kern also darum, dass KI-Systeme nur dann korrekte (und vorurteilsfreie) Ergebnisse liefern können, wenn Daten in einem bereinigten und geeigneten Format vorliegen. An dieser Stelle liegt meist der erste grundlegende Fehler beim Einsatz von KI-Analysen. Ausgehend von Use Cases muss die Datenqualität gemessen werden. Die Ergebnisse fließen dann in eine GAP-Analyse ein, die aufzeigt, ob zusätzliche Daten erhoben werden müssen oder wo noch Lücken vorhanden sind.

KI-Projekte sind keine reinen IT-Projekte

Ein zweiter wesentlicher Fehler, der aber eng mit der mangelnden Datenqualität verbunden ist, liegt in einem falschen Verständnis von KI-Projekten. Es ist eben nun gerade nicht so, dass es sich hier um ein reines Technologie-Projekt handelt. Die oft anzutreffende Haltung, dass IT und beauftragte Dienstleister ein schlüsselfertiges System bestehend aus Technologien und Software aufstellen und der Rest von allein läuft, führt zwangsläufig in die Irre. Die Notwendigkeit vom Einreißen bestehender Datensilos wird aus technischer Sicht gewöhnlich verstanden. Es bedarf aber mehr für den Erfolg von KI-Analytics-Projekten, als nur die Daten ungehindert fließen zu lassen. Die in der Metapher der Silos immanent enthalten Grenzen müssen auch in den Köpfen niedergerissen werden. KI-Projekte sind auch Change-Projekte.

Data Owner wissen nicht, welche Qualität Daten haben sollten

Damit einher geht auch der Aspekt der Datenqualität. Die benötigten Daten gehören oft einem Fachbereich (Data oder Information Owner), der auch die Datenqualität verantwortet. Das führt oft dazu, dass die Notwendigkeit einer guten Datenqualität nicht verstanden wird. Dahinter stecken keine bösen Absichten: Die beteiligten Personen aus dem Fachbereich erkennen schlicht nicht die Vorteile, die sich für ihren Fachbereich daraus ergeben. Oft wird es als ‚On-Top‘-Aufgabe gesehen, die keinen Mehrwert bietet. Dadurch fehlt dann die Motivation, die Datenqualität zu steigern.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Es genügt also nicht, die Datensilos in Form von Data Lakes einzureißen und die Data Scientists damit dann allein zu lassen. Die Fachbereiche als Data Owner müssen auch davon überzeugt werden, dass ihnen eine bessere Datenqualität Vorteile bringt, also ein echter Mehrwert erreicht werden kann.

Data-Product-Team verbindet Technologie und Unternehmenskultur

Es geht bei erfolgreichen Data-Analytics-Projekten somit auch um Unternehmenskultur und die Definition gemeinsamer Ziele. Das gelingt am besten, wenn datenzentriert gearbeitet wird, also die Stakeholder aus den Fachbereichen, Data Scientists und Data Engineer gemeinsam als sogenanntes Data-Product-Team agieren und an die Definition der Use-Cases und der Entwicklung konkreter Fragestellungen gemeinsam arbeiten. Die unmittelbare Projektarbeit vermittelt die Bedeutung der Datenqualität nachhaltiger, um Maßnahmen zur Verbesserung einleiten zu können. Im Fokus müssen hier immer die Wünsche und die Anforderungen des Fachbereichs stehen, denn schließlich müssen sie später die laufenden Prozesse weiterbetreuen und mit den Informationen arbeiten. Eine hohe Datenqualität und damit sinnvolle KI-Analysen lassen sich also nur im Team erreichen.

Dieser Artikel stammt von unserem Partnerportal Industry of Things.

* Elena Fomenko arbeitet als Senior Data Scientist und Data Thinking Expertin bei Detecon International.

(ID:48025921)