Kommentar von Prof. Dr. Simone Braun und Dan Follwarczny KI-Projekte – diese Rolle spielt die Datenqualität

Von Prof. Dr. Simone Braun und Dan Follwarczny |

Anbieter zum Thema

Datenanalyse mithilfe von Künstlicher Intelligenz (KI) – für 70 Prozent der von den Beratern von PWC befragten Unternehmen ist dies das vielversprechendste Einsatzszenario. Doch so attraktiv die Vision erscheint, mittels KI das eigene Geschäft oder gar eine ganze Branche zu revolutionieren, so handfest sind die Herausforderungen, die sich in der Praxis ergeben. Ein häufiges Problem ist ein bereits beim Start eines Projekts mangelhafter Datenbestand. Die KI mit qualitativ schlechten Daten zu trainieren, macht keinen Sinn, da sie falsche Informationen lernt. Ohne den Einsatz gewisser Automatisierungen und KI ist es wiederum mühsam, die unzureichende Datenbasis zu verbessern.

Die Qualität von Trainingsdaten spielt bei der Entwicklung von KI-Projekten eine zentrale Rolle. Welche Fallstricke hier drohen, erklärt der nachfolgende Artikel.
Die Qualität von Trainingsdaten spielt bei der Entwicklung von KI-Projekten eine zentrale Rolle. Welche Fallstricke hier drohen, erklärt der nachfolgende Artikel.
(Bild: © ZinetroN - stock.adobe.com)

Dieser Beitrag gibt Hinweise, welche Rolle die Qualität von Trainingsdaten für die Entwicklung und den Erfolg von KI-Projekten spielt und welche Fallstricke drohen. Die Grundlage für die Tipps ist ein gemeinsames Forschungsprojekt der Experten für Geschäftspartnerdaten bei Uniserv und dem spanischen KI-Start-up recogn.ai.

Das Projekt widmete sich der Frage, unter welchen Voraussetzungen eine Künstliche Intelligenz helfen kann, in großen Mengen von Geschäftspartnerdaten – Kunden, Lieferanten, Dienstleiter, usw. – selbsttätig personenbezogene Daten von Unternehmensdaten zu unterscheiden. Eine solche Aufgabe ist vor allem für Organisationen mit umfangreichen Datenbeständen relevant. So ist es zum Beispiel für E-Commerce-Unternehmen und Einzelhändler, Banken und Versicherungen, Energieversorger und Messegesellschaften wichtig, Geschäftspartnerdaten automatisiert verwalten und richtig kategorisieren zu können.

Konkret geht es dabei zum Beispiel um die Einhaltung von Vorgaben der DSGVO oder unternehmensinternen Compliance-Richtlinien. Auch Marketing-Automation-Projekte bringen bessere Ergebnisse, wenn ihre Datenbasis stimmt. KI-Lösungen könnten in solchen Umfeldern zudem schon in der Vorbereitung erhebliche Effizienzgewinne bringen, denn die Konfiguration von Aufgaben zur Datenbereinigung mithilfe von Listenabgleichen und regelbasierten Algorithmen ist sehr aufwendig.

Beispiel Geschäftspartnerdaten

Die beiden Projektpartner wollten nun im Rahmen ihrer Zusammenarbeit am Beispiel von Geschäftspartnerdaten aus dem deutschsprachigen Raum untersuchen, ob eine KI die Aufgabe der Unterscheidung effizienter ausführen kann. Bereits bei der Planung müssen bestimmte Faktoren berücksichtigt werden, damit sich diese Hürden später nicht als Showstopper herausstellen.

Uniserv trainierte und testete während der zwölf Monate Projektlaufzeit über 50 verschiedene Machine-Learning-Modelle und verglich die jeweiligen Ergebnisse und Zuverlässigkeitswerte miteinander. Die Schwierigkeit für die KI lag in der Projektphase vor allem darin, dass sie lernen musste, dass Unternehmensnamen teilweise ebenso aus Namen von Privatpersonen bestehen können. Dies ist oft bei einer GbR oder einem Einzelunternehmen – zum Beispiel bei „Malermeisterin Eva Meier“ – der Fall. Im Rahmen des Projekts kamen unter anderem das Tool biome.webspace und das Open Source Tool biome.text von recogn.ai zum Einsatz. Beide Tools helfen dabei, unstrukturierte Daten zu verwalten sowie KI-Modelle zu erstellen, zu trainieren und zu testen.

Erkenntnisse & Tipps aus dem Forschungsprojekt

Aus dem Forschungsprojekt lassen sich für KI- & Datenanalyseprojekte in Unternehmen folgende Erkenntnisse und Tipps ableiten.

1. Das KI-Modell muss zur Problemstellung passen

Ausgangspunkt für jedes KI-Projekt ist die Auswahl des oder der passende(n) KI-Modelle. Dazu muss die Problemstellung, die eine Künstliche Intelligenz lösen soll, sehr präzise definiert sein. KI-Modelle lassen sich natürlich, wie im Fall des geschilderten Forschungsprojekts, selbst entwickeln. Alternativ kann man gemeinsam mit einem erfahrenen Partner das geeignete Modell erarbeiten. In jedem Fall ist zu Beginn des Projekts ein exploratives Vorgehen ratsam, in dem zunächst verschiedene KI-Modelle getestet und verglichen werden. Denn nicht jedes Modell bringt mit dem gleichen Dateninput dieselben Ergebnisse. Vielfältige Faktoren, wie die Konfiguration, die Menge und Verteilung der Trainings- und Testdaten oder wie oft ein Modell trainiert wird (sogenannte „Epochen“), nehmen Einfluss auf das Ergebnis. Entsprechend viel Zeit sollten Unternehmen daher bereits in der Projektkonzeption für diese Auswahlphase einplanen.

2. Trainingsdaten brauchen höchste Aufmerksamkeit

Neben der Modellauswahl kommt es vor allem auf die Daten an, mit denen eine KI für ihre Aufgabe trainiert wird. Entsprechen die Trainingsdaten nicht möglichst genau den später zu analysierenden Echtdaten, kommt es unweigerlich zu Problemen. Daher sollten sich Projektverantwortliche bei der Auswahl der Test- und Trainingsdaten grundsätzlich zwei Fragen stellen: Auf welche Daten(-Quellen) kann ich bereits zurückgreifen, um meine Problemstellung zu beantworten, und welche Daten benötige ich eventuell noch zusätzlich?

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Muss das KI-System mit echten, personenbezogenen Daten trainiert und getestet werden, müssen die Test- und Trainingsdaten unter Umständen anonymisiert und pseudonymisiert werden. In diesem Fall sollten Projektverantwortliche aber genau prüfen, ob solche veränderten Daten zum Anlernen der KI noch ausreichend und aussagekräftig genug sind. Sollen Anonymisierung und Pseudonymisierung vermieden werden, können Daten auch neu gesammelt und im gleichen Zuge gemäß der EU-DSGVO die Erlaubnis der jeweiligen Person zur Verwendung in einem KI-Projekt eingeholt werden. Dies gilt vor allem, wenn Unternehmen mit externen Projektpartnern zusammenarbeiten oder Daten in die Cloud verschoben werden sollen.

3. Synthetische Daten sind mit Vorsicht zu genießen

Oft kann es für das Anlernen und Testen einer KI auch ausreichen, wenn Unternehmen auf generierte, also synthetische Daten zurückgreifen. Entscheidend für den Erfolg dieser Methode: Die Daten müssen entsprechend der Fragestellung korrekt verteilt sein und einen repräsentativen Querschnitt der im Realbetrieb zu erwartenden Daten abbilden. Denn es macht durchaus einen Unterschied für die KI, ob sie mit echten oder generierten Daten trainiert wird. Eine mit synthetischen Daten trainierte KI braucht deshalb in der produktiven Anwendung eine besonders enge Überwachung. Andernfalls besteht das Risiko, dass ein intelligentes System auch aus den Mustern lernt, nach welchen die synthetischen Daten generiert wurden. Im Zweifelsfall sollten Projektverantwortliche deshalb genau prüfen, auf welche Weise die synthetischen Trainings- und Testdaten erstellt wurden, um negative Lerneffekte bei der KI zu vermeiden.

4. Viel hilft nicht viel – Vorsicht vor „Overfitting“

Um eine KI richtig anzulernen, muss neben der Qualität auch die Menge der Trainings- und Testdaten ausreichend sein. Wobei die Datenmenge nicht das alleinige Kriterium ist. Im Uniserv-Projekt erkannte die KI zum Beispiel die Datensätze mit der Bezeichnung „GmbH“ nicht als Unternehmensdatensätze. Der Grund: Trotz der großen Datenmenge waren prozentual zu wenige Datensätze mit der Firmierung als „GmbH“ enthalten. Doch Vorsicht: „Mehr“ bedeutet beim Training von KI-Modellen nicht zwangsläufig „besser“! Gerade bei sehr großen Datenmengen kann das Problem der Überanpassung, des sogenannten „Overfitting“, auftreten. Dabei „verlernt“ eine KI einmal Gelerntes wieder oder sie baut aus den Trainingsdaten „falsches“ Wissen auf, das im Produktivbetrieb zu falschen Ergebnissen führt. Projektverantwortliche erkennen eine Überanpassung oft, wenn die KI zwar zuverlässig einen kleineren Datensatz beurteilt, beim größeren Datensatz jedoch keine zuverlässigen Ergebnisse mehr liefert.

Unternehmen sollten also unbedingt darauf achten, dass die Menge an Referenzen in den Trainings- und Testdaten ausreicht, damit die KI korrekt lernt. Die Verteilung, der repräsentative Querschnitt der Daten, muss stimmen und die Realität der jeweiligen Fragestellung abbilden.

Fazit

Ganz unabhängig davon, ob synthetische oder reale Daten – die Daten, die der KI zum Lernen zur Verfügung gestellt werden, müssen immer von hoher Qualität sein. Ansonsten liefert das System am Ende unzuverlässige oder nicht nachvollziehbare Ergebnisse. Hohe Datenqualität bedeutet in KI-Projekten (wie auch sonst, wenn es um Geschäftspartnerdaten geht): korrekt, vollständig und widerspruchsfrei. Setzen Unternehmen eigene Datensätze im KI-Projekt ein, sollten sie diese vorab prüfen, aufbereiten und deren Qualität sicherstellen.

Eine Untersuchung von Dataiku (AI Maturity Survey, 2019) hat ergeben, dass über 40 Prozent der befragten Unternehmen die Bereinigung von Datenbeständen für den schwierigsten und zeitaufwendigsten Teil in einem KI-Projekt halten. Dies kann mithilfe von Datenqualitätstools erleichtert werden. Diese können auch bei der Anonymisierung und Pseudonymisierung eigener Echtdaten zu Trainingszwecken helfen. Ein weiterer wichtiger Aspekt der Qualitätssicherung: Unternehmen müssen der KI beziehungsweise ihrem Ergebnis ab einem bestimmten Zeitpunkt im Projektverlauf vertrauen. Dies fällt leichter, wenn sie sich sicher sind, dass die KI-Entscheidungen auf Grundlage der richtigen Datenbasis und einer angemessenen Qualität trifft.

Die Autoren

Prof. Dr. Simone Braun

Prof. Dr. Simone Braun
Prof. Dr. Simone Braun
(Bild: Stefanie Morlok Fotografie)

Prof. Dr. Simone Braun ist Professorin für E-Commerce an der Hochschule Offenburg. Sie lehrt und forscht im Bereich Omni-Channel-Commerce, Data Analytics und Digital Business. Zuvor war sie Head of Business Development bei Uniserv. Sie blickt auf 15 Jahre Erfahrung im Bereich der Innovationsentwicklung in der IT zurück – mit speziellem Fokus auf Kundendaten in den letzten acht Jahren. Frau Dr. Braun hat über 70 peer-reviewed Publikationen veröffentlicht und wurde für ihre Dissertation mit dem Carl-Adam-Petri-Preis für Informatik ausgezeichnet.



Dan Follwarczny

Dan Follwarczny
Dan Follwarczny
(Bild: Uniserv)

Dan Follwarczny ist Business Development Manager bei Uniserv. Als Experte für smarte Informationsflüsse unterstützt er dort seit 2019 die strategische Geschäftsfeldentwicklung und das Innovationsmanagement.

(ID:47023681)