Kommentar von Dr. Uwe Müller, CGI Reif für KI? Auf die Daten kommt es an

Von Dr. Uwe Müller

Über den Erfolg von KI-Projekten entscheiden die Daten. Ein zentrales Gütekriterium ist dabei deren Reifegrad. Abhängig davon sind unterschiedliche KI-Methoden nutzbar, die Unternehmen verschiedene Möglichkeiten bieten: von einfachen Datenstrukturanalysen über die Erstellung von Prognosen bis hin zur vollständigen Automatisierung komplexer Prozesse. Eine Datenstrategie bildet die Basis für das Erreichen eines hohen Reifegrades und damit auch für den Erfolg von KI-Projekten.

Anbieter zum Thema

Der Autor: Dr. Uwe Müller ist Executive Consultant Financial Services und Practice Manager Big Data Analytics bei CGI in Düsseldorf
Der Autor: Dr. Uwe Müller ist Executive Consultant Financial Services und Practice Manager Big Data Analytics bei CGI in Düsseldorf
(Bild: CGI)

In der Vergangenheit haben KI-Systeme vor allem mit Algorithmen gearbeitet, Expertensysteme sind dafür ein Beispiel. Algorithmen sind deterministisch strukturiert, vergleichbar mit fest verdrahteten Lösungswegen. Inzwischen steht in der KI aber die datengetriebene Verarbeitung im Vordergrund. Auf Basis von Neuronalen Netzen, Deep Learning oder Reinforcement Learning können so algorithmische Herausforderungen und Limitierungen bewältigt werden.

Datengetriebene Verarbeitungsprozesse setzen zunächst voraus, dass Daten in entsprechender Quantität und Qualität vorhanden sind. Je höher dabei der Reifegrad der Daten ist, desto größer ist auch der Mehrwert von KI-Systemen. Eine Erhöhung des Daten-Reifegrads erfolgt typischerweise in den Stufen Datenauswahl, Datenbereinigung und -verbesserung, Daten-Labeling und Datenaufbereitung für die Entwicklung von Reinforcement-Learning-Modellen.

Beim Labeling werden Daten Zielwerte zugordnet, also etwa einem Bild eine bestimmte Kategorie oder einer Stimmsequenz ein Gefühl. Das Reinforcement-Learning zielt darauf ab, auf Basis eines Belohnungssystems intelligente Agenten zu trainieren und für komplexe Entscheidungssituationen einzusetzen. Dabei können über sogenannte Monte-Carlo-Simulationen neue, bisher nicht erfasste Entscheidungssituationen maschinell erzeugt und für ein erweitertes Training der Agenten genutzt werden, um damit eine höhere Entscheidungssicherheit zu erzielen.

Beispiel AlphaGO

Ein klassisches Beispiel für die Nutzung großer Datenmengen und moderner KI-Lernmethoden wie Reinforcement Learning ist die AlphaGO-Entwicklung von Google. Es war das erste System, das professionelle Spieler des chinesischen Brettspiels Go schlagen konnte. Dabei ist zu berücksichtigen, dass Go aufgrund der Brettgröße und der höheren Anzahl möglicher Spielzüge eine deutlich größere Komplexität als etwa Schach aufweist. Folglich musste Google auch extrem viel Zeit und Geld in die Entwicklung der Datenbasis stecken. Ausgehend von dieser Datenbasis ließ Google für die Entwicklung der neuen Version AlphaGO Zero zwei Go-Agenten immer wieder gegeneinander spielen, um deren Fähigkeiten zu verbessern. Relativ schnell war der AlphaGO Zero Agent dem ursprünglichen AlphGO Agent bei Weitem überlegen.

Für Unternehmen empfiehlt sich bei der Verbesserung der Datenreife unter Kostengesichtspunkten folgende Vorgehensweise:

  • 1. Systematische Erfassung der Daten.
  • 2. Einkauf von vortrainierten Modellen und/oder gelabelten Datensätzen.
  • 3. Aufbau eigener Ressourcen. Das Ergebnis dieses Prozesses sollten reife Daten sein, also Daten, mit denen man KI-Modelle trainieren kann – und zwar ohne weitere manuelle Tätigkeiten.

Drei KI-Verfahren im Überblick

„Aus Daten lernen“ lautet somit die Aufgabe. Abhängig vom jeweiligen Grad der Datenreife kann ein Unternehmen unterschiedliche KI-Verfahren nutzen: vom Unsupervised Learning mit relativ unreifen Daten über das Supervised Learning mit gelabelten Daten bis hin zum Reinforcement Learning mit einem realistischen Bewertungssystem und einer Datenbasis, die durch Monte-Carlo-Simulationen zusätzlich angereichert werden.

Beim Unsupervised Learning ist das Ziel, Daten für analytische Projekte anzureichern sowie Strukturen in den Daten zu identifizieren. Typische Anwendungsbereiche sind die Gruppierung von Daten, die Reduktion der Dimension, die Identifikation von Mustern, die Datenkompression sowie Verfahren des Natural Language Processing.

Zu den genutzten Methoden und Algorithmen gehören unter anderem:

  • 1. Clusteranalyse, insbesondere k-Means, Hierarchische Verfahren, Kohonen Self-Organizing Maps, Growing Neural Gas
  • 2. Hauptkomponentenanalyse
  • 3. Mehrdimensionale Skalierung
  • 4. NLP-Verfahren, insbesondere TF-IDF (Term Frequency – Inverse Document Frequency), Topic Analysis

Das Supervised Learning zielt ab auf die Erstellung von Prognosen beziehungsweise auf das automatisierte Erkennen von Bildern, Sprache und Stimmungen. Typische Anwendungsbereiche sind die Klassifikationsanalysen, die Regressionsanalysen und die Zeitreihenanalyse.

Verwendete Methoden und Algorithmen sind unter anderem:

  • Lineare/logistische Regression, Decision Tree
  • Neuronale Netze, Gradient Boosting, Random Forest
  • Deep Learning, CNN (Convolutional Neural Network), LSTM (Long Short-Term Memory)

Beim Reinforcement Learning letztlich geht es darum, komplexe Prozesse oder Handlungsabläufe vollständig zu automatisieren. Typische Aktivitäten betreffen die Klassifizierung und Bewertung von Situationen und Handlungsalternativen, die Modellierung von Belohnungen beziehungsweise Bestrafungen sowie die Entwicklung von KI-Agenten. Das Modell kann während der Anwendungsphase lernen, indem es immer wieder auch zufällig alternative Entscheidungen trifft und deren Belohnungen auswertet.

Auch hier kommen unterschiedlichste Methoden und Algorithmen zum Einsatz, unter anderem auch abhängig davon, ob der Entscheidungsraum diskret oder stetig ist. Beispiele sind:

  • Monte-Carlo-Simulation
  • DQN (Deep Q-Learning)
  • SARSA (State-Action-Reward-State-Action)
  • DDPG (Deep Deterministic Policy Gradient)
  • On-/Off-Policy-Algorithmen
  • Model-Based/-Free-Algorithmen

Ein zentraler Unterschied zwischen dem Supervised Learning und Reinforcement Learning liegt darin, dass beim Supervised Learning zwei Phasen vorhanden sind, eine Trainings- und eine Prognosephase. Beim Reinforcement Learning hingegen verläuft das Lernen und Prognostizieren parallel. Dabei wird der Anteil des Lernens neuer Situationen zur Nutzung des bereits Gelernten (explore vs. exploit) im Laufe des Trainings sukzessive verringert.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Im Hinblick auf die Unterschiede der einzelnen KI-Verfahren und den jeweiligen Reifegrad der Daten muss ein Unternehmen aber auch einen wesentlichen Aspekt berücksichtigen: Je höher der Reifegrad ist, desto höher sind die Kosten. Die Datenaufbereitung der Unsupervised-Learning-Verfahren wird in der Regel von Data Engineers und Data Scientists vollautomatisiert durchgeführt. Der Kostenaspekt spielt hierbei nur eine untergeordnete Rolle. Abhängig davon, ob das Labeling der Supervised-Learning-Verfahren automatisch oder manuell ausgeführt werden muss, können die Kosten für die Datenaufbereitung hierfür signifikant steigen. Insbesondere auch dann, wenn für das Labeling Domain-Know-how erforderlich ist, wie zum Beispiel bei den Modellen zur Spracherkennung. Amazon und Co. mussten in den letzten Jahren für die Entwicklung ihrer Sprachassistenten sehr viele Sprachwissenschaftler einstellen. Die Datenaufbereitung für die Entwicklung eines Reinforcement-Agents ist in der Regel sehr aufwendig. Zum einen ist Domain-Know-how erforderlich, um ein realistisches Bewertungssystem entwickeln zu können. Zum anderen können Handlungsalternativen oft nur manuell oder teilautomatisiert klassifiziert und bewertet werden. Beides sind Kostentreiber in der Datenaufbereitung. Ein Beispiel hierfür sind die Kosten eines Systems zum autonomen Fahren. Der eigentliche Kostentreiber ist nicht die Entwicklung des Systems selbst, sondern die Aufbereitung und Bereitstellung der dafür notwendigen Daten.

Hinsichtlich des Kostenaspekts gibt es deshalb auch neue Ansätze in der Entwicklung von KI-Modellen. Ein Beispiel hierfür ist das Self-Supervised Learning beziehungsweise Weak Supervision. Supervised-Learning-Modelle setzen prinzipiell ein manuelles und damit zeitaufwendiges Daten-Labeling voraus, das infolgedessen mit hohen Kosten verbunden ist. Diese Herausforderung greift das Verfahren Weak Supervision auf. Dabei werden unstrukturierte oder unpräzise Daten automatisch gelabelt, sodass sie im Supervised Learning genutzt werden können. Eine Kostenreduzierung und Prozessbeschleunigung bei der Modellentwicklung sind dabei die Ergebnisse.

KI-Nutzungsmöglichkeiten anhand des Daten-Reifegrads

Doch wie korrespondiert der Reifegrad von Daten als Messgröße konkret mit realen KI-Anwendungsszenarien? Ein Kundenbeispiel aus der Versicherungsbranche zeigen die Unterschiede.

Zu den relevanten Kundendaten eines Versicherungsunternehmens gehörten demografische Daten, Vertragsdaten, die Kontakthistorie sowie Schadensmeldungen und -regulierungen. Bei einem geringen Reifegrad wurden lediglich operative Daten systematisch erfasst, nicht aber die Kontakthistorie oder das Kundenfeedback. Auch eine systematische Auswertung von Berichten, Bildern und Gutachten erfolgte nicht. Schon mit den operativen Daten konnten zwar Prognosemodelle zum Beispiel für Retention entwickelt werden, sie waren aber aufgrund fehlender Daten insbesondere über Kundenreaktionen sehr ungenau.

Für diesen Kunden entwickelte CGI eine Datenstrategie mit der Zielsetzung, Daten aus den unterschiedlichen Unternehmensbereichen systematisch erfassen und für KI-Anwendungen zusammenführen zu können – etwa hinsichtlich Kontakthistorie, Kundenfeedbacks und interner Regulierungsaufwände. Darüber hinaus wurden Projekte für die Analyse und Bewertung der Schadensmeldungen sowie für die Auswertung der Berichte und Gutachten unter Nutzung von NLP-Methoden initiiert. Auf dieser Basis konnten effiziente Modelle zur Ermittlung von Betrugswahrscheinlichkeiten und zur Schätzung der Schadenshöhe entwickelt werden.

Insgesamt kann mit KI-Methoden das enorme Potenzial interner und externer Datenquellen genutzt werden. Der Grad der Datenreife ist dabei von entscheidender Bedeutung. Wenn keine geeignete Datenbasis vorhanden ist, dann gibt es auch keine erfolgreiche KI-Umsetzung. Welche Möglichkeiten ein KI-System dann letztlich konkret bietet, hängt immer vom Reifegrad der Daten ab – er ist und bleibt das ausschlaggebende Kriterium für die Antwort auf die Frage: Reif für KI?

(ID:48297685)