Suchen

Kommentar von Dr. Uwe Müller, CGI Machine Learning liefert präzise Prognosen

| Autor / Redakteur: Dr. Uwe Müller / Nico Litzel

Der effiziente Einsatz von Machine Learning erfordert Grundlagenwissen zu Modellklassen, Feature-Auswahl, Retraining und Workflow-Komponenten. Auf dieser Basis kann dann die Präzision von Prognosen entscheidend erhöht werden.

Firmen zum Thema

Der Autor: Dr. Uwe Müller ist Executive Consultant Financial Services, Practice Manager for Big Data Analytics bei CGI in Düsseldorf
Der Autor: Dr. Uwe Müller ist Executive Consultant Financial Services, Practice Manager for Big Data Analytics bei CGI in Düsseldorf
(Bild: CGI)

Machine Learning hat sich mittlerweile als eigenständige Disziplin in der Informatik etabliert. Die Wurzeln des Machine Learning liegen in der Statistik: Ein statistisches Modell (häufig ein Prognosemodell) wird in der Lernphase mit historischen Daten trainiert und dann wird in der Anwendungsphase mit neuen Daten eine Prognose erstellt. Der Prozess erfolgt ohne menschliche Aktivität rein maschinell.

Komplettiert wird der Machine Learning Workflow, wenn die aktuell anfallenden und zur Prognose genutzten Daten in die nächste Lernphase eingespeist werden können. So wird das Modell nach und nach verbessert, da es immer auf einem aktuellen Datenstand gehalten wird.

Gerade in den vergangenen Jahren entstanden zahlreiche neue oder weiter optimierte Modellvarianten, die zu immer besseren und effizienteren Prognosen führen. Aktuell sind auf dem Markt etliche Modellvarianten verfügbar. Ihr qualifizierter Einsatz erfordert in aller Regel ein hohes Maß an Erfahrung, Kenntnissen und Expertenwissen, theoretische Grundkenntnisse sind nicht ausreichend.

Die häufig verwendeten Varianten lassen sich grob in drei Modellklassen gliedern: in Lineare Modelle und Decision Trees, in Support-Vector-Machine- und Ensemble-Methoden sowie in Neuronale Netze.

Die wichtigsten Modellklassen im Überblick

  • Lineare Modelle und Decision Trees: Es handelt sich dabei um die Standardverfahren. Ihr Einsatz erfordert kein spezielles Know-how. Allerdings haben diese Modelle in vielen Anwendungsfällen eine geringere Prognoseperformance. Insbesondere, wenn große Datenmengen für die Modellschätzung zur Verfügung stehen, sind die Verfahren der folgenden beiden Gruppen meistens besser geeignet.
  • Support Vector Machine und Ensemble-Methoden: Diese Gruppe zählt zu den am weitesten verbreiteten Machine-Learning-Verfahren, da das Modelltraining nur wenig manuelle Eingriffe erfordert und die Gefahr des Overfittings relativ gering ist. In vielen Anwendungsfällen lässt sich bei einer geeigneten Wahl der Kernel-Funktion und der Hyperparameter eine sehr gute Prognoseperformance erzielen.
  • Neuronale Netze: Diese Gruppe wurde in den letzten Jahren in den unterschiedlichsten Anwendungsgebieten immer beliebter. Erstens wurden die Verfahren, etwa für die Bild- und Spracherkennung, zunehmend verbessert und zweitens sind intuitive und relativ einfach zu bedienende Open Source Tools wie Keras hinzugekommen, die einen Einsatz von Neuronalen Netzen einem größeren Anwenderkreis ermöglichen. Mit geeigneten Neuronalen Netzen kann eine sehr gute Prognoseperformance erzielt werden. Allerdings erfordern sowohl die Wahl der Netzarchitektur als auch das Modelltraining – zumindest bei komplexeren Modellen – sehr viel Erfahrung.

Die Auswahl der geeigneten Feature-Variablen spielt innerhalb eines Machine Learning Workflows eine zentrale Rolle; die Qualität der Prognosen steht und fällt mit der Auswahl der richtigen Features. In der klassischen Statistik werden die Features im Anschluss an eine entsprechende Analyse manuell ausgewählt, in einem Machine Learning Workflow hingegen sollte dies weitgehend automatisch erfolgen. Dabei können verschiedene Strategien miteinander kombiniert werden. Folgende Möglichkeiten bestehen:

  • Auswahl der Features basierend auf deren Werten. Hierbei werden meist Features ausgeschlossen, die (a) eine zu kleine Varianz, (b) bei nominalen Features zu viele unterschiedliche Werte (beispielsweise Namen) oder (c) zu viele fehlende Werte haben. Dabei müssen sinnvolle, vom Anwendungsfall vorgegebene Grenzwerte festgelegt werden.
  • Auswahl der Features basierend auf statistischen Tests. Unterscheiden lassen sich univariate Tests, wie der Chi-quadrat-Unabhängigkeitstest zwischen einem Feature und der Zielgröße, und multivariate Tests, etwa ANOVA, unter Einbeziehung der Zielgröße.
  • Auswahl der Features basierend auf der Modellperformance. Hier wird für unterschiedliche Feature-Kombinationen die Modellperformance berechnet und diejenige mit der besten Performance ausgewählt. Aufgrund der hohen Anzahl an möglichen Kombinationen werden hierbei vor allen Dingen genetische beziehungsweise evolutionäre Algorithmen eingesetzt.

Retraining eines Prognosemodells

Ein Prognosemodell ist eine Zuordnung der Input-Daten – auch Features genannt – auf eine oder mehrere Zielgrößen. Im diesem Fall liegen k unterschiedliche Features, n unterschiedliche Beobachtungen in den historischen Daten und p unterschiedliche Modellparameter vor. In der Lernphase werden die Modellparameter a1, …, ap so festgelegt, dass eine sogenannte Loss-Funktion optimiert wird. Eine mögliche Loss-Funktion misst beispielsweise die Summe der Abstände zwischen den tatsächlichen Werten der Zielgröße aus den historischen und den prognostizierten Daten.
Ein Prognosemodell ist eine Zuordnung der Input-Daten – auch Features genannt – auf eine oder mehrere Zielgrößen. Im diesem Fall liegen k unterschiedliche Features, n unterschiedliche Beobachtungen in den historischen Daten und p unterschiedliche Modellparameter vor. In der Lernphase werden die Modellparameter a1, …, ap so festgelegt, dass eine sogenannte Loss-Funktion optimiert wird. Eine mögliche Loss-Funktion misst beispielsweise die Summe der Abstände zwischen den tatsächlichen Werten der Zielgröße aus den historischen und den prognostizierten Daten.
(Bild: CGI)

Abhängig vom Anwendungsfall kann für das Prognosemodell ein Retraining eingesetzt werden. Retraining bedeutet, dass die erzielten Werte der zu prognostizierenden Zielgröße mit den für die Prognose verwendeten Features aus der Anwendungsphase zusammengeführt und diese in die Daten der nächsten Lernphase eingegliedert werden. Unternehmen können so das Prognosemodell immer mit den aktuellsten Daten trainieren und weiter verbessern. Es gibt allerdings auch Use Cases, bei denen kein Retraining des Prognosemodells möglich ist. Das gilt etwa für ein Kreditrisikomodell, denn hier sind Ausfall oder Nichtausfall des Kredits in der Regel erst nach Jahren bekannt.

Auch für die Modellüberwachung werden die Realisierungen der zu prognostizierenden Zielgröße benötigt. Zusammen mit der Prognose und den verwendeten Features werden daraus KPIs zur Modellperformance berechnet. Eine Modellüberwachung sollte immer Teil eines Machine Learning Workflows sein, unabhängig davon, zu welchem Zeitpunkt die realisierten Werte der Zielgröße anfallen.

Der Machine Learning Workflow

Innerhalb eines Machine Learning Workflows kommt der Auswahl der Features eine wesentliche Bedeutung zu.
Innerhalb eines Machine Learning Workflows kommt der Auswahl der Features eine wesentliche Bedeutung zu.
(Bild: CGI)

Ein typischer Machine Learning Workflow umfasst in einer vereinfachten Sicht die Lernphase, die Anwendungsphase und die Modellüberwachung. Dabei sollte die Komplexität der einzelnen Komponenten nicht unterschätzt werden. Abhängig vom Anwendungsfall können einige Personenjahre an Entwicklungsaufwand zusammenkommen. Deswegen sollte bei der Entwicklung der Machine Learning Workflows unbedingt ein methodischer Ansatz gewählt werden. Einer der am häufigsten genutzten Ansätze ist der Cross Industry Standard Process for Data Mining, kurz CRISP-DM genannt. Er umfasst sechs unterschiedliche Projektphasen: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation und Deployment.

Ohne passende Daten kein erfolgreiches Machine Learning

Insgesamt kann mit Machine Learning das enorme Potenzial ausgeschöpft werden, das in den diversen internen und externen Datenquellen vorhanden ist. Allerdings lässt sich das tatsächliche Potenzial nur durch eine vorhergehende Datenanalyse und eine Beurteilung der Datenqualität abschätzen. Vor dem Start von Machine-Learning-Projekten sollten Unternehmen deshalb zunächst die zugänglichen Daten begutachten und im Zweifelsfall zunächst die Datenbasis verbessern.

(ID:46377585)