Definition Was ist Model Drift?

Anbieter zum Thema

Model Drift ist ein Begriff aus dem Umfeld des maschinellen Lernens. Er bezieht sich auf das Phänomen, dass die Vorhersagegenauigkeit von Machine-Learning-Modellen mit der Zeit nachlassen kann. Ursachen hierfür sind beispielsweise, dass Annahmen oder Variablenbhängigkeiten, die beim Erstellen und Trainieren der Modelle noch gültig waren, sich über die Zeit verändert haben. Maßnahmen wie das Retraining oder Tuning der Modelle können den Model Drift beseitigen.

(Bild: © aga7ta - stock.adobe.com )

Der Begriff Model Drift wird im Umfeld des maschinellen Lernens verwendet. Alternativ wird zum Teil auch der Begriff Modell Decay genutzt. Die beiden Begriffe beschreiben das Phänomen, dass die Vorhersage- und Klassifizierungsgenauigkeit von Machine-Learning-Modellen mit der Zeit nachlassen können. Die Ursachen für einen Model Drift können sehr vielfältig sein. Beispielsweise sind die beim Erstellen oder beim Trainieren des Modells getroffenen Annahmen nicht mehr gültig oder Abhängigkeiten der Eingabe- und Zielvariablen verändern sich über die Zeit.

Abhängig von den verschiedenen Ursachen des Drifts wird grundsätzlich zwischen Datendrift, Konzeptdrift und dem Drift aufgrund von Upstream-Datenänderungen unterschieden. Auswirkungen eines Model Drifts sind, dass die vom Modell getroffenen Vorhersagen oder durchgeführten Klassifizierungen ungenau oder fehlerhaft sind. Die Ergebnisse der Modelle haben nicht mehr die Qualität wie unmittelbar nach dem Erstellen und ihrem Training. Die ungenauen oder fehlerhaften Vorhersagen und Klassifizierungen der Modelle verursachen in Unternehmen fehlerhafte Planungen, unwirksame Kampagnen, Ausfälle von Geschäfts- oder Produktionsprozessen oder führen zu erhöhten Kosten. Ein Model Drift lässt sich durch verschiedene Maßnahmen wie das Retraining oder Tuning der Modelle beseitigen.

Die verschiedenen Arten des Model Drifts

Grundsätzlich wird zwischen diesen drei Arten des Model Drifts unterschieden:

  • Konzeptdrift
  • Datendrift
  • Drift aufgrund von Upstream-Datenänderungen

Ein Konzeptdrift tritt auf, wenn sich die Abhängigkeiten zwischen den Eingabevariablen und den Zielvariablen verändern. Es verändert sich die Definition dafür, was das Modell vorhersagen soll, und damit das Modellkonzept. Neue Technologien, Verhaltensweisen oder Trends können dazu führen, dass sich die Vorgaben für die Modellvorhersagen über die Zeit verändern. Beispiel dafür ist das automatische Erkennen von schadhafter Software (Malware) durch ML-Modelle. Neu Arten von Malware oder veränderte Betrugstechnologien führen dazu, dass sich die Definition für eine schadhafte Software verändert und die Erkennungsrate der Modelle nachlässt.

Als Datendrift wird bezeichnet, wenn sich die für das Erstellen und Trainieren der Modelle verwendeten Eigenschaften der Rohdaten und der daraus abgeleiteten Features verändern. Ursachen hierfür sind beispielsweise saisonale Abhängigkeiten oder die Veränderung der Altersstruktur von Usern einer Plattform.

Ein Drift aufgrund von Upstream-Datenänderungen wird durch Veränderungen der Infrastruktur und vorgelagerter Datenpipelines verursacht. So können zum Beispiel bestimmte Datenquellen wegfallen, bestimmte Messwerte nicht mehr geliefert werden oder Dateneinheiten sich verändern. All das hat Auswirkungen auf die Qualität der Ergebnisse der Machine-Learning-Modelle.

Erkennen eines Model Drifts

Um die durch einen Model Drift verursachten negativen Folgen für bestimmte Prozesse oder Geschäftsbereiche zu reduzieren oder gänzlich zu verhindern, ist es zunächst wichtig, den Model Drift zuverlässig zu erkennen. Dafür ist es unerlässlich, die Vorhersage- und Klassifizierungsgenauigkeit der genutzten Machine-Learning-Modelle kontinuierlich zu beobachten. Überwachen lassen sich die Modelle, indem beispielsweise die Ergebnisse unmittelbar nach dem initialen Training mit den aktuellen Ergebnissen verglichen werden. Treten Qualitätsschwankungen und Abweichungen auf, sind im nächsten Schritt die Ursachen für den Model Drift zu identifizieren.

Mittlerweile gibt es Monitoring-Tools für Machine-Learning-Modelle, mit denen sich Model Drifts automatisiert erkennen lassen. Darüber hinaus existieren mathematische Methoden und Kennwerte wie der Kolmogorov-Smirnov-Test, der Population-Stability-Index oder der Z-Score, die zur Erkennung eines Model Drifts einsetzbar sind. Da ein Model Drift kein einmaliges Phänomen ist und immer wieder auftreten kann, sind die Machine-Learning-Modelle in einem kontinuierlichen Prozess zu überwachen.

Mögliche Maßnahmen zur Beseitigung eines Model Drifts

Ist ein Model Drift erkannt, lässt er sich abhängig von den Ursachen und der Art des Drifts durch verschiedene Maßnahmen beseitigen. Eine der häufigsten und wirksamsten Methoden ist das erneute Training (Retraining) des betroffenen Machine-Learning-Modells. Unter Umständen ist dieses Retraining in regelmäßigen Zeitabständen durchzuführen, um die Vorhersagegenauigkeit eines Modells zu erhalten.

Eine weitere Methode ist das Modell-Tuning. Beim Modell-Tuning wird das Machine-Learning-Modell so angepasst, dass die für das Modell getroffenen Annahmen und Definitionen wieder gültig sind und dem aktuellen Stand entsprechen. Es werden beispielsweise Features, Hyperparameter oder die Architektur eines vom Model Drift betroffenen Modells angepasst.

Weitere Maßnahmen, mit denen sich Model Drifts beseitigen oder reduzieren lassen, sind:

  • kontinuierliches Echtzeittraining der Modelle
  • Anpassung der vorgelagerten Dateninfrastrukturen und Datenpipelines
  • Entwicklung eines komplett neuen Modells
  • Schaffung einer gänzlich neuen Datenbasis
  • Beschränkung des Modells auf Teilergebnisse ohne Model Drift

(ID:48419917)