Suchen

Kommentar von Michael Deuchert, IT-Novum Die 4 Stufen zum Data-Science-Projekt

| Autor / Redakteur: Michael Deuchert / Nico Litzel

Viele KI-Projekte scheitern aufgrund mangelnder Datenqualität. Unternehmen investieren zwar immer mehr in Machine Learning, vernachlässigen aber den Aspekt der Data Preparation: Die Qualität der Daten ist Grundvoraussetzung für den Erfolg eines Data-Science-Projekts.

Firmen zum Thema

Der Autor: Michael Deuchert ist Data Scientist bei IT-Novum
Der Autor: Michael Deuchert ist Data Scientist bei IT-Novum
(Bild: IT-Novum)

Für die Vorbereitung der Daten sollten die im Folgenden beschriebenen vier Stufen durchlaufen werden. Dadurch können Unternehmen die Vorhersagequalität ihrer Datenmodelle stark verbessern und den Aufwand dafür deutlich senken.

Die Datenvorbereitung lässt sich in vier Abschnitte unterteilen: Data Exploration, Feature Cleansing, Feature Engineering und Feature Selection. Im Folgenden werden Verbesserungsmöglichkeiten für jeden dieser Abschnitte präsentiert, die helfen, den Prozess der Data Preparation zu optimieren.

1. Data Exploration

Ziel der ersten Stufe ist es, ein Grundverständnis der Daten zu entwickeln. Bei der Beschreibung der Merkmale mithilfe von statistischen Analyseverfahren werden Minima und Maxima, Datenverteilung und Lagemaße sowie Zusammenhangmaße festgelegt.

Um die Qualität der Daten zu sichern, müssen mögliche Qualitätsdefizite aufgedeckt werden, um sie auf den folgenden Stufen zu beheben, beispielsweise:

  • Viele Machine-Learning-Modelle können nicht mit Null-Werte umgehen, d. h., dadurch ist Modelltraining nicht möglich.
  • Performance-Modelle leider unter Ausreißern, die z. B. zu Overfitting führen können.
  • Zudem müssen nicht-numerische Datenformate und
  • seltene Merkmalsausprägungen identifiziert werden.

Um Zusammenhänge besser und einfacher aufzudecken, helfen auf dieser Stufe Visualisierungen.

Um Zusammenhänge besser und einfacher aufzudecken, helfen auf dieser Stufe Visualisierungen.
Um Zusammenhänge besser und einfacher aufzudecken, helfen auf dieser Stufe Visualisierungen.
(Bild: IT-Novum)

2. Feature Cleansing

Die zweite Stufe umfasst die Behebung der identifizierten Fehler (bzw. ihre Neutralisierung). Um fehlende Werte zu bereinigen, bieten sich zwei Ansätze an: Löschen von Datensets mit fehlenden Werten oder Imputing, d. h., Ersatz der fehlenden Daten durch gültige Werte. Am einfachsten geht das durch den Einsatz von Dummies. Modelle lassen sich ohne Schwierigkeiten trainieren, wenn anstelle des fehlenden Werts das Merkmal „Null“ eingesetzt wird. Dabei wird der Durchschnitt aller Merkmale gebildet, die ungleich Null sind, und dieser Wert eingesetzt. Handelt es sich um Zeitreihen, wird an den Platz des Null-Wertes der erste oder der letzte folgende gültige Wert eingesetzt. Sie lassen ein Modell den fehlenden Wert ermitteln.

Die Skalierung von Datensätzen hilft, den unerwünschten Einfluss von Ausreißern einzuschränken. Das gilt jedoch nicht für Vorhaben zur Aufdeckung von Anomalien, denn eine korrekte „Anomaly Detection“ ist natürlich auf die Ausreißerwerte im Datenbestand angewiesen.

Um die Auswirkungen von Ausreißern zu minimieren, ist es empfehlenswert, die Werte in logarithmischer Form darzustellen.

Die logarithmische Darstellung (unten) zeigt eine viel kleinere Abweichung des Ausreißers vom Mittelwert. Damit ist ihr Einfluss auf die Gesamtheit der Daten geringer.
Die logarithmische Darstellung (unten) zeigt eine viel kleinere Abweichung des Ausreißers vom Mittelwert. Damit ist ihr Einfluss auf die Gesamtheit der Daten geringer.
(Bild: IT-Novum)

3. Feature Engineering

Besitzt ein Merkmal viele Einzeldaten, sollte man über Diskretisierung nachdenken, also die Zusammenfassung von Werten. Weniger Merkmalsausprägungen erfordern nämlich auch weniger Rechenaufwand. Zudem spart man Zeit für die Trainingsphase. Besonders bei kontinuierlichen Wertereihen sollten Daten diskretisiert werden.

Die Diskretisierung von Daten verringert die Trainingszeit für Modelle, ohne dass dabei viele Informationen verloren gehen.
Die Diskretisierung von Daten verringert die Trainingszeit für Modelle, ohne dass dabei viele Informationen verloren gehen.
(Bild: IT-Novum)

Auch Bilder oder Texte können Daten sein. Das andere Datenformat kann es erfordern, sie in numerische Werte zu übertragen, abhängig vom gewählten Machine Learning-Modell. Dafür bietet sich die One-Hot- oder 1-aus-n-Kodierung an.

Jede Merkmalsausprägung (Städte) erhält eine eigene Spalte. Zeilen, die Text enthalten, bekommen die Zahl 1 eingetragen. In allen anderen Zellen wird eine 0 vermerkt.
Jede Merkmalsausprägung (Städte) erhält eine eigene Spalte. Zeilen, die Text enthalten, bekommen die Zahl 1 eingetragen. In allen anderen Zellen wird eine 0 vermerkt.
(Bild: IT-Novum)

4. Feature Selection

Auf der letzten Stufe werden die Merkmale bestimmt, mit denen die Predictive-Analytics-Modelle trainiert werden sollen. Man sollte sich hier beschränken, da die Trainingszeit im gleichen Maße steigt wie die Anzahl der Merkmale, die in die Berechnungen einfließen. Zudem existieren Modelle, die überhaupt nur mit einer begrenzten Datenzahl arbeiten können.

Aussortiert werden sollten Daten, die in keinem Zusammenhang mit der Eigenschaft stehen, die im Projekt modelliert werden soll.
Aussortiert werden sollten Daten, die in keinem Zusammenhang mit der Eigenschaft stehen, die im Projekt modelliert werden soll.
(Bild: IT-Novum)

Es ist auch möglich, mit modellbasierten Selektionen zu arbeiten. Allerdings benötigt dieses Vorgehen größere Rechenkapazitäten. Das Modell wird hier mehrmals mit verschiedenen Merkmalkombinationen trainiert. Daraus kann man dann die sinnvollen bzw. weniger sinnvollen Kombinationen ableiten.

Genutzt werden sollten Modelle wie „Random Forests“, die auf Entscheidungsbäumen basieren. Da diese Modelle datenbasiert die Bedeutung eines Merkmals für die Vorhersage ermitteln, kann man sich bei der weiteren Modellierung auf dieses Merkmal konzentrieren.

An diesem Punkt ist die Datenvorbereitung abgeschlossen und die Modellierung der Modelle steht an. Bei der Modellauswahl sollte man Aspekte wie die gewünschte Vorhersageart sowie Datenmenge und -beschaffenheit berücksichtigen. Mit dem Ziel, eine bestmögliche Vorhersagegenauigkeit zu erreichen, kann dann das geeignetste Modell trainiert werden.

Artikelfiles und Artikellinks

(ID:46556279)