Die 4 Stufen zum Data-Science-Projekt

Kommentar von Michael Deuchert, IT-Novum Die 4 Stufen zum Data-Science-Projekt

29.05.2020 Von Michael Deuchert

Anbieter zum Thema

it-novum GmbH

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

Disy Informationssysteme GmbH

QUNIS GmbH

Viele KI-Projekte scheitern aufgrund mangelnder Datenqualität. Unternehmen investieren zwar immer mehr in Machine Learning, vernachlässigen aber den Aspekt der Data Preparation: Die Qualität der Daten ist Grundvoraussetzung für den Erfolg eines Data-Science-Projekts.

Der Autor: Michael Deuchert ist Data Scientist bei IT-Novum(Bild: IT-Novum) — Der Autor: Michael Deuchert ist Data Scientist bei IT-Novum
(Bild: IT-Novum)

Für die Vorbereitung der Daten sollten die im Folgenden beschriebenen vier Stufen durchlaufen werden. Dadurch können Unternehmen die Vorhersagequalität ihrer Datenmodelle stark verbessern und den Aufwand dafür deutlich senken.

Die Datenvorbereitung lässt sich in vier Abschnitte unterteilen: Data Exploration, Feature Cleansing, Feature Engineering und Feature Selection. Im Folgenden werden Verbesserungsmöglichkeiten für jeden dieser Abschnitte präsentiert, die helfen, den Prozess der Data Preparation zu optimieren.

1. Data Exploration

Ziel der ersten Stufe ist es, ein Grundverständnis der Daten zu entwickeln. Bei der Beschreibung der Merkmale mithilfe von statistischen Analyseverfahren werden Minima und Maxima, Datenverteilung und Lagemaße sowie Zusammenhangmaße festgelegt.

Um die Qualität der Daten zu sichern, müssen mögliche Qualitätsdefizite aufgedeckt werden, um sie auf den folgenden Stufen zu beheben, beispielsweise:

Viele Machine-Learning-Modelle können nicht mit Null-Werte umgehen, d. h., dadurch ist Modelltraining nicht möglich.

Performance-Modelle leider unter Ausreißern, die z. B. zu Overfitting führen können.

Zudem müssen nicht-numerische Datenformate und

seltene Merkmalsausprägungen identifiziert werden.

Um Zusammenhänge besser und einfacher aufzudecken, helfen auf dieser Stufe Visualisierungen.

2. Feature Cleansing

Die zweite Stufe umfasst die Behebung der identifizierten Fehler (bzw. ihre Neutralisierung). Um fehlende Werte zu bereinigen, bieten sich zwei Ansätze an: Löschen von Datensets mit fehlenden Werten oder Imputing, d. h., Ersatz der fehlenden Daten durch gültige Werte. Am einfachsten geht das durch den Einsatz von Dummies. Modelle lassen sich ohne Schwierigkeiten trainieren, wenn anstelle des fehlenden Werts das Merkmal „Null“ eingesetzt wird. Dabei wird der Durchschnitt aller Merkmale gebildet, die ungleich Null sind, und dieser Wert eingesetzt. Handelt es sich um Zeitreihen, wird an den Platz des Null-Wertes der erste oder der letzte folgende gültige Wert eingesetzt. Sie lassen ein Modell den fehlenden Wert ermitteln.

Die Skalierung von Datensätzen hilft, den unerwünschten Einfluss von Ausreißern einzuschränken. Das gilt jedoch nicht für Vorhaben zur Aufdeckung von Anomalien, denn eine korrekte „Anomaly Detection“ ist natürlich auf die Ausreißerwerte im Datenbestand angewiesen.

Um die Auswirkungen von Ausreißern zu minimieren, ist es empfehlenswert, die Werte in logarithmischer Form darzustellen.

Die logarithmische Darstellung (unten) zeigt eine viel kleinere Abweichung des Ausreißers vom Mittelwert. Damit ist ihr Einfluss auf die Gesamtheit der Daten geringer.(Bild: IT-Novum) — Die logarithmische Darstellung (unten) zeigt eine viel kleinere Abweichung des Ausreißers vom Mittelwert. Damit ist ihr Einfluss auf die Gesamtheit der Daten geringer.
(Bild: IT-Novum)

3. Feature Engineering

Besitzt ein Merkmal viele Einzeldaten, sollte man über Diskretisierung nachdenken, also die Zusammenfassung von Werten. Weniger Merkmalsausprägungen erfordern nämlich auch weniger Rechenaufwand. Zudem spart man Zeit für die Trainingsphase. Besonders bei kontinuierlichen Wertereihen sollten Daten diskretisiert werden.

Die Diskretisierung von Daten verringert die Trainingszeit für Modelle, ohne dass dabei viele Informationen verloren gehen.(Bild: IT-Novum) — Die Diskretisierung von Daten verringert die Trainingszeit für Modelle, ohne dass dabei viele Informationen verloren gehen.
(Bild: IT-Novum)

Auch Bilder oder Texte können Daten sein. Das andere Datenformat kann es erfordern, sie in numerische Werte zu übertragen, abhängig vom gewählten Machine Learning-Modell. Dafür bietet sich die One-Hot- oder 1-aus-n-Kodierung an.

Jede Merkmalsausprägung (Städte) erhält eine eigene Spalte. Zeilen, die Text enthalten, bekommen die Zahl 1 eingetragen. In allen anderen Zellen wird eine 0 vermerkt. (Bild: IT-Novum) — Jede Merkmalsausprägung (Städte) erhält eine eigene Spalte. Zeilen, die Text enthalten, bekommen die Zahl 1 eingetragen. In allen anderen Zellen wird eine 0 vermerkt.
(Bild: IT-Novum)

4. Feature Selection

Auf der letzten Stufe werden die Merkmale bestimmt, mit denen die Predictive-Analytics-Modelle trainiert werden sollen. Man sollte sich hier beschränken, da die Trainingszeit im gleichen Maße steigt wie die Anzahl der Merkmale, die in die Berechnungen einfließen. Zudem existieren Modelle, die überhaupt nur mit einer begrenzten Datenzahl arbeiten können.

Aussortiert werden sollten Daten, die in keinem Zusammenhang mit der Eigenschaft stehen, die im Projekt modelliert werden soll. (Bild: IT-Novum) — Aussortiert werden sollten Daten, die in keinem Zusammenhang mit der Eigenschaft stehen, die im Projekt modelliert werden soll.
(Bild: IT-Novum)

Es ist auch möglich, mit modellbasierten Selektionen zu arbeiten. Allerdings benötigt dieses Vorgehen größere Rechenkapazitäten. Das Modell wird hier mehrmals mit verschiedenen Merkmalkombinationen trainiert. Daraus kann man dann die sinnvollen bzw. weniger sinnvollen Kombinationen ableiten.

Genutzt werden sollten Modelle wie „Random Forests“, die auf Entscheidungsbäumen basieren. Da diese Modelle datenbasiert die Bedeutung eines Merkmals für die Vorhersage ermitteln, kann man sich bei der weiteren Modellierung auf dieses Merkmal konzentrieren.

An diesem Punkt ist die Datenvorbereitung abgeschlossen und die Modellierung der Modelle steht an. Bei der Modellauswahl sollte man Aspekte wie die gewünschte Vorhersageart sowie Datenmenge und -beschaffenheit berücksichtigen. Mit dem Ziel, eine bestmögliche Vorhersagegenauigkeit zu erreichen, kann dann das geeignetste Modell trainiert werden.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Artikelfiles und Artikellinks

Link: „Data Preparation in Data Science-Projekten“ [PDF; Registrierung erforderlich]

(ID:46556279)