Kommentar von Björn Heinen, Inform GmbH

Data-Science-Projekte – so starten Sie richtig

| Autor / Redakteur: Björn Heinen / Nico Litzel

Der Autor: Björn Heinen ist Senior Data Scientist bei Inform
Der Autor: Björn Heinen ist Senior Data Scientist bei Inform (Bild: Inform)

Nie war das weltweite Datenvolumen größer als heute. Vor allem in Unternehmen sammeln sich enorme Mengen an Informationen, die großes Optimierungspotenzial versprechen – doch das will erst einmal erschlossen werden. Data Science bietet strategische Ansätze, sich im Datendschungel zurechtzufinden. Doch auch bei Data-Science-Projekten gilt: Es gibt richtig und falsch.

175 Zettabyte, eine unvorstellbare Zahl mit 21 Nullen: Das ist der Umfang, auf den das weltweite Datenvolumen bis 2025 wachsen wird, prognostiziert die International Data Corporation (IDC). Auf DVDs gespeichert, würde diese Datenmenge einen Stapel bilden, der 23-mal von der Erde bis zum Mond reicht. Mit der Menge an Informationen wächst die Herausforderung für Unternehmen, Daten effizient zu verwalten, aufzubereiten und auszuwerten – zumal der Großteil im Unternehmenskontext anfällt.

Vor diesem Hintergrund wird Data Science immer wichtiger. Mit Ansätzen aus Informatik, Mathematik und Statistik entwickelt das Wissenschaftsfeld strategische Methoden, um relevante Informationen aus großen Datenmengen zu extrahieren. Damit ein Data-Science-Projekt gelingt, sind jedoch nicht nur technologische Aspekte relevant. Auch eine ausreichende Beteiligung der Fachabteilungen sowie der Rückhalt von Seiten des Managements sind notwendig.

Erfolgsvoraussetzung: Daten mit Aussagekraft

Auf technologischer Ebene bleibt zunächst eine umfassende Datengrundlage das A und O. Jedoch ist diese in vielen Unternehmen durch bestehende IT-Systeme schon größtenteils vorhanden. Entscheidend für ein erfolgreiches Data-Science-Projekt ist letztlich, dass das zu erstellende System die realen Prozesse, zu denen es später Vorhersagen treffen soll, adäquat abbildet. Zu diesen müssen Daten in ausreichendem Ausmaß vorliegen, um einen Algorithmus entsprechend trainieren zu können.

Geht es zum Beispiel um vorausschauende Wartung (Predictive Maintenance) durch Machine Learning (ML), muss der ML-Algorithmus hinreichend oft beobachtet haben, dass eine Maschine ausfällt. Nur dann kann er anhand dieser Historie zuverlässig auf künftigen Wartungsbedarf schließen. Daher sollte vor Projektbeginn ausgearbeitet werden, was mit der finalen Softwarelösung erreicht werden soll.

ML-Algorithmen prüfen den Datenbestand stetig auf Muster und Zusammenhänge und können mit der Zeit immer präzisere Prognosen abgeben. Damit sich das Datenniveau langfristig hebt, muss die Datenpflege zudem Teil der internen Prozesskette werden: Nur wenn sich abteilungsübergreifend ein entsprechendes Bewusstsein und eine einheitliche Planungsphilosophie etablieren, kann sich die Datenqualität nachhaltig verbessern.

Data-Science-Projekt: Strategie entwickeln

Entsprechend ist der Erfolg von Data-Science-Projekten auch auf unternehmenskultureller Ebene verankert. Dies fängt schon damit an, dass die relevanten Schnittstellen oft über das gesamte Unternehmen verteilt sind. Im Idealfall gibt es eine übergreifende Strategie, die festlegt, wie der Datenbestand organisiert ist, wie er perspektivisch genutzt werden soll und was dafür getan werden muss.

Liegt eine solche Strategie nicht vor, ist das jedoch noch kein „Dealbreaker“. Der Prozess lässt sich zunächst auch im Kleinen, etwa im Rahmen eines einzelnen Projekts auf Abteilungsebene, beginnen. Dann geht es erst einmal darum, eine lokale Datenstrategie zu erarbeiten und alle Beteiligten an der Projektumsetzung zu beteiligen.

Data Scientist als Vermittler

Dem Data Scientist fällt dabei die Rolle eines Vermittlers zu, der technisches Vorgehen und Projektnutzen für alle Beteiligten verständlich darlegt. So schafft er Akzeptanz und sorgt für eine realistische Erwartungshaltung. Zugleich benötigt er das Domänenwissen der Fachexperten, um eine Lösung zu entwickeln, die den realen Anforderungen überhaupt gerecht wird. Daher ist es ohnehin wichtig, die Fachabteilungen frühzeitig ins Boot zu holen.

Darüber hinaus ist die Unterstützung des Managements unerlässlich. Soll zum Beispiel ein Prozess angepasst oder etwa ein zusätzlicher Sensor installiert werden, muss dies von einer Instanz mit hinreichender Entscheidungsgewalt abgesegnet sein. Sonst kann es passieren, dass die mangelnde interne Abstimmung eine reibungslose Projektumsetzung verhindert.

4 Phasen: von der Idee zur Umsetzung

Die geschilderten Voraussetzungen sind für den gesamten Verlauf eines Data-Science-Projekts erfolgskritisch. Dieser lässt sich in vier Phasen einteilen:

  • 1. Ideation: In der ersten Phase geht es darum, konkrete Projektziele abzustecken und zu prüfen, ob der dafür notwendige Datenbestand gegeben ist oder noch zusammengeführt werden kann. Dies erfolgt in der Regel in einem Workshop mit Repräsentanten aller relevanten Bereiche.
  • 2. Proof of Concept (PoC): Das Anwender-Unternehmen stellt einen Datenauszug zur Verfügung, an dem nach entsprechender Aufbereitung ein Algorithmus mit minimalen Features trainiert wird. So entsteht ein funktionsfähiger Prototyp.
  • 3. Evaluation: Nach einem Abgleich des Prototypen mit den Kundenerwartungen wird das System entsprechend angepasst und erweitert. Anschließend wird ein konkreter Projektplan erstellt, der Projektteam und Integrationszeitraum festschreibt.
  • 4. Projekt/Produkt: Die endgültige Lösung wird aufgesetzt und an der entsprechenden Stelle im Unternehmen implementiert. Häufig ergeben sich Möglichkeiten, den Einsatz auszuweiten; sei es mit Blick auf den speziellen Use Case oder bezogen auf weitere mögliche Anwendungsfelder.

Praxisbeispiel: Machine Learning im Industriepark

Als Beispiel für ein erfolgreiches Data-Science-Projekt kann die automatisierte Anomalieerkennung in einem Industriepark dienen. Dort sitzen mehrere Chemie-Unternehmen, die ihre toxischen Abwässer über ein Kanalsystem in eine hochkomplexe Kläranlage leiten. Damit diese nicht kippt, muss der Betreiber die Wasserqualität permanent beobachten. Nur so kann er bei etwaigen Unregelmäßigkeiten schnellstmöglich gegensteuern.

Als relevante Indikatoren fungieren Wassertemperatur und -menge, aber auch pH-Wert und Leitfähigkeit. Ein Probenehmer prüft diese Werte. Zu Projektbeginn wurden sie in zwei verschiedenen Systemen geführt, die Datenqualität war aufgrund falscher Sensorwerte durchwachsen. Um den bis dato manuellen Prozess effizienter zu gestalten, entschieden sich die Planungsverantwortlichen schließlich für die Implementierung einer ML-Lösung.

Der Austausch in Workshops und die enge Abstimmung mit den Fachexperten ermöglichten den Data Scientists, die teils sehr komplexen Datenstrukturen zu verstehen und die Anforderungen an das System zu klären. Im Rahmen des PoC entwickelten die Datenexperten schließlich einen Algorithmus, der bei Unregelmäßigkeiten ausschlägt. Nun sind erstmals alle relevanten Daten konsolidiert, sodass es möglich ist, Anomalien frühzeitig und automatisiert zu erkennen.

Die nächsten Schritte sehen vor, den Prototypen zu einem vollständigen System weiterzuentwickeln und von dort aus in den Live-Betrieb zu gehen – unter Einbezug einer Zusammenhangsanalyse, Business-Intelligence-Auswertungen und Notifications, sodass der Prozess für die Beteiligten auch visuell gut nachvollziehbar ist.

So schafft Data Science Mehrwert

Ob es nun um Anomalieerkennung oder Predictive Maintenance geht, Data Science ermöglicht Unternehmen, den größtmöglichen Nutzen aus ihrem Datenbestand zu ziehen. Dabei ist jedoch nicht die schiere Masse an Daten entscheidend, sondern vor allem ihre Aussagekraft. Zudem sind

  • eine konkrete Zieldefinition,
  • klare Absprachen
  • und abteilungsübergreifende Beteiligungsbereitschaft

von essentieller Bedeutung, um ein Data-Science-Projekt erfolgreich aufzusetzen. Nur wenn Unternehmen dies beachten, kann Data Science ihnen helfen, bislang verborgenes Wissen optimal für sich zu nutzen – und so nachhaltigen Mehrwert bieten.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 46165960 / Analytics)