Fachkräftemangel im Daten-Bergbau Seminarreihe „Data Scientist“ vermittelt Fraunhofer-Know-how

Autor / Redakteur: Dr. Angi Voss und Dr. Michael Mock, Fraunhofer IAIS / Nico Litzel |

Die meisten Unternehmen sind in Bezug auf Data Mining und Big Data nicht optimal aufgestellt. Grund hierfür sind unklare personelle Verantwortlichkeiten und fehlendes Know-how. Die Fraunhofer Academy bietet daher mit Partnern aus der Fraunhofer-Allianz Big Data eine umfangreiche Seminarreihe zum Thema Data Scientist an.

Anbieter zum Thema

Data Scientists wissen Konzepte und Techniken aus den Bereichen Informatik, Statistik und Mathematik geschickt zu nutzen, um Zusammenhänge in Big Data zu erkennen.
Data Scientists wissen Konzepte und Techniken aus den Bereichen Informatik, Statistik und Mathematik geschickt zu nutzen, um Zusammenhänge in Big Data zu erkennen.
(Bild: Fraunhofer IAIS)

Big Data ist überall. Im Bankenwesen, in der Industrie, der Wirtschaft und in der Finanzbranche – in nahezu allen Unternehmen werden Daten mittlerweile im Bereich von Tera-, Exa-, und Petabytes übermittelt. Grund hierfür sind neue Technologien wie RFID, Sensorik, Smartphones und verschiedene Apps, die die Erhebung von Daten sehr leicht machen und damit für einen Strom ständig neuer Daten sorgen.

Doch nicht nur die schiere Menge, sondern auch die Heterogenität und Komplexität macht es den Unternehmen schwer, die erhobenen Daten sinnvoll zu nutzen. Daher werden für das Data Mining („Daten-Bergbau“), mit dem das intelligente Finden und Erkennen von relevanten Mustern in großen Datenmengen gemeint ist, Fachkräfte gebraucht.

Wie eine Fraunhofer-Studie zeigt, sind die meisten Unternehmen in Bezug auf Data Mining und Big Data aktuell nicht optimal aufgestellt. Grund hierfür sind unklare personelle Verantwortlichkeiten sowie fehlendes Know-how. Die Fraunhofer Academy bietet daher mit Partnern aus der Fraunhofer-Allianz Big Data eine umfangreiche Seminarreihe zum „Data Scientist“ an.

Zusammenhänge erkennen

Diese speziellen Fachkräfte wissen die Konzepte und Techniken aus Informatik, Statistik und Mathematik geschickt zu nutzen, um Zusammenhänge in Big Data zu erkennen. Sie analysieren die Datenbestände und Datenströme, im Gegensatz zu Data-Analysten, nicht nur retrospektiv, sondern können neue Situationen einschätzen, Entwicklungen und zukünftige Ereignisse ableiten. Auf der Basis von diesen Informationen können Firmen dann zukunftsgerichtet Entscheidungen auf allen Geschäftsebenen treffen.

Mit Data Mining zum Wettbewerbsvorteil

Die Vorteile des systematischen Data Minings sind vielfältig. Zum einen kann die Unternehmensführung effizienter gestaltet werden: Prognosen und Echtzeitanalysen erlauben es, Abläufe zu optimieren und dienen als Basis für die Etablierung effizienterer Strukturen. Bei Industrieanlagen beispielsweise können – aufgrund der Datenauswertung –Instandhaltungsmaßnahmen rechtzeitig durchgeführt werden, bevor es zu einem Anlagenausfall kommt.

Zudem kann die umfassende Datenananlyse für die Massenindividualisierung von Dienstleistungen verwendet werden. Beispielsweise liefern sogenannte Wearables, tragbare vernetzte Geräte und Accessoires, Daten, die Rückschlüsse auf das Verhalten und die Bedürfnisse ihrer Träger übermitteln. Wie etwa Fitnessarmbänder, die die Schrittanzahl, das Schlafverhalten und den Kalorienverbrauch des Trägers messen und ihm so eine individuelle Empfehlungen für das Training geben können.

Andere intelligente Produkte können eine große Menge an Sensordaten selbstständig verarbeiten und kommunizieren. Ein Beispiel hierfür ist das vernetzte Auto, das selbstständig einparken und mit anderen Autos kommunizieren kann, in Echtzeit vor Staus warnt und sie umfahren kann.

Den Data Scientist gibt es nicht

Der Data Scientist benötigt für seine Analyse neue Software-Komponenten, mit denen große Datenmengen zeitnah verarbeitet werden können, sowie mathematische Lernverfahren, die selbstständig Muster und Zusammenhänge in den erhobenen Daten erkennen und erlernen können. Seine Aufgabe ist es, die mathematischen Lernverfahren gezielt einzusetzen, um aus den Ergebnissen prädiktive Modelle zu entwickeln, mit denen sich neue Geschäftsideen umsetzen lassen. Nicht selten entstehen während des Prozesses neue Fragestellungen.

Um diesen vielfältigen Aufgaben gerecht zu werden, muss der Data Scientist einen Überblick über zahlreiche maschinelle Lernverfahren und Tools haben und zudem das eigene Unternehmen und die Branche sehr gut kennen. „Die Anforderungen an den Data Scientist sind so komplex, dass sie eine Person alleine im Grunde nicht bewältigen kann“, weiß Dr. Michael Mock, Senior Scientist am Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS. „Deshalb bilden große Unternehmen ganze Teams verschiedener Spezialisten wie Business Developer, Data Analysten, Data Manager und Application Developer zu Data Scientists aus, um so von allen Seiten an der Fragestellung arbeiten zu können.“

Systematisches Vorgehen beim Data Mining

Ein ideales Vorgangsmodell für ein systematisches Data Mining ist der Cross Industry Standard Process for Data Mining (CRISP-DM), der auch in den Schulungen der Fraunhofer Academy zugrunde gelegt wird. Dieser umfasst sechs Phasen, die zum Teil fließend ineinander übergehen können: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation und Deployment.

Das Business Understanding, also die Geschäftsidee, eine grobe Fragestellung oder ein Problem, steht oft an erster Stelle. Ein reales Beispiel, für das das Fraunhofer IAIS eine Lösung gefunden hat, war das Problem des Kreditkartenbetrugs, den Banken natürlich verhindern wollten.

In manchen Fällen liegen dem Data Scientist zu Beginn des Projektes keine konkreten Aufgabestellungen vor und er beginnt direkt mit dem sogenannten Data Understanding. Hier nutzt der Data Scientist verschiedenen Möglichkeiten der Datenexploration, um die Daten kennen zu lernen. Dafür setzt er verschiedene statistische Methoden, Techniken der Datenvisualisierung und des Data-Mining ein. So lernt er die Qualität der Daten kennen, findet Muster und Auffälligkeiten. Im Anschluss daran überprüft der Data Scientist, ob die Zusammenhänge Daten zufällig entstanden sind oder ob sich dahinter eine wichtige Regel verbirgt. Durch dieses Vorgehen kann er eine sehr präzise Analysefragestellung entwickeln und entscheiden, welches statistische Modell er bauen muss, um die interessanten Aussagen zu erhalten (u. a. Klassifikation, Regression oder Clustering).

Aufbereitung der vorhandenen Daten

Anschließend erfolgt die Data Preparation – die Aufbereitung der vorhandenen Daten für das weitere Vorgehen. Das ist ein sehr zeitaufwendiges Unterfangen, da Sensor-, Maschinen-, Kunden- und Transaktionsdaten in Rohform oder verschiedenen Formaten vorliegen. Der Data Scientist überführt die Daten in ein einheitliches Format und speist sie in ein gemeinsames Zielsystem ein.

Daraufhin erfolgt das Modelling. Maschinelle Lernmethoden und Data-Mining-Verfahren werden nun eingesetzt, um mit ihnen neue, hochparallele Modelle zu bauen, um die präzise Analysefrage beantworten zu können. Bei dem Problem des Kreditkartenbetrugs beispielsweise wurde ein Klassifikationsverfahren eingesetzt: Das System erlernte anhand bekannter Daten, in welchen Fällen es sich bei den Transaktionen um reguläre Abbuchungen handelte und wann ein Betrug vorlag. Durch dieses Lernen an Beispielen konnte das System einen Klassifikator erzeugen und kann nun selbstständig entscheiden, ob es sich um eine irreguläre Transaktion handelt und eine entsprechende Warnung geben

Sobald das Modell gebaut ist, wird es evaluiert. Dabei werden die Entscheidungen, die die Modelle nun selbstständig treffen, noch einmal nachvollzogen und überprüft und die Qualität des gebauten Modells bestimmt. Gegebenenfalls werden die Modelle dann noch einmal überarbeitet. In der Deployment-Phase setzt der Data Scientist die neuen Verfahren dann erstmalig ein und entwickelt aus den Ergebnissen eventuell neue Anforderungen, Fragestellungen und Geschäftsideen. Im Fall des Kreditkartenbetrugs lernt der Klassifikator kontinuierlich weiter und stellt sich so auf neue Betrugsmethoden ein.

Fortbildung zum Data Scientist

Die Fraunhofer Academy bietet zwölf einzeln belegbare Module an, in denen sich Business Developer, Data Analysten, Data Manager und Application Developer gezielt zu Data Scientists weiterbilden können.

Die einzelnen Seminare werden von Instituten der Fraunhofer-Allianz Big Data durchgeführt, in der branchenübergreifendes Know-how über Big Data gebündelt wird. „Viele der 25 beteiligten Institute haben selbst Modelle oder Verfahren entwickelt, die für das Data Mining eingesetzt werden. Wir freuen uns daher, dass immer mehr Fraunhofer-Institute ihre Forschungsergebnisse in Data-Scientists-Schulungen vermitteln“, betont Dr. Mock, der neben seiner Lehrtätigkeit als Privatdozent sowie Projektleiter von Forschungs- und Industrieprojekten im Bereich Big Data grundlegende Big-Data-Kenntnisse in den Seminaren „Big-Data Architektur“ und „Big-Data Analytics“ vermittelt.

In den ein- bis dreitägigen Seminaren werden fundierte Grundlagen, Vorgehensweisen und Best Practices für den Umgang mit Big Data und die Entwicklung von Big-Data-Lösungen mit hohen Standards an Datenschutz und Datensicherheit kombiniert. Dabei vermitteln die Dozentinnen und Dozenten die Herangehensweisen, Methoden und Tools herstellerneutral. Die Seminare werden mit jeweils maximal zehn Teilnehmerinnen und Teilnehmern und zwei Dozenten durchgeführt. Dadurch können individuelle Fragen gestellt und spezifische Anwendungsfälle in der Gruppe zu diskutiert werden.

Artikelfiles und Artikellinks

(ID:43276739)