Wie Datenanalyse im Unternehmen umgesetzt werden kann

Data Analytics Wie Datenanalyse im Unternehmen umgesetzt werden kann

10.09.2019Autor / Redakteur: Dr. Johannes Kröckel* / Katharina Juschkat

Potenziale aus Daten zu heben, steht aktuell im Fokus vieler Unternehmen – gleichzeitig stehen sie vor dem Frage, wie Datenanalyse im eigenen Unternehmen umgesetzt werden kann. Ein Überblick, was beachtet werden muss.

Anbieter zum Thema

Disy Informationssysteme GmbH

QUNIS GmbH

Fivetran Germany GmbH

Datenanalyse im eigenen Unternehmen ist nicht einfach - wie Teams gebildet werden, erklärt unser Artikel.
(Bild: ©monsitj - stock.adobe.com)

Die Datenanalyse in Industrieunternehmen erlebt zurzeit geradezu einen Hype. Viele Unternehmen wollen das Potenzial von bestehenden oder neu generierten Daten nutzen und stellen Teams aus Datenanalysten bzw. Data Scientists zusammen. Dabei kommt es oft zu Herausforderungen: Die definierten Ziele und Erwartungen sind unrealistisch, Einsparungen nicht messbar oder notwendige Daten nicht vorhanden. Ein typisches Problem sind traditionell entwickelte Projektpläne mit strikt vordefinierten Zielen und Ergebnissen, die nicht zu dem typischer Datenanalyseprojekten passen. Im Folgenden geht es darum, wie man erfolgreich ein Team für die Datenanalyse aufbaut und auf was man achten sollte.

Buchtipp Der folgende Artikel stammt aus dem Fachbuch „Data Analytics in Produktion und Logistik“. Das Fachbuch beschreibt ausführlich anhand konkreter Beispiele, wie Data Analytics im Unternehmen umgesetzt werden kann.

Ein Team für die Datenanalyse benötigt:

Datenanalysten / Data Scientists

Data Engineer / Data Architects

Business Analysts / Fachbereiche

Software-Entwickler / Systemadministratoren

Was ein Datenanalyst / Data Scientist können sollte

Das Venn-Diagramm nach Conway
(Bild: Conway)

Ein Datenanalyst sollte drei Kernfähigkeiten mitbringen, wie in der Abbildung dargestellt: Hacking Skills, Mathematik und Statistik sowie Domänenwissen. Mit „Hacking Skills“ sind solide Kenntnisse von Programmiersprachen und -paradigmen gemeint. Das bedeutet, dass ein Data Scientist, obwohl er kein Software-Entwickler sein muss, dennoch Erfahrung im Umgang mit Programmiersprachen mitbringen sollte. „Mathematik und Statistik“ bilden zentrale Grundlagen eines jeden guten Datenanalysten.

Die Anwendung dieses Wissens zieht sich von der ersten Betrachtung der Daten (z. B. mithilfe statistischer Mittel) bis hin zur finalen Modellbildung durch alle Phasen der Arbeit eines Analysten. Die dritte Komponente „Domänenwissen“ beschreibt Wissen und Erfahrung im Arbeitsumfeld, in dem sich der Datenanalyst befindet. Das sind Kenntnisse zu den Prozessen innerhalb des Unternehmens, aber vor allem auch zu den Produkten und deren Produktionsabläufen. Je nachdem, in welchem Bereich die Datenanalyse stattfinden soll, kann dabei Wissen über Controlling-, Verkaufs-, Einkaufsabläufe oder rund um die Herstellung und Beschaffenheit von Produkten relevant sein.

Die Rolle des Data Engineers / Data Architects:

Der Data Engineer sollte den Überblick über alle oder zumindest einen abgegrenzten Teil der Datenquellen im Unternehmen erlangen und diese so zusammenführen und formalisieren, dass daraus eine Art Data-as-a-Service-Angebot für die Datenanalysten entsteht. Sein Handwerkszeug sind Datenlandkarten, die detailliert beschreiben, wo sich welche Daten im Unternehmen befinden, und ETL-Tools (Extract = Extrahieren, Transform = Transformieren und Load = Laden), die speziell für das Extrahieren, Zusammenführen und Aufbereiten von Daten entwickelt wurden. Im Idealfall entsteht so ein Data Lake oder Data Hub, in dem Daten aus allen benötigten Datenquellen zusammengeführt werden. Datenanalysten können sich so die Daten für Anwendungsfälle zusammenziehen.

Tipp: Online informieren Dank Online-Angeboten wie Coursera, edX oder O’Reilly Safari ist es leichter denn je, sich mit dem Thema Datenverarbeitung und -analyse zu beschäftigen und wertvolles Wissen aufzubauen. Viele der genannten Angebote sind zumindest zur Ansicht frei, sodass Kosten nur dann anfallen, wenn Übungsaufgaben genutzt werden bzw. Zertifikate nach erfolgreichem Abschluss gewünscht sind. Die Qualität solcher Kurse ist hoch und die bereitgestellten Ressourcen sind vielseitig und praxisnah. Damit lässt sich im Unternehmen nicht nur durch neue Köpfe, sondern auch durch die Weiterbildung affiner Mitarbeiter neues Potenzial schöpfen.

Der Business Analyst / Fachbereich im Team:

Fachbereiche sind die Sponsoren von Analytics-Projekten. Sie haben geschäftsrelevante Ziele, die durch Datenanalysen unterstützt werden sollen. Darüber hinaus liefern sie das nötige Domänenwissen, um Modelle erfolgreich zu gestalten. Größere Unternehmen leisten sich darüber hinaus Business-Analysten, die mit den Fachbereichen in engem Kontakt stehen. Sie unterstützen die Kommunikation zwischen Fachbereichen und Analysten und besitzen detailliertes Domänenwissen, um neue Ideen gemeinsam mit den Fachbereichen zu entwickeln. Business Analysten sollten im Idealfall neben solidem Domänenwissen ausreichende IT-Kenntnisse bzw. Grundlagen in der Datenanalyse mitbringen, um gegebenenfalls eine erste Vorselektion und Priorisierung von Themen vorzunehmen.

Die Rolle des Software-Entwicklers / Systemadministrators

Sobald Analysemodelle in operationale Prozesse des Unternehmens integriert werden sollen, gilt es, Software-Entwickler und Systemadministratoren einzubeziehen. Sie sorgen dafür, dass die Modelle entsprechend der vorliegenden IT-Infrastruktur in systemnahe Programmiersprachen übersetzt werden, Anforderungen an die Robustheit und Effizienz eingehalten werden und andere unternehmenswichtige Systeme nicht stören.

Zusammenarbeit zwischen den Rollen
(Bild: Johannes Kröckel)

Wie der Teamaufbau strukturiert werden kann

Der Aufbau von Analytics-Teams stellt Firmen vor einige Herausforderungen. Es ergeben sich Fragen, wie viele oder welche Datenanalysten benötigt werden, wo diese in der Unternehmensstruktur angesiedelt sein sollten und ob und wann weitere Rollen wie Data Engineers oder Business-Analysten besetzt werden sollten. Eine Frage, die sich dabei besonders stellt, ist die initiale Größe des Analytics Teams: Entweder startet ein Unternehmen mit einem kleinen Team, das nach und nach wachsen kann, oder es steigt direkt mit einem großen Team ein. Beide Herangehensweisen haben Vor- und Nachteile, die im Folgenden erläutert werden.

Die Vor- und Nachteile eines kleinen Teams

Start mit einem kleinen Team: Besetzung, um erste Use Cases umzusetzen und Erfahrung zu sammeln.

Vorteile: Geringe initiale Aufwände auch für unterstützende Funktionen (HR, Management); Strukturen ergeben sich teilweise selbstständig während des Aufbaus der Teams (High Potentials).

Nachteile: Starke Priorisierung von Themen notwendig

Risiken: Themen werden nicht rechtzeitig adressiert, wodurch Ernüchterung im Unternehmen einsetzt

Die Datenanalyse mit einem großen Team

Start mit einem großen Team: Besetzung aller relevanten Rollen (inklusive Data Engineers und Business-Analysten)

Vorteile: Schnelle Sichtbarkeit und Durchdringung des Unternehmens; Aufbau und Besetzung einer von Anfang an geplanten Struktur.

Nachteile: Hohe initiale Aufwände auch für unterstützende Funktionen (HR, Management); Kosten fallen vom ersten Tag an, während Strukturen und Ziele noch definiert werden müssen (Risiko Auslastung)

Risiken: Werden zentrale technische Themen nicht adressiert, können viele Projekte nicht umgesetzt werden, dadurch liegen Ressourcen zumindest zu Beginn brach

Buchtipp Wie man die passenden Fachkräfte für ein Datenanalyse-Team findet und Tipps für das Bewerbungsgespräch gibt es in dem Fachbuch „Data Analytics in Produktion und Logistik“, aus dem dieser Artikel stammt.

Wie Analytics-Projekte mithilfe des CRISP-DM-Modells ablaufen sollten

Phasen des CRISP-DM in Anlehnung an Marbán, Mariscal, Segovia.
(Bild: Johannes Kröckel)

Wer sich mit Datenanalyse bzw. dem Vorgehen bei Datenanalysen beschäftigt, landet unweigerlich beim CRISP-DM, dem „Cross Industry Standard Process for Data Mining“. Das bereits in den 1990ern entwickelte Vorgehensmodell für Datenanalysen wurde im Rahmen einer europäischen Forschungsinitiative zusammen mit Unternehmen wie Teradata, IBM und Daimler erarbeitet und stellt heute eine Art De-facto-Standard dar. Im Folgenden soll jeder Schritt in kurzen Stichpunkten dargestellt werden.

1. Business-/Use-Case-Verständnis

Der erste Schritt, das Verstehen der Anforderungen aus dem Fachbereich, beschreibt den ersten Kontakt von Datenanalyst und Fachbereich. Ziel dieses Treffens muss es sein, die folgenden Punkte abzuklären:

Kontext: Welche Ziele verfolgt der Fachbereich?

Ziel / Erwartungshaltung: Welche Erwartungshaltung an die Ergebnisse hat er?

Datenlage: Welche Daten liegen vor? Sind die Daten zugänglich? Wer ist Data Owner?

Zusammenarbeit: Wie möchte sich der Fachbereich einbringen?

Big Data offenbart vielerlei Möglichkeiten, aber auch die Schwierigkeit, die Analytics-Projekte langfristig erfolgreich umzusetzen. (gemeinfrei)

2. Datenverständnis

Die Phase Data Understanding umfasst die Betrachtung der von Fach- bzw. IT-Bereichen gelieferten Daten. In der Phase werden die Daten detaillierter zum Beispiel mithilfe von Data Quality oder Analytics Tools betrachtet. Dabei analysieren Datenanalysten und Engineers die Datenbasis Quelle für Quelle und Spalte für Spalte und „kartografieren“ deren Inhalt mit zwei grundlegenden Zielen: Betrachtung der Datenbeschaffenheit/-qualität sowie Zusammenhänge zwischen den verschiedenen Datenquellen. Zur Evaluation von Datenquellen ist es sinnvoll, die folgenden Fragestellungen in einer Art Steckbrief aufzubereiten und dann für alle Datenquellen standardisiert abzufragen bzw. abzuprüfen:

Syntaktische / semantische Qualität: Wie vollständig und korrekt sind die Daten? Wie verständlich und eindeutig ist die Repräsentation von Daten?

Beschaffenheit: Wie sind die Daten in den Datenquellen repräsentiert? Lassen sich aus den Repräsentationen potenziell die gewünschten Erkenntnisse ableiten?

Nutzbarkeit: Passen die Daten, deren Repräsentation und Frequenz zum Anwendungsfall?

Zusammenhänge und Verknüpfungen: Wie lassen sich verschiedene Datenpunkte miteinander verknüpfen? Welche Zusammenhänge bestehen zwischen verschiedenen Daten?

3. Datenaufbereitung

Der Anforderungskatalog für die Phase Data Preparation, also die Aufbereitung der Daten, ergibt sich zum Teil direkt aus der Data-Understanding-Phase und umfasst alle Schritte, die nötig sind, um die Daten für die Modellierungsphase vorzubereiten. Folgende Schritte fallen in die Datenaufbereitungsphase:

Auswahl: Welche Attribute und Ausschnitte werden für den Use Case benötigt?

Struktur: Wie können unstrukturierte in strukturierte Daten überführt werden?

Bereinigung: Welche Datenpunkte und Attribute müssen aufgrund von Fehlern, Inkonsistenzen oder Fehlwerten aussortiert werden?

Formatierung: Wie werden die Inhalte von Datenfeldern transformiert?

Verknüpfung: Welche Daten müssen wie verknüpft werden?

Erstellung neuer Daten: Welche neuen Attribute werden aus bestehenden abgeleitet?

4. Modellierung

Das Ziel ist klar, die Daten sind verstanden und aufbereitet. Mittlerweile ist wahrscheinlich schon einige Zeit vergangen und der Analyst freut sich nun, endlich Algorithmen auf die Daten loszulassen. Nun gilt es die richtigen Methoden zu finden, Parameter zu optimieren und damit ein bestmögliches Ergebnis für die wartenden Fachbereiche zu erzielen. Im Überblick enthält die Modellierungsphase die folgenden Punkte:

Definition von Zielkennzahlen: Wann liefert ein Ansatz gute Ergebnisse?

Auswahl Methoden: Welche Modelle passen zur Fragestellung?

Parameteroptimierung: Wie können die Ergebnisse noch verbessert werden?

5. Evaluierung

In der Modellierungsphase werden Algorithmen zu einem Modell zusammengeführt und hinsichtlich vordefinierter Zielkennzahlen optimiert. Die Evaluationsphase dient dem gezielten Austausch von Fachbereich, Software-Entwicklern und Datenanalysten. Während der Fachbereich in der Data-Understanding-Phase nur als „Informationsquelle“ dient und in der Data-Preparation- und Modellierungsphase nur am Rand eine Rolle spielt, muss er nun die Modelle auf Basis der in der Business-Understanding-Phase definierten Ziele abnehmen. Software-Entwickler müssen gegebenenfalls überprüfen, ob sich eine Umsetzung der Modelle mit den bestehenden Systemen verträgt.

6. Operationalisierung

Die Operationalisierung von Analytics-Modellen stellt den letzten Schritt eines Zyklus des CRISP-DM-Modells dar. Die Ausgestaltung hängt dabei von vielen Einflussfaktoren und der IT-Architektur im Unternehmen ab. Die Hauptarbeit in dieser Phase wird von IT- und Entwicklungsabteilungen übernommen, die die Modelle gegebenenfalls in andere Programmiersprachen umsetzen und in bestehende Systeme integrieren. Datenanalysten haben eine unterstützende Rolle.

Analytics-Modelle haben aufgrund immer neuer Daten und Sachverhalte meist nur eine begrenzte Lebensdauer und müssen daher regelmäßig neu trainiert oder sogar ganz neu entwickelt werden. Die kontinuierliche Adaption von Modellen an neue Daten (engl. Continuous Learning) wird als zentrales Ziel zukünftiger Algorithmen angesehen. Anstatt Algorithmen einmalig an einen vorhandenen Datensatz anzupassen, erscheint es in vielen Fällen deutlich effizienter, ein Vorgehen aufzubauen, das sich auch an neue Situationen bzw. Daten zuverlässig anpasst.

Buchtipp Wie die aufgeführten Schritte durchgeführt werden, zeigt das Fachbuch „Data Analytics in Produktion und Logistik“ konkret und anhand von Beispielen. In weiteren Kapiteln geht es zudem um Methoden zur Datenanalyse und Use Cases.

* *Dr. Johannes Kröckel leitet seit Mitte 2018 die Abteilung „Data Science & AI“ im Bereich Digitalisierung bei Schaeffler.

(ID:46119890)