Suchen

Kommentar von Bastian Wießner, Eoda DataOps als Next Level DevOps?

| Autor / Redakteur: Bastian Wießner / Nico Litzel

Der Begriff DataOps steht für „Data Operations“. Als agiler Ansatz zielt er auf die Art und Weise ab, wie Daten bzw. deren Analysen genutzt, weiterentwickelt, optimiert und zielführend in neue Datenprodukte überführt werden. DataOps ist damit der nächste logische Schritt, der im Bereich Datenanalytik auf den DevOps-Ansatz folgt.

Firmen zum Thema

Der Autor: Bastian Wießner ist Solutions Engineer bei Eoda
Der Autor: Bastian Wießner ist Solutions Engineer bei Eoda
(Bild: Eoda)

DataOps zielt darauf ab, die Qualität von Analysen als Ganzes und deren Ergebnisse sowie deren Entwicklungszyklen deutlich zu verkürzen. Dazu wählt man eine Methode aus dem bestehenden DevOps-Kontext aus und passt diese maßgeschneidert auf die Data-Science-Prozesse an. Durch die Verwendung statischer Prozesskontrollen werden Daten-Pipelines umfangreich überwacht und können bei Veränderungen entsprechend angepasst werden, ohne die entsprechenden Projekte für längere Zeit pausieren zu müssen.

Die Methode bezieht die Kompetenzen der Beteiligten ein und kombiniert sie mit einer hohen internen und externen Feedbackfrequenz. Dadurch erhöht sich die Informationsdichte während des gesamten Projektes. So können schon beim Entwicklungsprozess Einblicke und Ideen für neue Anwendungsfälle entstehen. Auf diese Weise ist es Unternehmen möglich, den eigenen Kunden neue, digitale Services/Produkte schneller anzubieten oder interne Prozesse zu optimieren, ohne Gefahr zu laufen, am eigentlichen Nutzen vorbei zu entwickeln oder verbessern.

Durch die ständige Kommunikation wird effektiver zusammengearbeitet und Anreize werden geschaffen, um mehrwertstiftende Verbesserungen kontinuierlich einführen zu können. Sei es auf Software- und Analytik-Seite (Development), durch die Nutzung passender Tools und Softwareplattformen oder auf Seiten der IT (Operations) durch Gewährleistung der durchgehenden Funktionalität und Optimierung der Systeme. Die Umsetzung selbst ist dabei nicht auf eine bestimmte technische, strukturelle oder inhaltliche Umsetzung gebunden.

Die Bestandteile lassen sich auf den Aufbau und die Optimierung einer belastbaren und skalierbaren IT-Infrastruktur, der Einführung einer Software-Plattform, in der die Analysen und deren Ergebnisse verarbeitet und für weitere Use Cases verwendet werden können, einem kontinuierlichen Monitoring von Datapipelines und sowie einem engen Feedbackprozess, herunterbrechen.

Welches Grundproblem adressiert DataOps?

Der große Mehrwert bei DataOps liegt im flexiblen Handling der Projekte, da Synergieeffekte genutzt werden.
Der große Mehrwert bei DataOps liegt im flexiblen Handling der Projekte, da Synergieeffekte genutzt werden.
(Bild: Eoda)

Plant man ein Data-Science-Projekt, wird noch oft in Silos gedacht. Die Analyse wird getrennt von der Infrastruktur konzipiert und anschließend wird eine passende Software nach Nutzenaspekten ausgewählt. Überarbeitungen und Anpassungen, z. B. in der Infrastruktur oder in den Analysen, resultieren dann im Nachhinein in einen größeren Aufwand. Das kann dazu führen, dass Daten nicht vollumfänglich genutzt werden können oder im schlimmsten Fall das gesamte Projekt hinter den Erwartungen zurückbleibt und daher gestoppt wird. Dies kann ebenfalls geschehen, wenn sich die Beteiligten thematisch, funktionell und anwendungstechnisch nicht abgeholt fühlen.

Ein praktisches Beispiel: Mittels einer internen Plattform sollen einzelne Artikel und deren Bestandteile aufgelistet sowie deren Lebenszyklus analysiert werden. Es soll abgeschätzt werden, wann sie erneuert oder erweitert werden können und müssen. Nun benötigt die eingesetzte Softwarelösung mehrere Minuten, um eine Liste für die weitergehende Analysen zu generieren, die alle 120.000 Artikel, mit jeweils 3.000 Bestandteilen, miteinbezieht. Hier wäre das Ergebnis suboptimal, da der Zeitaufwand zu hoch ist. Wären Infrastruktur und Software zu Beginn gemeinsam geplant worden, wären Performance-Einbußen vermeidbar gewesen.

Bestandteile von DataOps sind also schon länger bekannt: Data Science, User Experience und die heilige Trinität des Engineering-Bereichs: IT- / Solution- und Data Engineering. Alle Bestandteile haben wiederrum ihre jeweiligen Methoden und Toolsets.

Welche Vorteile ergeben sich daraus?

Der große Mehrwert liegt im flexiblen Handling der Projekte. Daten und Analysen liefern schnell verlässliche Ergebnisse. Veränderungen können schneller erfasst und folglich an die Projekte angepasst werden. Zudem wird die eigentliche Ergebnislieferung gegenüber den immer noch existierenden Konzeptions-Silos stark verkürzt.

Weitere Vorteile:

  • Zielführendere Planung und Durchführung von Datenprojekten und Minderung von „Fallstricken“, die sich später ergeben können
  • Erhöhte Akzeptanz der (Software-)Lösung bei den Nutzern
  • Förderung von Zusammenarbeit verschiedener Fachbereiche
  • Kostensenkung und Zeitersparnis bei der Entwicklung weiterer Projekte
  • Zeitnahe Änderungen und Einblicke in laufende Analysen
  • Eine bessere Entscheidungsgrundlage für Nutzer und Unternehmen
  • Verbesserung des internen Betriebs und des Supports bei Datenprodukten, die bei Kunden im Einsatz sind

Mit einem kleinen Perspektivwechsel stellt man also sicher, dass Analysen und die daraus resultierenden Services vom ersten Moment für lange Zeit verlässliche Ergebnisse und einen echten Mehrwert liefern.

DataOps: Damit Data-Science-Projekte noch häufiger die Erwartungen erfüllen

DataOps ist ein Prozessverbesserungsansatz, um Data-Science-Projekte nachhaltig betreiben zu können. Er vereint verschiedene Gruppen aus den Bereichen Data Management, Data Engineering, Data Science und Data Analytics sowie Nutznießer der Analyseergebnisse bereits bei der Planung von Projekten. Ziel ist, dass alle Beteiligten zu jedem Zeitpunkt bestmöglich informiert sind und bei etwaigen Anpassungen schnell reagieren können. Dies gilt auch für den Einsatz einer Data-Science-Plattform, dessen Nutzung nicht gegen die gemeinsam geplante Prozesse arbeitet. Sind alle Beteiligten in der Lage sich gegenseitig bei Fragen in der Nutzung auszuhelfen, ist dies zeitsparender als die Lösung in einer (nach Möglichkeit) leicht verständlichen Software-Dokumentation zu suchen.

DataOps ist ein Prozessverbesserungsansatz. Er vereint verschiedene Gruppen aus den Bereichen Data Management, Data Engineering, Data Science und Data Analytics sowie Nutznießer der Analyseergebnisse bereits bei der Planung von Projekten. Ziel ist, dass alle Beteiligten zu jedem Zeitpunkt bestmöglich informiert sind und bei etwaigen Anpassungen schnell reagieren können.
DataOps ist ein Prozessverbesserungsansatz. Er vereint verschiedene Gruppen aus den Bereichen Data Management, Data Engineering, Data Science und Data Analytics sowie Nutznießer der Analyseergebnisse bereits bei der Planung von Projekten. Ziel ist, dass alle Beteiligten zu jedem Zeitpunkt bestmöglich informiert sind und bei etwaigen Anpassungen schnell reagieren können.
(Bild: Eoda)

Bekannte Methoden wie das Event Storming aus dem Domain Driven Design lassen sich abgewandelt auch auf die verschiedenen Aspekte, wie zum Beispiel der Konzeption der Analysen und Infrastruktur, anwenden. Dies bezieht alle internen und externen Stakeholder mit ein. Auf diese Weise lassen sich Erwartungen und Zielsetzungen schon früh für die Ansprüche an die Infrastruktur, die Gestaltung der Analysen und die Benutzung der Software-Plattform sowie Mechanismen für das Anpassen und monitoren der Analyseprozesse abstecken. Um die Entwicklungszyklen kurz zu halten, eignen sich bekannte Scrum- oder Kanban-Praktiken, tägliche Meetings und Konzeptions- sowie Entwicklungs-Sprints besonders gut. So stellt man sicher, dass bei jeder Iteration ein umfassendes internes und externes Feedback eingeholt und die Erkenntnisse im nächsten Sprint umgesetzt werden können.

Eine ordentliche Infrastruktur ist die halbe Miete

Ein besagter Aufbau sollte mit der Zusammenarbeit von DataOps-Engineers, Data Scientists und -Analysten beginnen. Erstere sind für den Aufbau und Betrieb von Datenbanken, von der klassischen relationalen Datenbank bis hin zum mächtigen Hadoop-Framework, über die entsprechende Architektur als Data Warehouse, -Lake oder weitere Modelle zuständig. Sie kümmern sich um die ETL- und ELT-Pipelines und entwickeln maßgeschneiderte Lösungen für die Datentransformation und -integration und stellen gleichzeitig die Qualität und Konsistenz der Datenbestände sicher. Data Scientists entwickeln, je nach Anforderung, ihre Skripte in den jeweiligen Sprachen R, Python oder Julia.

Die geeignete Software ist ein Muss

Für Data Scientists und Analysten muss eine Plattform die Möglichkeiten bereithalten, gewohnte Entwicklungsumgebungen anzusprechen und zu integrieren, damit ihre Skripte mit den entsprechenden Daten in Verbindung gebracht werden können. Dies beinhaltet die transparente Einsicht in Analyseskripte und erweitert sich um die Bearbeitung und Wiederverwendbarkeit des Skriptes an sich. Zusätzlich muss es Unternehmen möglich sein, den Workflow der jeweiligen Projekte individuell zu bestimmen, aber sollte dennoch für weitere Use Cases angepasst zu nutzen.

Darauf aufbauend ist es relevant, dass die Plattform die Wiederverwendbarkeit der Analysen bereithält. Nur wenn die Skripte oder ganze Analyse-Jobs mit wenigen Anpassung auf neue Begebenheiten angewendet und auf neue Ziele ausgerichtet werden können, können die angesprochenen Zyklen möglichst kurzgehalten werden. Wenn Data Scientists mit Data Analysts bei der Konzeption beteiligt sind, erhält man zielführendere Analysen als bei völlig getrennter Skript-Entwicklung.

Dies ist aber nur der Grundstein. Was jetzt fehlt sind die eigentlichen Anwender der Plattform und diejenigen, die die Ergebnisse präsentieren. Werden auch diese Gruppen bei der Planung miteingeschlossen, können Stolpersteine bei der Nutzung und Auswertung frühzeitig aus dem Weg geschaffen werden. Gleichzeitig besitzen letztere Gruppen oft eine andere Perspektive, die es ermöglicht Analysen umfassender zu gestalten bzw. sie miteinander in Verbindung zu setzen.

Moderne Analytikplattformen können hier helfen: Ausgerichtet auf kollaboratives Arbeiten, verbinden sie verschiedenste Nutzergruppen. Unternehmenskritische Fragen kommen eben nicht immer aus den höheren Ebenen, die dann von den Data Scientists in Form von Skripten umgesetzt bzw. beantwortet werden. Oft haben auch Anwender oder gänzlich unabhängige Teams wie beispielweise Sales, Marketing, HR oder die Fertigung/Produktion ganz eigene Fragen und Vorstellungen wie Prozesse optimiert werden können.

Es zeigt sich also, dass es ein übergeordnetes Credo gibt: Kommunikation ist alles! Daher empfiehlt es sich, das eigentliche Projekt in kleinere Tasks aufzuteilen, die es in den kurzweiligen Sprints umzusetzen gilt.

Hier zeigt sich eine weitere Säule des Modells: das Monitoring. Lösungen, die einmal aufgesetzt und für die nächsten Jahre funktionieren, sind vielleicht möglich und werden aktuell immer noch genutzt, sind aber nicht mehr zeitgemäß. Neue Nutzungsprinzipien, erweiterte Zielsetzungen und neue Technologien lassen sich in starre Systeme oft nur schwer integrieren. Aus diesem Grund gilt es, alle Gruppen in einem dauerhaften Austausch zu halten. So können Unternehmen sicher sein für sich und ihre Kunden auf lange Zeit die bestmögliche Lösung zu finden.

Die gute Nachricht

Mittlerweile haben sich Data-Science-Dienstleister auf den angesprochenen DataOps Stack ausgerichtet. Ihr Portfolio umfasst die Identifikation, Beratung, Konzeption, Aufbau der Infrastruktur und Realisierung mit (eigenen) Plattformen wie YUNA, die die verschiedenen Gruppen verbinden. Damit sinkt die Hürde bei Unternehmen, den schwierigen Weg alleingelassen zu entwickeln – stattdessen können sie auf kompetente Partner zurückgreifen, die genau das passende Know-how für die Umsetzung ihrer Use Cases besitzen.

(ID:46332992)