Suchen

Kommentar von Matei Zaharia, Databricks Die Evolution der Data Teams – Data Engineers und Data Scientists werden sich annähern

Autor / Redakteur: Matei Zaharia / Nico Litzel

Die Tage, an denen Data Engineers und Data Scientists in unterschiedlichen Teams arbeiten, sind gezählt. Mit den neuen automatisierten Software-Werkzeugen, die den Data Teams zur Verfügung stehen, um die Produktivität in der Datenverarbeitung und im Machine Learning zu erhöhen – viele davon Open Source – werden die Rollen der Data Teams konvergieren, was eine reibungsloses und kollaboratives Jahr 2020 für die Daten- und KI-Entwicklung schaffen wird.

Firmen zum Thema

Der Autor: Matei Zaharia ist Co-Founder & Chief Technologist bei Databricks
Der Autor: Matei Zaharia ist Co-Founder & Chief Technologist bei Databricks
(Bild: © Copyright Michel Edens, All Rights Reserved)

Früher machte die isolierte Tätigkeit Projektübergaben zwischen Teammitgliedern zu einer Hauptquelle hitziger Diskussionen. Jetzt wissen Data Scientists, Data Engineers und andere Teammitglieder mehr über die Fähigkeiten, die in jedem Bereich erforderlich sind. Neue Software erleichtert viele der Aufgaben, die früher engagierte Teams erforderten. Wir glauben, dass die Verschmelzung von Data Teams ähnlich wie die Konvergenz von Developer- und Operations-Teams als DevOps in der Softwareentwicklung ablaufen wird. Sie wird letztlich zum Aufstieg von Full-Stack-Engineering-Teams führen. Diese Veränderung wird sowohl neue Organisationsstrukturen als auch neue Rollen mit sich bringen.

Die Herausforderungen von Data-Silo-Teams

Vierzig Prozent der Unternehmen, die bedeutende Investitionen in die KI tätigen, haben keine Geschäftsgewinne durch KI. Das steht in einem Bericht des MIT Sloan Management Review und der Boston Consulting Group (BCG) aus dem Jahr 2019. Diese geringe Rendite des KI-Projekterfolgs kann zum großen Teil auf Datensilos und organisatorische Silos zurückgeführt werden. Die mangelnde Vereinheitlichung und Kommunikation zwischen den heutigen Data- und KI-Teams führt zu erheblichen Reibungsverlusten im iterativen Modellentwicklungsprozess und verlangsamt die Entwicklung und den Einsatz der KI.

Die Ergebnisse einer Umfrage zur Einführung der KI in Unternehmen im Jahr 2018 zeigen, dass sich 96 Prozent der Unternehmen mit datenbezogenen Problemen wie Silos und inkonsistenten Datensätzen konfrontiert sehen. Auf der anderen Seite nannten 80 Prozent erhebliche organisatorische Reibungsverluste wie die mangelnde Zusammenarbeit zwischen Data Scientists und Data Engineers. Häufig sind sich die Teams nicht bewusst, was andere Teams tun und Änderungen an Datenpipelines dauern Monate, weil sie die Anstrengungen vieler unzusammenhängender Teams erfordern.

Diese Zahlen erklären die Herausforderungen der KI in der Wirtschaft: Teams müssen funktionsübergreifend zusammenarbeiten, um sich auf Datendefinitionen oder Metriken zu einigen, und hochwertige Analysen oder KI-Projekte erfordern die Kombination mehrerer Datensätze. Datensilos schaden somit sowohl dem Entwicklungsprozess als auch der endgültigen Qualität und Genauigkeit der Ergebnisse.

Da diese Datensilos jedoch aufgelöst werden, führt eine stärkere Zusammenarbeit zwischen Data Engineering- und Data Science-Teams nun zu einer Weiterentwicklung der Datenteamstruktur.

Software und Frameworks sorgen für einen Unterschied

Neue Software-Frameworks ermöglichen diese Konvergenz der Data Teams. Da Data Science, das Machine Learning und Data Engineering immer beliebter werden, haben die Framework-Entwickler gemeinsame Ansatzpunkte identifiziert und automatisiert. Dadurch wird es für ein einzelnes Team oder sogar eine einzelne Person einfacher, den gesamten Lebenszyklus einer Datenanwendung zu verwalten.

Wenn wir zum Beispiel an die Technologie für Data Engineering denken. Frühe Systeme wie Apache Hadoop waren nur für Software Engineers zugänglich, die Anwendungen in Java schrieben. Ein Data Scientist oder Statistiker, der Python oder R verwendet, konnte seine Daten nicht ohne die Hilfe eines separaten Java-Engineering-Teams verarbeiten lassen. Dennoch ermöglichten neue Frameworks wie Apache Spark das Data Engineering mit deutlich weniger Code in Sprachen wie Python und R. Spätere Erweiterungen dieser Frameworks wie Spark SQL, DataFrames und Structured Streaming ermöglichten es den Benutzern, groß angelegte Data-Engineering-Anwendungen mit den bekannten Python-APIs oder SQL zu schreiben.

Die Rahmenbedingungen für Machine Learning haben sich ebenfalls weiterentwickelt, insbesondere im Bereich der Verwaltung von Produktionsanwendungen. Beispielsweise verwalten „ML-Plattformen“ wie Google TFX oder das Open-Source-Projekt MLflow den Softwareentwicklungs-Lebenszyklus für ML end-to-end, einschließlich der Verfolgung von Experimenten, mehrstufigen Workflows, Modellverwaltung und Governance. Mit diesen Tools kann ein Data Scientist ein Modell in der Produktion einsetzen oder ein Softwareingenieur einen Teil einer ML-Pipeline sicher modifizieren. Die neue Position des ML-Ingenieurs vertritt Personen, die über die Modellierungsaufgabe hinausgehen und eine komplette ML-Anwendung end-to-end besitzen können. AutoML tools erfreuen sich ebenfalls wachsender Beliebtheit und ermöglichen es Personen mit Statistik oder Software-Hintergrund, schnell einen Bereich mit hochwertigen Modellen zu erforschen.

Schließlich haben Cloud-Dienste auch die Hindernisse für die Produktivität mit Daten und ML verringert. Mit modernen, vereinheitlichten Plattformen können Ingenieure Produktions-Pipelines ohne nennenswerten Aufwand in den Entwicklungsabteilungen bereitstellen, Benutzer können Modelle über eine API aktualisieren, und Data Scientists können Untersuchungs-Notebooks in geplante Berichte oder Dashboards verwandeln, ohne ein anderes Team zu durchlaufen zu müssen. Zusammengenommen ermöglichen diese Tools vertikal ausgerichteten Teams, alle Komponenten für eine Daten- oder ML-Anwendung zu „besitzen“ und schneller darauf zu iterieren als in einem Unternehmen mit einem Silo.

Die Lakehouse-Datenarchitektur

Ein ebenso wichtiger Trend ist die Auflösung von Datensilos: das Lakehouse. In der Vergangenheit hatten Unternehmen komplexe Datenarchitekturen, in denen mehrere Data Warehouses, die von verschiedenen Teams verwaltet wurden, die Daten des Unternehmens enthielten. Die meisten Data-Warehouse-Systeme waren teuer in der Skalierung, was den Anreiz zur Zentralisierung von Daten weiter verringerte. In den 2010er-Jahren entstanden Data Lakes als kostengünstige Umgebung zur Speicherung von Rohdatensätzen, aber es fehlte ihnen die Schemadurchsetzung, ACID-Transaktionen und die Verwaltung von Data Warehouses. Neue Technologien fügen diese Funktionen nun jedoch direkt auf die Speicherung von Data Lakes hinzu und schaffen so das Beste aus beiden Welten: ein Datenverwaltungssystem mit der Zuverlässigkeit und den Verwaltungsfunktionen eines Data Warehouse und der Größe und Kosteneffizienz eines Data Lakes. Open-Source-Systeme wie Delta Lake implementieren diese Funktionalität zusammen mit Diensten von öffentlichen Cloud-Anbietern wie Google BigQuery und Azure Synapse Analytics, die Data-Warehouse-Funktionen direkt auf dem Cloud-Speicher ermöglichen.

Lakehouses ermöglichen es den Data Teams, sich zusammenzuschließen und sich auf verschiedene Weise auf vertikale Bemühungen zu konzentrieren. Erstens befinden sich alle Daten in demselben kostengünstigen Speichersystem, was die Abfrage verschiedener Datensätze erleichtert. Zweitens kann jedes Team seine Rechenressourcen unabhängig vom Speicher ausführen. Drittens machen es Technologien wie Delta Lake einfach, Änderungen an Daten rückgängig zu machen oder mehrere Versionen einer Tabelle zu pflegen (z. B. Bronze-, Silber- und Gold-Qualitätsstufen), sodass Data Engineers den Data Scientists die Möglichkeit geben können, einige Datensätze selbst zu pflegen oder Änderungen in einer Produktionsumgebung zu testen, bevor sie zu langfristigen Produktionspipelines übergehen. Da es sich bei den APIs zur Verwendung dieser Systeme um Standards wie Spark DataFrames und SQL handelt, können Personen mit unterschiedlichem Hintergrund zusammenarbeiten, um diese Datenpipelines zu aktualisieren.

Neue Teamstruktur mit hybriden Rollen

Wo bleiben also die Data Teams? Wir glauben, dass sich die Teams stärker vertikal auf geschäftliche Probleme konzentrieren werden und dass es eine größere Anzahl von hybriden Rollen geben wird. Da die Technologie die betrieblichen Reibungsverluste bei Daten- und KI-Anwendungen verringert, sehen wir, dass immer mehr Unternehmen vertikale Teams beschäftigen, die eine ganze Datenanwendung oder ein ML-Produkt besitzen können, wobei zentrale Datenforschungs- oder Engineering-Teams als Kompetenzzentren dienen, die sie beraten.

Gleichzeitig werden in den Stellenbeschreibungen immer häufiger neue Rollen gefordert, wie z. B. Engineers für Machine Learning, die eine KI-Anwendung von der Datenaufbereitung bis zur Produktion verwalten können, oder für Data Scientists oder Engineers mit „Full-Stack“-Datenerfahrung. Obwohl eine einheitliche Teamstruktur angesichts der Komplexität heutiger Datenanwendungen unrealistisch erscheinen mag und nicht in allen Situationen die richtige Wahl sein wird, ist diese Art der Konvergenz in der Informatik schon oft vorgekommen: In jüngster Zeit haben Cloud-Dienste in Kombination mit Werkzeugen für DevOps und Frameworks wie Node.js die Entwicklung von Full-Stack-Webanwendungen ermöglicht. Letztendlich werden Unternehmen die Teamstruktur wählen, die es ihnen ermöglicht, bei Geschäftsproblemen zu iterieren und am schnellsten einen Mehrwert zu liefern. Die Datenexperten wiederum werden die Praktiken erlernen, die es ihnen ermöglichen, diesen Wert für ihre Unternehmen zu liefern.

Ergänzendes zum Thema
Über den Autor

Matei Zaharia ist Assistenzprofessor für Informatik an der Universität Stanford und Mitbegründer und Cheftechnologe bei Databricks. Er begann das Apache Spark-Projekt während seiner Promotion an der UC Berkeley im Jahr 2009 und hat in großem Umfang in Rechenzentrumssystemen gearbeitet, darunter Apache Mesos und Apache Hadoop. Heute leitet Matei das MLflow-Projekt bei Databricks und andere Produktentwicklungsarbeiten. Mateis Forschungsarbeit wurde mit dem ACM Doctoral Dissertation Award 2014 für die beste Doktorarbeit in der Informatik und dem Presidential Early Career Award for Scientists and Engineers (PECASE), der höchsten Auszeichnung für Nachwuchswissenschaftler in den Vereinigten Staaten, ausgezeichnet.

Artikelfiles und Artikellinks

(ID:46501031)