Kommentar von Michael Krause, ThoughtSpot Der Modern Data Stack und die neue Rolle des Analytics Engineers

Von Michael Krause

Der Modern Data Stack hat nicht nur den Analyseprozess gewandelt, sondern auch die Rollen und Verantwortlichkeiten der beteiligten Datenexperten verändert und Platz für eine neue Rolle geschaffen: den Analytics Engineer.

Anbieter zum Thema

Der Autor: Michael Krause ist Customer Success Manager bei ThoughtSpot
Der Autor: Michael Krause ist Customer Success Manager bei ThoughtSpot
(Bild: ThoughtSpot)

In der Regel legen die Datenanalysten und Data Engineers das Fundament für den Aufbau datengesteuerter Organisationen. Sie liefern die Fakten, die zur Verbesserung von Produkten, Prozessen und Dienstleistungen durch Analysen benötigt werden. Die Datenanalysten sorgen dafür, dass die in den Daten verborgenen Erkenntnisse gewonnen werden, indem sie Fragen beantworten wie „Warum ist die Kundenabwanderung im letzten Monat so signifikant angestiegen?“ oder „Welches sind die besten Vertriebskanäle?“. Sie arbeiten eng mit den Geschäftsanwendern zusammen, um deren Datenanforderungen sowie die Art der gesuchten Erkenntnisse zu verstehen und diese in geschäftskritischen Dashboards zu konsolidieren. Auch jede Art von Prognosen fällt für gewöhnlich in ihren Zuständigkeitsbereich.

Am anderen Ende der Datenpipeline bauen Data Engineers Kundendatenintegrationen auf, verwalten die Orchestrierung der Datenpipeline, entwickeln und implementieren Endpunkte für Machine Learning. Sie bauen und warten nicht nur die Datenplattform, sondern arbeiten auch an der Optimierung der Leistung des Data Warehouses oder Data Lakes.

Diese beiden Rollen sowie der Data Scientist für fortgeschrittene Analysen und Prognosen reichten mehr oder weniger aus, um den Analyseprozess in der sich langsam entwickelnden, starren Welt der On-premises-Technologie zu verwalten. Doch mit dem Wechsel in die Cloud verändern sich der Data Stack, seine Komponenten und Prozesse dramatisch.

Der Modern Data Stack

Der Modern Data Stack ist in der Cloud verwurzelt. Im Mittelpunkt steht eine Cloud-basierte Datenplattform zur Speicherung von Daten wie Snowflake, Amazon Redshift oder Google BigQuery, um nur einige zu nennen. Neue Tools wie Fivetran oder Stitch haben den Prozess der Datenaufnahme automatisiert, um zuverlässig abfragefertige Daten aus allen verschiedenen Quellen in das Cloud Data Warehouse zu liefern. Transformationstools wie dbt oder Supergrain helfen dann bei der Umwandlung der in das Warehouse geladenen Daten. In dieser Cloud-Umgebung, in der die Geschwindigkeit und der Umfang der Daten eine wichtige Rolle spielen, ist der ETL-Prozess häufiger ein ELT-Prozess (Extract, Load, Transform).

Diese Geschwindigkeit und der Umfang der Cloud-Daten erfordern auch neue, Cloud-basierte Analysetools, die idealerweise direkt mit der Cloud-basierten Datenplattform verbunden und in denen Analysen direkt durchgeführt werden können. Aufgrund des Volumens der Cloud-Daten müssen die Analyselösungen eine einfache und schnelle Möglichkeit bieten, auf granularer Ebene auf Daten zuzugreifen, zum Beispiel mithilfe von Suchtechnologien. Außerdem helfen Technologien wie KI und Machine Learning dabei, die relevanten Daten zu finden sowie zu erkennen, was neu ist und was sich geändert hat. Andernfalls bleiben wichtige Erkenntnisse in den Datenbergen der Cloud-Datenplattform verborgen. Der Analyseprozess sollte nicht bei der Analyse aufhören. Ebenso wichtig ist es, die Erkenntnisse in die Anwendungen zurückzuspielen, aus denen die Daten stammen, um schnelle Handlungsaufforderungen zu ermöglichen. Hier ist ein umgekehrter ETL-/ELT-Prozess erforderlich.

Dieser Modern Data Stack ist jedoch nicht in Stein gemeißelt, sondern entwickelt sich ständig weiter. Und diese Veränderungen betreffen nicht nur die Datenprozesse, sondern auch die damit verbundenen Aufgaben und Rollen der Datenexperten. An der Schnittstelle zwischen den Datenanalysten und den Data Engineers hat sich eine neue Rolle herauskristallisiert: die des Analytics Engineers.

Vorstellung der Analytics Engineers

Wie Anna Filippova, Director of Community bei dbt Labs, auf unserer jährlichen Benutzerkonferenz Beyond sagte, bedeutet die Rolle der Analytics Engineers nicht nur eine Verschmelzung der Rollen von Datenanalysten und Data Engineers. Sie erklärte: „Als Analyst ist man hauptsächlich damit beschäftigt, schnell eine Antwort zu finden. Es ist in Ordnung, Code zu schreiben oder zu optimieren, um zu dieser Antwort zu gelangen, aber weniger interessant ist das Refactoring und die Skalierung. Data Engineers hingegen löschen die meiste Zeit Brände auf der Datenplattform. Sie sorgen dafür, dass die Daten, wie erwartet, pünktlich geladen werden. Es ist schwer, die für die Datenmodellierung erforderliche tiefgreifende Arbeit zu priorisieren und gleichzeitig dafür zu sorgen, dass die Dinge nicht zusammenbrechen.“

Sie wies darauf hin, dass diese Lücke zwischen den beiden Teams der Ausgangspunkt für Analytics Engineering war, mit dem Ziel, die regelmäßigen Aufgaben der Analysten zu abstrahieren und über ihre Wiederverwendbarkeit nachzudenken.

Vereinfacht kann man sagen, dass innerhalb des Modern Data Stack die Analytics Engineers dafür verantwortlich sind, saubere, transformierte Daten bereitzustellen, die von den Geschäftsanwendern an der Front analysiert werden können. Wie machen sie das? Indem sie technische Methoden wie Versionskontrolle, Tests und kontinuierliche Integration auf den Analysecode anwenden. Sie pflegen die Datendokumentation und -definitionen und schulen ihr Team in der Verwendung moderner Analysetools.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Eine weitere wichtige Veränderung in der Rolle des Analysten ist die Ausweitung der Zuständigkeiten. Analytics Engineers werden zunehmend damit beauftragt, Daten zu organisieren und umzuwandeln, um sie für andere Systeme und Personen einfach nutzbar zu machen. Mit der Ausweitung der Zuständigkeiten steigt auch der Bedarf an erweiterten Fähigkeiten und Fertigkeiten. Analytics Engineers werden zu Experten für Dokumentation, Automatisierung, Analyse und Visualisierung. Sie bilden sich weiter. Sie verdoppeln ihre SQL-Kenntnisse und fügen neue Sprachen wie Python und neue Tools wie dbt hinzu, um ihren Teams mehr Nutzen zu bieten.

Warum das Lernen von Kollegen und Kolleginnen wichtiger denn je ist

So wie sich der Modern Data Stack weiterentwickelt, so entwickeln sich auch die Rollen und ihre Zuständigkeiten. Wie Anna Filippova feststellte, „stehen wir wirklich erst am Anfang der Reise all der verschiedenen Dinge, die Menschen mit dem Modern Data Stack tun können. Wir sind also noch nicht damit fertig, herauszufinden, welche Tools wir verwenden sollten, wer welche Aufgaben übernehmen sollte, wer wem unterstellt ist oder welche Karrierewege jemand einschlagen sollte.“

Diese kontinuierliche Entwicklung macht es denjenigen schwer, die Pionierarbeit in diesen neuen Rollen leisten. Hier kann es sehr hilfreich sein, sich mit Fachkollegen und -kolleginnen auszutauschen und zu vergleichen, wie sie ihre Arbeit machen, welche Tools sie verwenden, wie ihre Organisation strukturiert ist und wie sie bewährte Verfahren und Erfahrungen austauschen. Es lohnt sich. Der Modern Data Stack erlaubt, dynamische Analysefunktionen bereitzustellen, die mit traditionellen Data Warehouses und Data Lakes nicht möglich waren. Das sind aufregende Zeiten für Datenexperten, ganz gleich, in welcher Rolle sie tätig sind.

Artikelfiles und Artikellinks

(ID:47930753)