Fivetran Moderne Data Stacks – Entwicklung und Governance
Anbieter zum Thema
Ein funktionierender Data Stack ist die infrastrukturelle Voraussetzung für alle Anwendungen, die mit Künstlicher Intelligenz Daten analysieren wollen. Die Cloud und offene Schnittstellen spielen hier eine wichtige Rolle. Einen halben Tag lang konnten sich Kunden und Interessenten bei einer Veranstaltung des Cloud-ELT-Spezialisten Fivetran über Eigenschaften und Möglichkeiten moderner, Cloud-basierter Data Stacks informieren und austauschen. Mit von der Partie waren die Partner Google, dtl Labs und Infomotion.

In München berichtete zunächst Joe deBuzna, Vice President Product Management, Enterprise und Datenbanken, über die Geschichte dieses Bereichs. Sie begann 1983 mit der ersten Entscheidungsunterstützungs-Software von Teradata. Die ersten Data Warehouses kamen in den Neunzigern auf den Markt, 1999 begann mit der Einführung von Salesforce das Zeitalter der ersten Cloud-basierten Warehouses.
Fortschritte in verschiedenen Bereichen der Hardwaretechnik und Virtualisierung ebneten den Weg für die Entstehung von entsprechenden Cloud-Applikationen. Weil immer mehr Datentypen und -formen zu verarbeiten sind, steigt die Bedeutung entsprechender ELT (Extract/Load/Transform)-Technologien immer mehr an. Denn irgendwie müssen die vielfältigen Daten ja ins Data Warehouse kommen.
Fivetran inzwischen auch on premises
Fivetran setzte bei seiner ELT-Technologie von vornherein auf die Cloud, musste allerdings inzwischen mit Lösungen für hybride, respektive On-prem-Umgebungen nachlegen. Grund: Kunden sind eher zögerlich damit, ihre Daten in die Cloud zu schieben – sie fürchten um Geschäftsgeheimnisse. Manchmal verlangt auch das Recht, dass die Daten beim Kunden bleiben.
Dennoch ist deBuzna überzeugt, dass der Trend unwiderruflich zur Demokratisierung von Daten, sprich: zur Verfügbarkeit von Daten, Analytik und entsprechenden Visualisierungs-Tools für alle geht. Dafür aber brauche man den „Modern Data Stack“, der einfacher und performanter ist als bisherige Implementierungen.
Grundsätzlich besteht er aus diversen Datenquellen, Datenpipelines, einem Speicherziel (einem Data Lake oder Data Warehouse) und BI-Lösungen, die von Anwenderseite den analytischen Zugriff auf die Daten und deren ansprechende Präsentation gestatten.
Weitere Trends sind in deBuznas Augen die Generierung handlungsleitender Einsichten aus Echtzeitdaten und mehr Effizienz in den gesamten Datenpipelines einschließlich Analytik durch KI.
Trend zur Selbstbedienung
In verschiedenen Podiumsdiskussionen und Roundtables ging es anschließend darum auszuloten, was heute der Stand beim Modern Data Stack ist und wo Anwender tatsächlich der Schuh drückt. So meinten gleich zwei der Podiumsteilnehmer, Datenkataloge würden als Rundum-Lösung überschätzt und könnten höchstens ein kleines Puzzleteil auf dem Weg zur Etablierung des Modern Data Stack sein.
Weitere wichtige Entwicklungen sind der Trend zur Selbstbedienung und zum rollenbasierten Zugriff auf Daten. Eine bessere Orchestrierung könne für weniger Rebuilds sorgen als sie heute oft erforderlich sind, meinte Simon Stepper, Head of Data & RevOps bei Capdesk from Carta.
Kein Unversaltool in Sicht
Joe deBuzna und auch andere betonten, dass mit einem Universaltool für die Verarbeitung und Analyse von Daten nicht zu rechnen sei. ML und KI stünden allerdings davor, die datenanalytischen Technologien und Pipelines auf eine neue Stufe zu heben.
Victoria Perez Mola, Solution Architect bei dbt Labs, wies darauf hin, dass es nicht darum gehe, den neusten Tools und Technologien hinterherzuhecheln. „Man muss sich immer wieder ins Bewusstsein rufen, was die Kunden wirklich wollen und brauchen.“
Data Governance: oft unterschätzt
Auch das Thema Data Governance wird oft vernachlässigt. Darauf wies Richard Brouwer, bei Fivetran Lead Sales Engineering Specialist – SAP, immer wieder hin. Denn oft genug weiß datentechnisch in größeren Unternehmen eine Hand nicht, was die andere tut.
Es werden unterschiedliche Daten, Datentypen, Begriffsbedeutungen oder Logiken verwendet. Das führt, wenn Datensilos aufgebrochen werden, zunächst oft genug zu Verwirrung und Ärger. Denn Daten nützen nur dann etwas, wenn sie jeder im Unternehmen versteht. Und zwar gleich versteht.
Nach Meinung Brouwers entscheidet eine gute Data Governance am Ende darüber, ob sich die Investitionen in analytische Infrastruktur so rechnen wie gewünscht. Ein Data Mesh sei ohne Data Governance sogar schlicht undenkbar.
Lückenhafte Data Governance – Fehler in Reports
Die Folge fehlender Data Governance sind fehlerhafte Reports, weil Input und gewünschter Output nicht zusammenpassen. Diese Fehler kommen oft vor und kosten die zuständigen Mitarbeiterinnen und Mitarbeiter jede Menge Zeit, die sie sinnvoller anders verbringen könnten. Ein Data-driven-Enterprise ist ohne entsprechende Data Governance schlicht undenkbar.
Dass es hier nicht ohne eine gewisse Mühe geht, beweist das von Fivetran angeführte Beispiel eines großen weltweiten Konsumgüterherstellers: Dort gibt es eine 80 Seiten lange Beschreibung dazu, wie Produkte in SAP zu beschreiben sind. Die Spezifikation zu erarbeiten, war sicher kein Unterhaltungsprogramm, trägt aber heute dazu bei, dass automatisierte Datenverarbeitungsprozesse möglich sind und die Ergebnisse von produktbezogenen Analysen stimmen.
Hausaufgaben auf Governance-Ebene erledigen
Die Automatisierung mühevoller händischer Aufgaben funktioniere, davon waren die meisten Spezialisten überzeugt, nur wenn auf der Governance-Ebene die Hausaufgaben erledigt wurden. Ein Wunschtraum bleibt aber wohl bis auf Weiteres ein Tool, das auf Knopfdruck den Wert bestimmter Daten festlegen kann.
Umso erstaunlicher ist es, dass anscheinend viele Unternehmen überhaupt erst jetzt beginnen, in das Thema Data Governance einzusteigen. Oft sind es kleine Teams, die sich mit der herausfordernden Aufgabe befassen, für die Daten im Unternehmen ein einheitliches Gerüst von Grundbestimmungen festzulegen.
Unabdingbar ist für eine gelingende Data-Governance-Anstrengung das Engagement der Führungsebene, denn Data Governance kann auch Eingriffe in viele lieb gewordene Gewohnheiten der Anwender bedeuten. Etwa wenn Daten ab sofort anders zu formatieren sind oder neue KPIs eingehalten werden sollen.
Immer wieder kam auf der Veranstaltung zur Sprache, wie wichtig eine semantische Schicht über den Daten ist. In ihr können die gültigen Festlegungen der Data Governance so verkörpert werden, dass sie allen Recherchen, Daten-Ingests und so weiter automatisch zugrunde liegen. Allerdings ist deren Generierung ein sehr aufwendiges Unterfangen, das viel konzeptionelles Nachdenken erfordert. Automatisieren lässt sich hier bislang wenig.
Fivetran sieht den wichtigsten Bereich seiner Weiterentwicklung darin, immer schneller immer mehr Konnektoren bereitzustellen. Laut deBuzna verwendet das Unternehmen dazu inzwischen ein Tool, das mithilfe von generativer KI und Natural Language Processing (NLP) die Erstellung entsprechender Schnittstellen auf Kundenwunsch erheblich beschleunigt. Die Light Connector Machine half 2022, rund 100 kundenspezifische Konnektoren zu bauen. Im laufenden Jahr sollen es schon mehrere Hundert sein. Dabei geht es vor allem schneller, die entsprechenden Datenmodelle zu erzeugen. Irgendwann könnte die Konnektoren-Erstellung auch weitgehend automatisiert ablaufen, meint deBuzna.
Über weitere Zukunftsthemen möchte er nicht spekulieren. Wer bisherige Entwicklungen weiterdenkt, könnte auf die Idee kommen, dass es lohnend für Fivetran wäre, eine universell einsetz- und kundenspezifisch anpassbare Semantik-Schicht zu entwickeln. Sie könnte dann die individuellen Governance-Anforderungen der einzelnen Kunden als Transformationen in Fivetran vor dem Ingest in den zentralen Datenspeicher automatisch berücksichtigen. Das wäre sicher eine enorme Erleichterung, doch ob es tatsächlich in diese Richtung geht, möchte deBuzna nicht bestätigen.
Ganz sicher ist allerdings vorläufig eines: Ein von vielen Anwendern durchaus gern gesehenes Tool, das auf Knopfdruck den ökonomischen Wert bestimmter Daten schätzt, wird es wohl bis auf Weiteres nicht geben.
(ID:49617822)