Kommentar von Alexander Zipp, Fivetran ELT – die Zukunft der Datenintegration

Autor / Redakteur: Alexander Zipp / Nico Litzel

Warum fällt es so vielen Unternehmen schwer, genaue und zutreffende Analysen durchzuführen? Ein Mangel an Daten ist jedenfalls nicht das Problem. Durch die steigende Anzahl von Cloud-Anwendungen explodiert das Datenvolumen förmlich in den Unternehmen – unabhängig von der Branche. Die eigentliche Herausforderung ist dabei der zuverlässige Zugriff auf aktuelle Daten aus den verschiedenen Anwendungen. Nur dann können sich Datenanalysten auf ihre Kernaufgabe konzentrieren – Daten analysieren.

Firmen zum Thema

Der Autor: Alexander Zipp ist Commercial Lead DACH bei Fivetran
Der Autor: Alexander Zipp ist Commercial Lead DACH bei Fivetran
(Bild: Fivetran)

Die Vorteile von SaaS-Anwendungen haben Unternehmen aller Größenordnung erkannt. Immer mehr Anwendungen wandern in die Cloud, um Geschäftsprozesse effizienter zu managen. Für einen einfachen, zuverlässigen Zugriff auf Daten ergibt sich daraus ein Problem in zweifacher Hinsicht. Zum einen kommt ein breites Spektrum an Anwendungen für abteilungsübergreifende Abläufe zum Einsatz, beispielsweise dem Customer-Relationship-Management, der Rechnungsstellung und dem Kundenservice.

Zum anderen hat jede Anwendung seine eigene spezifische Funktionsweise mit komplexen APIs und Datenmodellen, die sich jeder Zeit – oft sogar unerwartet – ändern können. Jedes dieser Probleme ist eine enorme Herausforderung hinsichtlich der Datenintegration. Kein Wunder also, dass es Unternehmen angesichts der steigenden Zahl von SaaS-Applikationen und zunehmender Komplexität nicht gelingt, Data Analytics erfolgreich zu betreiben oder ihr Business voranzutreiben.

Warum der traditionelle ETL-Prozess ins Wanken gerät

Die gängige Vorgehensweise der Datenintegration ist ein Prozess, der als Extract-Transform-Load beschrieben und kurz ETL genannt wird. ETL ist in den 70er-Jahren entstanden, als Rechenleistung, Speicherkapazität und Bandbreite gering und teuer waren. Im Zeitalter der Cloud existieren diese Einschränkungen nicht mehr. Die Leistungsfähigkeit und Kosteneffizienz der Cloud macht ETL zu einem überholten und einschränkenden Datenintegrationsverfahren.

ETL führt zu einem ressourcenintensiven, endlosen Kreislauf, denn jede Data Pipeline läuft unter ihrem eigenen individuellen Code, der für den jeweiligen Anwendungsfall konzipiert wurde. Funktioniert plötzlich der Code nicht mehr, führt das zu einer Unterbrechung der Pipeline. Bei jeder Änderung oder neuen Vorgabe von Seiten der Geschäftsleitung oder einer Unternehmenssparte müssen die Dateningenieure umfassende Code-Revisionen vornehmen.

Wie ETL Datenanalysten die Arbeit erschwert

Alle Unternehmen, die von ihrer Datenflut überschwemmt werden und ETL einsetzen, haben damit zu kämpfen, zu jedem beliebigen Zeitpunkt einen zuverlässigen Zugriff auf die Daten zu gewährleisten. Trotzdem gilt ETL nach wie vor als Standardprozess unter den traditionellen Unternehmen.

Eine Umfrage von Dimensional Research im Juni 2020 unter fast 500 Datenexperten zeigte, dass verschiedene fehleranfällige Vorgänge, Mängel und Datenlatenzprobleme auf veraltete Datenintegrationstechnologien zurückzuführen sind.

Die größten Herausforderungen für Datenanalysten sind wie folgt:

  • 62 % haben keinen direkten Zugriff auf Engineering-Ressourcen
  • 90 % hatten in den vergangenen zwölf Monaten mehrere unzuverlässige Datenquellen
  • 86 % haben keinen Zugriff auf aktuelle Daten, 41 % geben an, dass die zur Verfügunggestellten Daten sogar älter als zwei Monate sind

Der moderne Ansatz zur Datenintegration

Viele Unternehmen nutzen eine Technologie, die nicht mehr zeitgemäß ist, während moderne, Cloud-native Unternehmen sich von ETL verabschieden. Die automatisierte Datenintegration, auch als automatisiertes ELT bezeichnet, macht den Zugriff auf die Daten so zuverlässig und selbstverständlich wie Strom aus der Steckdose. Datenanalysten, die automatisiertes ELT und einen modernen Data Stack verwenden, können aktuelle, gut informierte Empfehlungen mit geringem bis gar keinem technischen Aufwand abgeben.

Funktionsweise des automatisierten ELT

ELT, also „Extrahieren, Laden, Transformieren“, verschiebt den Schritt „Transformieren“ ans Ende der Data Pipeline: Analysten können Daten laden, ohne sich im Vorfeld bereits festzulegen, welche Erkenntnisse sie aus den heterogenen Daten ziehen möchten.

Die Quelldaten aus diversen Anwendungen in verschiedenen Formaten und Datenstrukturen werden originalgetreu in einem Data Warehouse repliziert und damit zur „Single Source of Truth“. Analysten können die Daten in ein einheitliches Schema transformieren, ohne die Integrität der gespeicherten Daten zu beeinträchtigen.

Klassischer ETL-Prozess und Funktionsweise des modernen automatisierten ELT
Klassischer ETL-Prozess und Funktionsweise des modernen automatisierten ELT
(Bild: Fivetran)

ELT profitiert von der Kosteneffizienz moderner Cloud Data Warehouses, die über Architekturen verfügen, die die Rechenleistung vom Speicher trennen und Spalten-orientiert aufgebaut sind. Unternehmen können hier riesige Datenmengen ablegen und Analyseabfragen über diese Datensätze äußerst effizient durchführen.

Automatisiertes ELT verwenden vorgefertigte sofort einsatzbereite Datenkonnektoren, die Schema- und API-Änderungen automatisch erkennen und replizieren sowie Daten bereinigen und normalisieren. Diese Aufgabe setzt ein großes Fachwissen zu Datenquellen wie auch umfangreiche Kenntnisse in der Datenmodellierung und -analyse voraus. Darüber hinaus erfordert der Aufbau zuverlässiger Softwaresysteme eine entsprechende technische Expertise.

Der Modern Data Stack basiert auf ELT und ersetzt On-Premises-Techniken durch Cloud-native SaaS-Technologien.

Die wichtigsten Komponenten in einem Modern Data Stack sind:

  • 1. Eine komplett verwaltete Data Pipeline zum Extrahieren und Laden
  • 2. Ein Cloud Data Warehouse
  • 3. Ein Business Intelligence Tool

Richtig implementiert, bietet der Modern Data Stack kontinuierliche Datenintegration und unternehmensweiten Datenzugriff mit einem Minimum an manuellen Eingriffen und Anpassungen des Codes.

Mit dem ELT-Ansatz können Unternehmen die Ausgangsdaten in ihr Data Warehouse laden und Analysten direkt zugänglich machen. Dies bietet Unternehmen und Analysten ein hohes Maß an Flexibilität.

Automatisierte Datenintegration und ein Modern Data Stack bieten viele Vorteile: von der Senkung der Engineering-Kosten und der Anreicherung der Daten, bis hin zur deutlich schnelleren Erkenntnisgewinnung und bessere Anpassung an veränderte Marktbedingungen.

(ID:47077379)