Kommentar von Alexander Zipp, Fivetran Zukunftsorientierte Unternehmen brauchen einen Modern Data Stack
Anbieter zum Thema
Im heutigen wettbewerbsintensiven und datengetriebenen Umfeld kommt es darauf an, dass Unternehmen strategische Entscheidungen auf der Basis aller relevanten Daten extrem schnell treffen können. Diese Agilität verlangt kurze Zykluszeiten – vom Sammeln der Daten bis zur Gewinnung der Erkenntnisse. Herkömmliche Analyseprozesse sind auf dieses Tempo nicht ausgelegt, was zu Verzögerungen führt.

Unternehmen wahren ihre Wettbewerbsfähigkeit, indem sie die analysebezogene Datenverarbeitung automatisieren und fortschrittliche Analysefunktionen nutzen. Genau das leistet eine Cloud-zentrierte Analyseinfrastruktur, auch genannt Modern Data Stack. Bis vor kurzem war dieses Ziel für viele Unternehmen kaum realisierbar. Mittlerweile setzen immer mehr Unternehmen auf einen Modern Data Stack. Grund genug, einen Blick auf die Unterschiede zwischen herkömmlichen und modernen Analyseinfrastrukturen zu werfen.
Grenzen der herkömmlichen Datenanalytik
Herkömmliche Business-Intelligence- und Datenanalysefunktionen werden den Anforderungen nach schnellerer Verfügbarkeit und Agilität nicht gerecht. Oft sind Teams einzig für den Aufbau von Data Pipelines und das Managen von Speicher- und Rechenanforderungen vor Ort zuständig. Die Teams betreiben erheblichen Aufwand für die manuelle Kodierung, das Design und die Wartung von Prozessen für SQL-basiertes Extrahieren, Transformieren und Laden von Daten (ETL), den Aufbau semantischer Schichten und das Design komplexer Schemata.
Kurz gesagt: Datenteams stecken wertvolle Zeit und Ressourcen in die Verwaltung veralteter Infrastrukturen für die Datenintegration, anstatt aus relevanten Daten geschäftsrelevante Erkenntnisse zu gewinnen. Eine veraltete Dateninfrastruktur verursacht nicht nur hohe Personalkosten, sondern ist auch unter folgenden Aspekten problematisch:
- Schwierige Beschaffung
- Komplizierte Nutzung
- Teure Wartung
- Zeitintensiver Aufbau (häufig in monatelangen Projekten)
Vor allem aber lassen sich veraltete Dateninfrastrukturen nur schwer an Veränderungen anpassen, was den Anforderungen moderner Unternehmen widerspricht. In heutigen Unternehmen unterliegt das Reporting ständig neuen Anforderungen. Die Schemata für Datenquellen ändern sich häufig, ebenso wie die benötigten APIs. Ständig kommen neue Quelldatensysteme hinzu, werden geändert oder gelöscht. Datenversierte Führungskräfte formulieren immer neue Datenabfragen, die es zu beantworten gilt. Zudem können Entwicklungszyklen, die ohnehin oft 12 bis 18 Monate umfassen, durch Probleme unterbrochen werden.
Der Modern Data Stack
Heutige Unternehmen, egal welcher Größe, nutzen Dutzende von Anwendungen. Die Daten, die dabei entstehen, ermöglichen wertvolle Einblicke in die Geschäftsabläufe und können dabei Optimierungsmöglichkeiten aufzeigen. Um das Potenzial der Daten in Unternehmen wirklich nutzen zu können, lohnt sich die Implementierung eines Modern Data Stacks.
Der Modern Data Stack (MDS) ist eine Zusammenstellung von Tools, die für die Zentralisierung, Verwaltung und Analyse von Daten verwendet werden. Zu den Kernkomponenten des modernen Data Stack gehören:
- Eine automatisierte Data Pipeline: Automatisierte Data Pipelines übertragen Daten aus verschiedenen Quellen in das jeweilige Data Warehouse oder den Data Lake. Die korrekte Implementierung ist keine einfache Aufgabe, wobei hier die technischen Einzelheiten des Extrahierens und Ladens von Daten im Fokus stehen. Eine Data Pipeline mit vordefinierten Konnektoren lässt sich schnell einrichten und ermöglicht eine skalierbare Datenintegration. Sie wird vollständig verwaltet und berücksichtigt API- oder Schemaänderungen.
- Ein Cloud-basiertes Data Warehouse oder Data Lake als Destination: Um Verbindungen zwischen Daten aus unterschiedlichen Quellen herzustellen, benötigen Unternehmen eine Plattform, die eine sichere, dauerhafte Speicherung der Daten ermöglicht und gleichzeitig für Analysten und Data Scientist leicht zugänglich ist. Diese Plattform kann relational und für strukturierte Daten ausgelegt sein (Data Warehouse) oder nicht-relational und sowohl strukturierte als auch unstrukturierte Daten enthalten (Data Lake). Wichtig ist, dass die Plattform sowohl Rechen- als auch Speicherkapazität ohne lange Ausfallzeiten bereitstellen und skalieren können muss.
- Ein Tool zur Datentransformation: Das Tool zur Datentransformation sollte mit dem Speicherort kompatibel sein und über Funktionen verfügen, die eine einfache Rückverfolgung der Datenherkunft ermöglichen, wie z. B. Versionskontrolle und/oder Dokumentation, die die Folgen der Transformation auf die jeweiligen Tabellen verdeutlicht.
- Eine Business-Intelligence- oder Data Science-Plattform: Daten werden gesammelt, um Erkenntnisse zu gewinnen die Unternehmen bei Entscheidungen unterstützen. Progressive Unternehmen können Daten nutzen, um Künstliche Intelligenz für die automatisierte Entscheidungsfindung in operativen Systemen einzusetzen.
Die Vorteile eines Modern Data Stacks
Im Gegensatz zum Legacy Data Stack wird der Modern Data Stack in der Cloud gehostet und benötigt nur wenig technische Konfiguration durch den Anwender. Das fördert die Zugänglichkeit für den Endnutzer sowie die Skalierbarkeit, um wachsenden Datenanforderungen schnell gerecht zu werden. Langanhaltende und kostspielige Ausfallzeiten durch die Skalierung lokaler Serverinstanzen lassen sich somit vermeiden.
Mit einem Modern Data Stack stellen Datenteams den Entscheidungsträgern auf Anhieb die Daten und Erkenntnisse zur Verfügung, die diese benötigen. Aufgrund der kurzen Bereitstellungszeiten können Unternehmen besser auf die dynamischen Anforderungen des Marktes reagieren.
Kern eines Modern Data Stacks ist ein Cloud Data Warehouse bzw. ein Data Lake. Hierzu gehören Cloud-basierte Tools für Analyseberichte und Visualisierungen sowie zur Unterstützung beim Aufbau bzw. die Automatisierung von Data Pipelines.
Mit diesem Paradigma können sich Data Engineers, Datenanalysten und Datenarchitekten auf unternehmenswichtige Projekte konzentrieren, die einen geschäftlichen Mehrwert schaffen. Die zugrundeliegenden Data-Engineering-Aufgaben, wie die Wartung der Data Pipelines und der Entwurf der Schemata, werden von Cloud-Diensten übernommen. Fivetran bietet beispielsweise vorkonfigurierte, wartungsfreie Datenkonnektoren für über 150 Datenquellen an, darunter Datenbanken, SaaS-Anwendungen, Dateien und APIs. Die Daten werden am Ziel abfragefertig bereitgestellt. In der Datenanalyse verkürzt sich damit die Zeitspanne bis zur Erkenntnisgewinnung entscheidend.
(ID:47481571)