Kommentar von Andreas Vogels, Dremio Data Lakehouses – das Beste kommt erst noch

Von Andreas Vogels 5 min Lesedauer

Anbieter zum Thema

Das Management sowohl strukturierter als auch unstrukturierter Daten ist nach wie vor komplex und kostenintensiv. Data Lakehouses bieten die Möglichkeit, alle diese Daten flexibel zu verwalten und zu analysieren, exponentiell wachsende Datenmengen in den Griff zu bekommen und gleichzeitig fundierte Erkenntnisse zu gewinnen.

Der Autor: Andreas Vogels ist Head of Central Europe bei Dremio(Bild:  Dremio)
Der Autor: Andreas Vogels ist Head of Central Europe bei Dremio
(Bild: Dremio)

Die historischen Herausforderungen des Enterprise Data Managements sind hinreichend bekannt: Daten-Plattformen und Daten-Technologien sind in den Unternehmen weitgehend ad hoc entstanden und dann gewachsen, um den spezifischen Anforderungen der geschäftlichen Funktionen, die sich im Laufe der Zeit entwickelten, gerecht zu werden. Infolgedessen war es für Unternehmen nahezu unmöglich, ihre Daten zentral zu verwalten. Ineffizienzen und Verzögerungen schlichen sich in die Data-Management-Prozesse ein und führten dazu, dass wichtige Daten oftmals veraltet waren. Einer Umfrage zufolge haben sich 82 Prozent der Unternehmen bei der Entscheidungsfindung auf veraltete Daten verlassen.

In diesen Zeiten standen Data-Teams immer wieder vor der wenig beneidenswerten Aufgabe, Daten aus einem Geschäftsbereich zu verschieben, zu kopieren und anzupassen, um sie für die Analyse in einem anderen Team oder Projekt zur Verfügung zu stellen. In Zeiten hoher Nachfrage oder während großer Technologie-Projekte in Unternehmen – wie beispielsweise einer System-Migration oder der Einführung einer neuen Software – sind IT- und Data-Teams damit überfordert. Da Daten eine immer bedeutendere Rolle für den wirtschaftlichen Erfolg spielen, suchen Unternehmen nach zuverlässigeren und effizienteren Methoden, um wertvolle und nutzbringende Erkenntnisse aus ihren Datenbeständen zu gewinnen.

Die Evolution der Data-Management-Systeme

Im Laufe der Jahre entstand eine Reihe von Systemen, die dazu beitragen sollten, die Komplexität des Enterprise Data Managements zu reduzieren und den Zeitaufwand zur Gewinnung neuer Erkenntnisse zu verkürzen. Zuerst kam Data Warehousing, das die Daten in einer relationalen Datenbank für Business Intelligence und Reporting zentralisiert. Als Nächstes folgten Big-Data-Plattformen, die nicht-kategorisierte Daten und Rohdaten in einem dateibasierten oder objektbasierten Repository für weiterführende Analysen speicherten. Aus diesem Ansatz entwickelten sich dann Data Lakes, die es Unternehmen ermöglichen, unstrukturierte Daten jeder Größenordnung zu speichern. Dabei fehlten jedoch wichtige Data-Warehouse-Funktionalitäten, wie hohe Datenqualität und -konsistenz dank der Verwendung vordefinierter Schemata.

Eine der größten und schwierigsten Herausforderungen bestand bisher darin, sowohl strukturierte als auch unstrukturierte Daten effektiv zu verwalten. Strukturierte Daten sind organisierte, geordnete und formatierte Informationen, die sich leicht abfragen und analysieren lassen. In der Regel sind diese in einem Tabellenformat mit Zeilen und Spalten dargestellt. Strukturierte Daten werden in relationalen Datenbanken (beispielsweise in Data Warehouses) gespeichert, wo die Daten in Tabellen mit Zeilen (Datensätzen) und Spalten (Attributen) abgelegt sind. Dank dieses organisierten Layouts ist die Analyse strukturierter Daten relativ unkompliziert und erfordert nur einfache SQL-Abfragen, um schnell neue Erkenntnisse zu gewinnen.

Die Integration neuer, unstrukturierter Daten in dieses strukturierte System stellte bisher jedoch eine Herausforderung dar. Unstrukturierte Daten umfassen Text, Audio und Video in einer Vielzahl von Formaten, die für ein Unternehmen von Nutzen sein können. Sein es Kunden-Rezensionen, Satelliten-Daten, Tweets, Analysten-Berichte oder andere nützliche Informationen. Unstrukturierte Daten sind unübersichtlich und komplex. Daher sind fortschrittliche Tools für die Verarbeitung dieser Daten sowie spezielle Techniken erforderlich, um wertvolle Einblicke zu erhalten.

Jetzt mit dem Thema Data Lakehouses befassen

Die Komplexität des Managements sowohl strukturierter als auch unstrukturierter Daten führt dazu, dass viele Unternehmen Data Warehouses und Data Lakes parallel einsetzen, um ihre Anforderungen an das Data Management zu erfüllen. Mit der aktuellen Entwicklung der Data-Management-Systeme ist das jedoch nicht länger erforderlich.

Data Lakehouses haben sich als eine Möglichkeit herauskristallisiert, kostengünstigen, unbegrenzten und hochleistungsfähigen Data-Lake-Speicher, skalierbare Rechenleistung und neue Dateiformate zu kombinieren, die SQL-Abfragen unterstützen (auf der Grundlage offener Industriestandards für Data Warehousing wie Apache Iceberg und Delta Lake). Diese Fähigkeiten ermöglichen es Unternehmen, aus einem Data Lake genauso einfach Informationen zu extrahieren wie aus einem besser strukturierten Data Warehouse.

Da das Datenvolumen in Unternehmen exponentiell wächst, bieten Data Lakehouses die Möglichkeit, Daten jeder Größenordnung flexibel zu verwalten und zu analysieren. Data Lakehouses tragen auch dazu bei, dass die Kosten für das Daten-Management nicht außer Kontrolle geraten. Data Lakehouses verringern nicht nur den Bedarf an zusätzlichen Data-Warehousing-Funktionen, sie optimieren auch die Storage-Kosten, da die Daten in ihrem ursprünglichen Format erhalten bleiben.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Die Zukunft der Data Lakehouses

Data Lakehouses werden sich zum De-facto-Standard für das Data Management und die Datenanalyse entwickeln. Ein neuer Bereich, der sich derzeit herausgebildet hat, ist die Idee des Sandboxing von Daten innerhalb eines Lakehouses. Dabei können Teams in einem separaten, geschlossenen Bereich Daten bearbeiten, Feinabstimmungen vornehmen und testen – bis sie sicher sind, dass diese Daten korrekt sind. Dieser Fall tritt beispielsweise ein, wenn ein Datenbestand repariert werden muss oder das System eine neue, ungeprüfte Datenquelle einliest. Nutzer können die Arbeit in einem isolierten Bereich durchführen und dabei dieselben Konzepte wie in Git und GitHub verwenden: Sie können Änderungen an den Daten vornehmen, ohne die Arbeit anderer Kollegen zu beeinträchtigen oder das eigentliche Data Lakehouse zu korrumpieren. Sobald die Sandbox-Daten aufbereitet sind, können sie diese mit nur einem einzigen Befehl mit dem primären Lakehouse zusammenführen.

In Anbetracht der Tatsache, dass die Ansätze des Data Managements in den vergangenen zwanzig Jahren nahezu unverändert geblieben sind (sprich SQL-Abfragen auf Tabellen), ist dies eine bedeutende Entwicklung, die den Data-Teams völlig neue Arbeitsweisen ermöglicht.

Zu den weiteren Bereichen, auf die Sie in Zukunft achten sollten, gehört das Potenzial von „Data as Code“. Data as Code (DaC) ist ein Konzept, das sich auf die Methoden der agilen Softwareentwicklung stützt und dieselben Grundsätze auf die Datenverwaltung anwendet – mit Verfahren wie Versionskontrolle, automatisiertem Testing und kontinuierlicher Integration.

Ziel ist es, Daten flexibel und über verschiedene Umgebungen hinweg gemeinsam nutzbar zu machen. Dies könnte in der Tat einen Paradigmenwechsel für viele Unternehmen bedeuten, da dies die Arbeit mit Daten, deren Verwaltung und den Umgang mit Daten sehr viel einfacher gestalten wird. Beispiele hierfür sind der Aufbau eines Data Mesh (eine Methode zur Organisation von Daten in kleineren, besser handhabbaren Einheiten, oftmals nach fachlicher Kompetenz strukturiert) oder der Aufbau anderer Datenprodukte.

Vorbereitet auf eine datengestützte Zukunft

Die Daten-Management-Systeme haben sich im Laufe der Jahre Schritt für Schritt verbessert, um die Herausforderungen zu bewältigen, die aufgrund einer isolierten Datenhaltung über geschäftliche Funktionen und Plattformen hinweg entstanden sind. Mit dem Aufkommen der Data Lakehouses erleben wir endlich eine bedeutende Entwicklung. Dieser Ansatz ermöglicht nicht nur die nahtlose Nutzung strukturierter und unstrukturierter Daten, sondern bietet Unternehmen auch die Möglichkeit, die Herausforderungen exponentiell wachsender Datenmengen zu bewältigen und gleichzeitig die Kosten im Griff zu behalten. Vor allem aber versprechen Data Lakehouses die Einführung neuer Tools und Ansätze, die es Data-Teams und Anwendern ermöglichen, Dinge anders, schneller und effizienter zu erledigen. Mithilfe von Data Lakehouses können Unternehmen flexibler agieren, fundiertere Prognosen erstellen und aussagekräftigere Erkenntnisse für ihr Wachstum gewinnen.

Artikelfiles und Artikellinks

(ID:49866478)