Gemeinsame Vision des Open Lakehouse Databricks kauft Tabular

Von Bernhard Lück 4 min Lesedauer

Anbieter zum Thema

Databricks übernimmt das von Ryan Blue, Daniel Weeks und Jason Reid gegründete Unternehmen Tabular. Die Zusammenführung der Erfinder der Open-Source-Lakehouse-Formate Linux Foundation Delta Lake und Apache Iceberg soll Databricks zum Vorreiter bei der Datenkompatibilität machen.

Databricks-CEO Ali Ghodsi: „Databricks und Tabular werden mit der Open-Source-Community zusammenarbeiten, um Delta Lake und Iceberg im Laufe der Zeit einander anzunähern.“(Bild:  Databricks)
Databricks-CEO Ali Ghodsi: „Databricks und Tabular werden mit der Open-Source-Community zusammenarbeiten, um Delta Lake und Iceberg im Laufe der Zeit einander anzunähern.“
(Bild: Databricks)

Databricks beabsichtigt, eng mit den Delta-Lake- und Iceberg-Communities zusammenzuarbeiten, um Formatkompatibilität in das Lakehouse zu bringen – kurzfristig innerhalb von Delta Lake UniForm und langfristig durch die Entwicklung eines einzigen, offenen und gemeinsamen Standards für Interoperabilität. Databricks und Tabular arbeiten zusammen an einer gemeinsamen Vision des Open Lakehouse. Unternehmen würden dann nicht mehr durch das jeweilige Datenformat eingeschränkt sein.

Lakehouse-Architektur und inkompatible Formate

Databricks leistete im Jahr 2020 Pionierarbeit mit der Lakehouse-Architektur, um die Integration traditioneller Data-Warehousing-Workloads mit KI-Workloads auf einer einzigen, verwalteten Kopie der Daten zu ermöglichen. Alle Daten müssen in einem offenen Format vorliegen, damit verschiedene Workloads, Anwendungen und Engines auf dieselben Daten zugreifen können. Die Lakehouse-Architektur maximiert die Unternehmensproduktivität, indem sie den Zugang zu den Daten demokratisiert. Dies steht im Gegensatz zu proprietären Data Warehouses, bei denen nur eine proprietäre SQL-Engine die Daten lesen, schreiben oder gemeinsam nutzen kann. Hier müssen die Daten oft kopiert und exportiert werden, um von anderen Anwendungen genutzt werden zu können. Dies führt zu einem hohen Grad an Anbieterbindung. Vier Jahre später haben 74 Prozent der Unternehmen eine Lakehouse-Architektur implementiert.

Die Grundlage des Lakehouse bilden Open-Source-Datenformate, die ACID-Transaktionen für in Objektspeichern gespeicherte Daten ermöglichen. Diese Formate verbessern die Zuverlässigkeit und Leistung von Datenoperationen im Data Lake erheblich und wurden speziell für Open-Source-Engines wie Apache Spark, Trino und Presto entwickelt. Um diese Herausforderungen zu bewältigen, hat Databricks in Zusammenarbeit mit der Linux Foundation das Delta-Lake-Projekt ins Leben gerufen. Seit seiner Gründung hat Delta Lake mehr als 500 Mitwirkende aus einer Vielzahl von Organisationen gewinnen können. Mehr als 10.000 Unternehmen weltweit nutzen Delta Lake, um durchschnittlich mehr als vier Exabyte Daten pro Tag zu verarbeiten.

Etwa zur gleichen Zeit, als Delta Lake entstand, entwickelten Ryan Blue und Daniel Weeks das Iceberg-Projekt bei Netflix und übergaben es der Apache Software Foundation. Seitdem haben sich Delta Lake und Iceberg zu den beiden führenden Open-Source-Standards für Lakehouse-Formate entwickelt. Obwohl beide Formate auf Apache Parquet basieren und ähnliche Ziele und Entwürfe verfolgen, wurden sie aufgrund ihrer unabhängigen Entwicklung inkompatibel. Im Laufe der Zeit haben eine Reihe von anderen Open-Source- und proprietären Engines diese Formate übernommen. Sie übernahmen jedoch in der Regel nur einen der Standards und meistens nur einen Teil dieses Standards, was zu fragmentierten und siloartigen Unternehmensdaten führte und den Wert der Lakehouse-Architektur untergrub.

Der Weg zur Interoperabilität

Unternehmen benötigen Dateninteroperabilität, um die Vorteile des Lakehouse zu nutzen. Databricks wird eng mit den Delta Lake und Iceberg Communities zusammenarbeiten, um die Interoperabilität der Formate mit der Zeit zu erreichen. Dies ist ein langer Weg, der in diesen Communities wahrscheinlich mehrere Jahre dauern wird. Aus diesem Grund hat Databricks letztes Jahr Delta Lake UniForm eingeführt. UniForm-Tabellen bieten Interoperabilität zwischen Delta Lake, Iceberg und Hudi und unterstützen die Iceberg-Restful-Catalog-Schnittstelle, sodass Unternehmen die Analyse-Engines und -Tools, mit denen sie bereits vertraut sind, für alle ihre Daten nutzen können. UniForm ist allgemein verfügbar und ermöglicht es Unternehmen, Kompatibilität zu erreichen. Mit der Ergänzung durch das ursprüngliche Iceberg-Team wird Databricks die Ambitionen von Delta Lake UniForm erheblich erweitern.

„Databricks war der Pionier der Lakehouse-Architektur, und in den letzten vier Jahren hat die Welt die Lakehouse-Architektur angenommen, die das Beste aus Data Warehouses und Data Lakes kombiniert, um Unternehmen dabei zu unterstützen, die Gesamtbetriebskosten zu senken, die Offenheit zu fördern und KI-Projekte schneller umzusetzen. Leider hat sich das Lakehouse-Paradigma zwischen den beiden beliebtesten Formaten gespalten: Delta Lake und Iceberg. Databricks und Tabular werden mit der Open-Source-Community zusammenarbeiten, um die beiden Formate im Laufe der Zeit einander anzunähern, die Offenheit zu erhöhen und Silos und Reibungsverluste für Kunden zu reduzieren“, sagt Ali Ghodsi, Mitbegründer und CEO von Databricks. „Letztes Jahr haben wir Delta Lake UniForm angekündigt, um Interoperabilität zwischen diesen beiden Formaten zu schaffen, und wir freuen uns nun, die führenden Anbieter von offenen Data-Lakehouse-Formaten zusammenzubringen, um UniForm zur Vereinheitlichung von Daten für jeden Workload bereitzustellen.“

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

„Wir haben Apache Iceberg entwickelt, um kritische Datenprobleme in Bezug auf Korrektheit, Leistung und Skalierbarkeit zu lösen. Mit Erstaunen haben wir gesehen, wie sowohl Iceberg als auch Delta Lake massiv an Popularität gewonnen haben, was vor allem darauf zurückzuführen ist, dass Open Lakehouse zum Industriestandard geworden ist. Mit dem Beitritt von Tabular zu Databricks beabsichtigen wir, die beste Datenmanagement-Plattform auf der Basis offener Lakehouse Formate zu entwickeln, sodass sich Unternehmen keine Gedanken über die Wahl des „richtigen“ Formats machen müssen oder in proprietären Datenformaten gefangen sind“, sagt Ryan Blue, Mitbegründer und CEO von Tabular.

(ID:50059003)