Delta Lake mit UniForm für Apache Iceberg und Apache Hudi Databricks vereinheitlicht die Speicherformate für Lakehouses

Von Bernhard Lück Lesedauer: 3 min |

Anbieter zum Thema

Mit der Veröffentlichung von Delta Lake 3.0 führt Databricks das Universal Format (UniForm) ein. UniForm mache die Wahl eines offenen Datenformats überflüssig, zudem würden wegen der automatischen Unterstützung für Apache Iceberg und Apache Hudi Kompatibilitätsprobleme beseitigt.

Mit UniForm könne Delta Lake 3.0 automatisch Metadaten generieren, die für Apache Iceberg und Apache Hudi benötigt werden, und so die Tabellenformate vereinheitlichen.
Mit UniForm könne Delta Lake 3.0 automatisch Metadaten generieren, die für Apache Iceberg und Apache Hudi benötigt werden, und so die Tabellenformate vereinheitlichen.
(Bild: Databricks)

„Kunden sollten nicht durch die Wahl des Formats eingeschränkt werden. Mit dieser neuesten Version von Delta Lake ermöglichen wir es Anwendern, problemlos mit allen Dateiformaten zu arbeiten, die sie wollen, einschließlich Iceberg und Hudi, und gleichzeitig die branchenführende Geschwindigkeit und Skalierbarkeit von Delta Lake zu nutzen“, sagt Ali Ghodsi, Mitbegründer und CEO von Databricks.

Databricks zufolge führen Unternehmen die Data-Lakehouse-Architektur rasch ein, um sich von teuren, proprietären Data Warehouses zu lösen, die nur begrenzte Funktionalität bieten und fortschrittliche Anwendungsfälle wie generative KI nicht unterstützen. Bislang hätten datengesteuerte Unternehmen, die sich auf ein Lakehouse umstellen, ihre Optionen abwägen und zwischen drei verschiedenen offenen Tabellenformaten wählen müssen. Mit UniForm könnten sich Kunden in Richtung Interoperabilität bewegen und von einem kombinierten Ökosystem von Tools profitieren, die von Delta, Iceberg und Hudi auslesen.

Delta Lake 3.0 soll es Unternehmen weltweit ermöglichen, auf die gesamte Bandbreite ihrer Unternehmensdaten zuzugreifen: Egal, ob strukturierte oder unstrukturierte, ob Transaktions- oder Streaming-Daten und unabhängig davon, welches Format. Die neuen Funktionen umfassen:

  • Delta Universal Format (UniForm): In Delta gespeicherte Daten könnten jetzt so gelesen werden, als wären sie in Iceberg oder Hudi gespeichert. Mit UniForm könne Delta automatisch Metadaten generieren, die für Iceberg oder Hudi benötigt werden, und so die Tabellenformate vereinheitlichen. Benutzer müssten daher nicht mehr zwischen den Formaten wählen oder sie manuell umwandeln. Unternehmen könnten auf Delta als universelles Format setzen, da es in allen Ökosystemen funktioniere und skalierbar sei.
  • Delta Kernel: Um der Fragmentierung der Konnektoren entgegenzuwirken, stelle der Kernel sicher, dass die Konnektoren auf einer Delta-Kernbibliothek aufbauen, die die Delta-Spezifikationen implementiert. So müssten die Benutzer die Delta-Konnektoren nicht mehr bei jeder neuen Version oder Protokolländerung aktualisieren. Mit einer stabilen API als Grundlage für den Code seien Entwickler im Delta-Ökosystem in der Lage, ihre Konnektoren nahtlos mit den zuletzt erschienenen Delta-Innovationen auf dem neuesten Stand zu halten, ohne die Konnektoren überarbeiten zu müssen. Im Gegenzug könnten die Benutzer schnell die aktuellen Delta-Funktionen und -Updates nutzen.
  • Delta Liquid Clustering: Eine der häufigsten Herausforderungen bei der Implementierung von Datenanwendungsfällen betreffe die Leistung bei Lese- und Schreibvorgängen. Die Einführung von Liquid Clustering sei ein innovativer Sprung von der jahrzehntealten Tabellenpartitionierung im Hive-Stil, die ein festes Datenlayout verwendet. Delta Lake führe ein flexibles Datenlayoutverfahren ein, das ein kosteneffizientes Datenclustering bei wachsendem Datenvolumen möglich mache und Unternehmen dabei helfe, ihre Anforderungen an die Lese- und Schreibleistung zu erfüllen.

Delta Lake helfe Unternehmen, Daten aus Hunderten von unterschiedlichen Systemen zu nutzen, um sie für Einblicke, Berichte und den Aufbau von KI-Modellen zu analysieren. Delta Lake sei das einzige offene Format mit integrierter Unterstützung für Delta Sharing, dem offenen Standard für den sicheren Datenaustausch, der ein offenes Datenökosystem fördert, das von der plattform-, cloud- und regionenübergreifenden Zusammenarbeit profitiert. Databricks zufolge tauschen heute über 6.000 aktive Datennutzer täglich mehr als 300 Petabyte an Daten aus.

Delta Lake 3.0 ist als Teil des Delta-Lake-Projekts der Linux Foundation in der Vorschau verfügbar.

(ID:49589668)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung