Databricks erweitert Delta Lake 2.0 und MLflow 2.0

Nachbericht Data + AI Summit Databricks erweitert Delta Lake 2.0 und MLflow 2.0

18.07.2022 Von Michael Matzer

Anbieter zum Thema

Databricks hat seine auf Apache Spark aufbauende Delta-Lake-Plattform nicht nur deutlich ausgebaut, sondern auch alle Neuerungen der Linux Foundation zur Verfügung gestellt. Zu den wichtigsten Neuerungen in Delta Lake 2.0 zählen die Schnittstelle Spark Connect, mit der Benutzer von jedem Gerät aus auf Spark zugreifen können, und MLflow Pipelines für automatisierte Machine-Learning-Projekte

Ali Ghodsi, CEO und Mitgründer von Databricks, stellte in San Francisco die Neuerungen in Delta Lake 2.0 vor. (Bild: Databricks) — Ali Ghodsi, CEO und Mitgründer von Databricks, stellte in San Francisco die Neuerungen in Delta Lake 2.0 vor.
(Bild: Databricks)

Databricks bietet nach den Worten von CEO und Mitgründer Ali Ghodsi eine Analyse-Plattform, die hoch performant sowohl strukturierte Daten wie in einem Data Warehouse, als auch unstrukturierte Daten wie in einem Data Lake verarbeiten kann, und zwar in jedem Bereitstellungsmodell von on-premises bis Multi-Cloud. Daher wird die Integration mit Services der Public Cloud wie etwa AWS S3 zunehmend enger.

„Unsere Kunden möchten Business Intelligence, KI und maschinelles Lernen auf einer Plattform durchführen, auf der sich ihre Daten bereits befinden. Dies erfordert erstklassige Data-Warehousing-Funktionen, die direkt auf ihrem Data Lake ausgeführt werden können. Im Benchmarking mit den höchsten Standards haben wir immer wieder bewiesen, dass die Databricks-Lakehouse-Plattform Datenteams das Beste aus beiden Welten auf einer einfachen, offenen und Multi-Cloud-Plattform bietet.“

Bildergalerie

MLflow umfasst eine komplette Toolchain für die Nutzung von Machine-Learning-Modellen. (Bild: Databricks)

Mit diesem Machine-Learning-Modell werden Listenpreise vorhergesagt.(Bild: Databricks)

Die Neuerungen in Delta Lake 2.0, dessen Release Candidate ab sofort verfügbar ist und das wohl noch bis Jahresende freigegeben wird, hat Databricks der Linux Foundation übergeben. Jim Zemlin, Executive Director der Linux Foundation, gibt an, dass dies eine lebendige Community von über 6.200 Mitgliedern mit mehr als 70 beitragenden Organisationen sei. Zu ihr gehören Uber Technologies, Walmart und CloudBees. „Das Delta Lake-Projekt verzeichnet eine phänomenale Aktivität und Wachstumstrends, die darauf hindeuten, dass die Entwicklergemeinschaft Teil des Projekts sein möchte. Die Zahl der Mitwirkenden ist im letzten Jahr um 60 Prozent gestiegen.“ Offenbar erhofft sich Databricks zu Recht einen deutlichen Wachstumsschub von der Ausweitung dieser Zielgruppe. Deren Beteiligung zeigt sich dann im Databricks Marketplace.

Neuerungen in Delta Lake 2.0

Databricks SQL Serverless, das in der Vorschau auf AWS verfügbar ist, verspricht „sofortige, sichere und vollständig verwaltete elastische Rechenleistung für verbesserte Leistung zu geringeren Kosten“. Diese Vorteile lassen sich unter anderem auf der entsprechenden AWS-Webseite nachlesen.

Photon, die Abfrage-Engine für Lakehouse-Systeme, soll in den kommenden Wochen allgemein auf „Databricks Workspaces“ verfügbar sein und damit die Reichweite von Photon auf der Plattform weiter ausbauen. In den zwei Jahren seit der Ankündigung von Photon wurden Exabytes an Daten verarbeitet, Milliarden von Abfragen ausgeführt und ein Benchmark-Preis/Leistungsverhältnis erzielt, das bis zu zwölf Mal besser sein soll als das traditioneller Cloud Data Warehouses.

Open-Source-Konnektoren für Go, Node.js und Python sollen es vereinfachen, von operativen Anwendungen aus auf das Lakehouse zuzugreifen. Databricks SQL CLI (Command Line Interface) soll es Entwicklern und Analysten erlauben, Abfragen direkt von ihren lokalen Computern aus auszuführen

Databricks SQL wurde in den vergangenen Jahren stark ausgebaut. Die Funktion bietet in Delta Lake 2.0 das Leistungsmerkmal „Query Federation“ und damit die Möglichkeit, Remote-Datenquellen wie PostgreSQL, MySQL, AWS Redshift und andere abzufragen, ohne dass die Daten zunächst aus den Quellsystemen extrahiert und geladen werden müssen. Das Feature dürfte helfen, eine Menge Netz-Traffic zu sparen.

Der angekündigte „Unity Catalog“ ist jetzt allgemein auf AWS und Microsoft Azure verfügbar und bietet eine zentralisierte Governance-Lösung für alle Daten und KI-Assets, mit integrierter Suche und Erkennung, automatisierter Datenabfolge für alle Workloads sowie Leistung und Skalierbarkeit für ein Lakehouse in jeder Cloud. Darüber hinaus hat Databricks die Funktion „Data Lineage“ für Unity Catalog eingeführt. Dieser „Stammbaum“ für Daten soll die Data-Governance-Funktionen im Lakehouse erheblich erweitern und Unternehmen einen vollständigen Überblick über den gesamten Lifecycle von Daten erlauben.

Mit „Spark Connect“ hat Databricks eine Client- und Server-Schnittstelle für Apache Spark eingeführt, die auf der DataFrame-API basiert. Spark Connect soll die Client und Server zum Vorteil einer besseren Stabilität entkoppeln und eine integrierte Remote-Konnektivität ermöglichen. „Mit Spark Connect können Benutzer von jedem Gerät aus auf Spark zugreifen“, sagte Marketingleiter Joe Minnick.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Marketplace Cleanrooms

Mit Databricks Marketplace hat der Spark-Erfinder einen offenen Marktplatz für Daten und KI für die Bündelung und den Vertrieb von Daten und Analysewerten gegründet. Databricks Marketplace wird von Delta Sharing unterstützt, was es Anbietern ermöglicht, Daten aus einer einzigen Quelle an andere Clouds, Tools und Plattformen zu liefern.

Databricks unterstützt seine Kunden auch bei der gemeinsamen Nutzung von Daten und der Zusammenarbeit über Unternehmensgrenzen hinweg. Data Cleanrooms sollen eine Option bieten, Daten in einer sicheren, gehosteten Umgebung und ohne Datenreplikation über Unternehmensgrenzen hinweg auszutauschen und zu verknüpfen, wobei der Datenschutz im Vordergrund steht.

„Mit Databricks Cleanrooms können Unternehmen problemlos mit Kunden und Partnern in jeder beliebigen Cloud zusammenarbeiten und ihnen die Flexibilität bieten, komplexe Berechnungen und Workloads sowohl mit SQL als auch mit Data-Science-basierten Tools – einschließlich Python, R und Scala – auszuführen, und zwar mit konsistenten Datenschutzkontrollen“, sagte Minnick. Der Aspekt des Datenschutzes und der Datensicherheit war ihm sehr wichtig.

MLflow 2.0

MLOps ist ein zunehmend wichtiges Aktivitätsfeld für die Nutzung von Machine Learning, denn es erlaubt es, sowohl die Datenbereitstellung (Reinigung, Formatierung, Verteilung usw.) als auch die Modellnutzung und -wartung zu automatisieren. Databricks MLflow ist ein zunehmend beliebtes Framework, um diese mühsamen Arbeiten zu erledigen.

MLflow Pipelines, ermöglicht durch MLflow 2.0, kümmert sich nun um die operativen Details für die Benutzer. Anstatt die Orchestrierung von Notebooks (Jupyter usw.) einzurichten, können Benutzer einfach die Elemente der Pipeline in einer Konfigurationsdatei definieren, und MLflow Pipelines verwaltet die Ausführung automatisch.

MLflow Pipelines bietet Datenwissenschaftlern vordefinierte, produktionsfertige Vorlagen, die auf dem Modelltyp basieren, den sie erstellen, um ihnen ein zuverlässiges Bootstrapping zu ermöglichen und die Modellentwicklung zu beschleunigen, ohne dass die Produktionsingenieure eingreifen müssen. „Das neue Feature macht MLOps einfacher und schneller“, erläutert Joe Minnick.

Über MLflow hinaus hat Databricks auch Serverless Model Endpoints hinzugefügt, um das Hosting von Produktionsmodellen direkt zu unterstützen, sowie integrierte Model Monitoring Dashboards, um Teams bei der Analyse der realen Modellleistung zu unterstützen.

ETL-Optimierung

Delta Live Tables (DLT) ist das erste ETL-Framework, das einen einfachen, deklarativen Ansatz für den Aufbau zuverlässiger Datenpipelines verwendet. Die Einführung einer neuen Leistungsoptimierungsschicht, die die Ausführung von ETL-Prozessen (Extraktion, Laden Transformation) beschleunigen und die Kosten senken soll.

Darüber hinaus wurde das neue Enhanced Autoscaling speziell für die intelligente Skalierung von Ressourcen mit den Schwankungen von Streaming-Workloads entwickelt. Autoscaling vereinfacht die Automatisierung von Workloads, die Schwankungen unterliegen. Der Admin braucht sich nicht darum zu kümmern, denn ein Algorithmus sorgt für die passende Skalierung.

Das Leistungsmerkmal „Change Data Capture (CDC) für Slowly Changing Dimensions – Type 2“ verfolgt jede Änderung in Quelldaten sowohl für Compliance- als auch für Machine Learning-Experimente. Besonders die Belange von Rechtskonformität (Compliance) und Data Governance sind hierbei wichtig, denn kein CFO will sich beim nächsten Audit dabei erwischen lassen, unautorisierte Daten zu verwenden.

Projekt Lightspeed

In Zusammenarbeit mit der Spark-Community hat Databricks außerdem „Project Lightspeed“ angekündigt, die nächste Generation der Spark-Streaming-Engine. Diese Streaming Engine gehört fast von Anfang zum Funktionsumfang von Apache Spark. „Mit der zunehmenden Vielfalt von Anwendungen, die sich mit Streaming-Daten beschäftigen, sind neue Anforderungen entstanden, um die am meisten nachgefragten Daten-Workloads für Lakehouse, das Daten-Streaming, zu unterstützen“, erläuterte Joe Minnick.

„Spark Structured Streaming“ habe sich seit den Anfängen des Streaming aufgrund seiner Benutzerfreundlichkeit, Leistung, seines großen Ökosystems und seiner Entwickler Communities durchgesetzt. In diesem Sinne wolle Databricks laut Minnick mit der Community zusammenarbeiten und die Teilnahme am Projekt Lightspeed ((https://databricks.com/product/open-source)) fördern, um die Leistung zu verbessern, das Ökosystem für Konnektoren zu unterstützen, die Funktionalität für die Verarbeitung von Daten mit neuen Operatoren und APIs zu erweitern und die Bereitstellung, den Betrieb, die Überwachung und die Fehlerbehebung zu vereinfachen.

Im Gespräch erwähnte Minnick das Messaging-System Apache Pulsar, das es erlaubt Messages über verschiedene Standorte hinweg rasch zu replizieren.

(ID:48455697)