Nachbericht Data + AI Summit Databricks erweitert Delta Lake 2.0 und MLflow 2.0

Von Michael Matzer |

Anbieter zum Thema

Databricks hat seine auf Apache Spark aufbauende Delta-Lake-Plattform nicht nur deutlich ausgebaut, sondern auch alle Neuerungen der Linux Foundation zur Verfügung gestellt. Zu den wichtigsten Neuerungen in Delta Lake 2.0 zählen die Schnittstelle Spark Connect, mit der Benutzer von jedem Gerät aus auf Spark zugreifen können, und MLflow Pipelines für automatisierte Machine-Learning-Projekte

Ali Ghodsi, CEO und Mitgründer von Databricks, stellte in San Francisco die Neuerungen in Delta Lake 2.0 vor.
Ali Ghodsi, CEO und Mitgründer von Databricks, stellte in San Francisco die Neuerungen in Delta Lake 2.0 vor.
(Bild: Databricks)

Databricks bietet nach den Worten von CEO und Mitgründer Ali Ghodsi eine Analyse-Plattform, die hoch performant sowohl strukturierte Daten wie in einem Data Warehouse, als auch unstrukturierte Daten wie in einem Data Lake verarbeiten kann, und zwar in jedem Bereitstellungsmodell von on-premises bis Multi-Cloud. Daher wird die Integration mit Services der Public Cloud wie etwa AWS S3 zunehmend enger.

„Unsere Kunden möchten Business Intelligence, KI und maschinelles Lernen auf einer Plattform durchführen, auf der sich ihre Daten bereits befinden. Dies erfordert erstklassige Data-Warehousing-Funktionen, die direkt auf ihrem Data Lake ausgeführt werden können. Im Benchmarking mit den höchsten Standards haben wir immer wieder bewiesen, dass die Databricks-Lakehouse-Plattform Datenteams das Beste aus beiden Welten auf einer einfachen, offenen und Multi-Cloud-Plattform bietet.“

Bildergalerie

Die Neuerungen in Delta Lake 2.0, dessen Release Candidate ab sofort verfügbar ist und das wohl noch bis Jahresende freigegeben wird, hat Databricks der Linux Foundation übergeben. Jim Zemlin, Executive Director der Linux Foundation, gibt an, dass dies eine lebendige Community von über 6.200 Mitgliedern mit mehr als 70 beitragenden Organisationen sei. Zu ihr gehören Uber Technologies, Walmart und CloudBees. „Das Delta Lake-Projekt verzeichnet eine phänomenale Aktivität und Wachstumstrends, die darauf hindeuten, dass die Entwicklergemeinschaft Teil des Projekts sein möchte. Die Zahl der Mitwirkenden ist im letzten Jahr um 60 Prozent gestiegen.“ Offenbar erhofft sich Databricks zu Recht einen deutlichen Wachstumsschub von der Ausweitung dieser Zielgruppe. Deren Beteiligung zeigt sich dann im Databricks Marketplace.

Neuerungen in Delta Lake 2.0

Databricks SQL Serverless, das in der Vorschau auf AWS verfügbar ist, verspricht „sofortige, sichere und vollständig verwaltete elastische Rechenleistung für verbesserte Leistung zu geringeren Kosten“. Diese Vorteile lassen sich unter anderem auf der entsprechenden AWS-Webseite nachlesen.

Photon, die Abfrage-Engine für Lakehouse-Systeme, soll in den kommenden Wochen allgemein auf „Databricks Workspaces“ verfügbar sein und damit die Reichweite von Photon auf der Plattform weiter ausbauen. In den zwei Jahren seit der Ankündigung von Photon wurden Exabytes an Daten verarbeitet, Milliarden von Abfragen ausgeführt und ein Benchmark-Preis/Leistungsverhältnis erzielt, das bis zu zwölf Mal besser sein soll als das traditioneller Cloud Data Warehouses.

Open-Source-Konnektoren für Go, Node.js und Python sollen es vereinfachen, von operativen Anwendungen aus auf das Lakehouse zuzugreifen. Databricks SQL CLI (Command Line Interface) soll es Entwicklern und Analysten erlauben, Abfragen direkt von ihren lokalen Computern aus auszuführen

Databricks SQL wurde in den vergangenen Jahren stark ausgebaut. Die Funktion bietet in Delta Lake 2.0 das Leistungsmerkmal „Query Federation“ und damit die Möglichkeit, Remote-Datenquellen wie PostgreSQL, MySQL, AWS Redshift und andere abzufragen, ohne dass die Daten zunächst aus den Quellsystemen extrahiert und geladen werden müssen. Das Feature dürfte helfen, eine Menge Netz-Traffic zu sparen.

Der angekündigte „Unity Catalog“ ist jetzt allgemein auf AWS und Microsoft Azure verfügbar und bietet eine zentralisierte Governance-Lösung für alle Daten und KI-Assets, mit integrierter Suche und Erkennung, automatisierter Datenabfolge für alle Workloads sowie Leistung und Skalierbarkeit für ein Lakehouse in jeder Cloud. Darüber hinaus hat Databricks die Funktion „Data Lineage“ für Unity Catalog eingeführt. Dieser „Stammbaum“ für Daten soll die Data-Governance-Funktionen im Lakehouse erheblich erweitern und Unternehmen einen vollständigen Überblick über den gesamten Lifecycle von Daten erlauben.

Mit „Spark Connect“ hat Databricks eine Client- und Server-Schnittstelle für Apache Spark eingeführt, die auf der DataFrame-API basiert. Spark Connect soll die Client und Server zum Vorteil einer besseren Stabilität entkoppeln und eine integrierte Remote-Konnektivität ermöglichen. „Mit Spark Connect können Benutzer von jedem Gerät aus auf Spark zugreifen“, sagte Marketingleiter Joe Minnick.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Marketplace Cleanrooms

Mit Databricks Marketplace hat der Spark-Erfinder einen offenen Marktplatz für Daten und KI für die Bündelung und den Vertrieb von Daten und Analysewerten gegründet. Databricks Marketplace wird von Delta Sharing unterstützt, was es Anbietern ermöglicht, Daten aus einer einzigen Quelle an andere Clouds, Tools und Plattformen zu liefern.

Databricks unterstützt seine Kunden auch bei der gemeinsamen Nutzung von Daten und der Zusammenarbeit über Unternehmensgrenzen hinweg. Data Cleanrooms sollen eine Option bieten, Daten in einer sicheren, gehosteten Umgebung und ohne Datenreplikation über Unternehmensgrenzen hinweg auszutauschen und zu verknüpfen, wobei der Datenschutz im Vordergrund steht.

„Mit Databricks Cleanrooms können Unternehmen problemlos mit Kunden und Partnern in jeder beliebigen Cloud zusammenarbeiten und ihnen die Flexibilität bieten, komplexe Berechnungen und Workloads sowohl mit SQL als auch mit Data-Science-basierten Tools – einschließlich Python, R und Scala – auszuführen, und zwar mit konsistenten Datenschutzkontrollen“, sagte Minnick. Der Aspekt des Datenschutzes und der Datensicherheit war ihm sehr wichtig.

MLflow 2.0

MLOps ist ein zunehmend wichtiges Aktivitätsfeld für die Nutzung von Machine Learning, denn es erlaubt es, sowohl die Datenbereitstellung (Reinigung, Formatierung, Verteilung usw.) als auch die Modellnutzung und -wartung zu automatisieren. Databricks MLflow ist ein zunehmend beliebtes Framework, um diese mühsamen Arbeiten zu erledigen.

MLflow Pipelines, ermöglicht durch MLflow 2.0, kümmert sich nun um die operativen Details für die Benutzer. Anstatt die Orchestrierung von Notebooks (Jupyter usw.) einzurichten, können Benutzer einfach die Elemente der Pipeline in einer Konfigurationsdatei definieren, und MLflow Pipelines verwaltet die Ausführung automatisch.

MLflow Pipelines bietet Datenwissenschaftlern vordefinierte, produktionsfertige Vorlagen, die auf dem Modelltyp basieren, den sie erstellen, um ihnen ein zuverlässiges Bootstrapping zu ermöglichen und die Modellentwicklung zu beschleunigen, ohne dass die Produktionsingenieure eingreifen müssen. „Das neue Feature macht MLOps einfacher und schneller“, erläutert Joe Minnick.

Über MLflow hinaus hat Databricks auch Serverless Model Endpoints hinzugefügt, um das Hosting von Produktionsmodellen direkt zu unterstützen, sowie integrierte Model Monitoring Dashboards, um Teams bei der Analyse der realen Modellleistung zu unterstützen.

ETL-Optimierung

Delta Live Tables (DLT) ist das erste ETL-Framework, das einen einfachen, deklarativen Ansatz für den Aufbau zuverlässiger Datenpipelines verwendet. Die Einführung einer neuen Leistungsoptimierungsschicht, die die Ausführung von ETL-Prozessen (Extraktion, Laden Transformation) beschleunigen und die Kosten senken soll.

Darüber hinaus wurde das neue Enhanced Autoscaling speziell für die intelligente Skalierung von Ressourcen mit den Schwankungen von Streaming-Workloads entwickelt. Autoscaling vereinfacht die Automatisierung von Workloads, die Schwankungen unterliegen. Der Admin braucht sich nicht darum zu kümmern, denn ein Algorithmus sorgt für die passende Skalierung.

Das Leistungsmerkmal „Change Data Capture (CDC) für Slowly Changing Dimensions – Type 2“ verfolgt jede Änderung in Quelldaten sowohl für Compliance- als auch für Machine Learning-Experimente. Besonders die Belange von Rechtskonformität (Compliance) und Data Governance sind hierbei wichtig, denn kein CFO will sich beim nächsten Audit dabei erwischen lassen, unautorisierte Daten zu verwenden.

Projekt Lightspeed

In Zusammenarbeit mit der Spark-Community hat Databricks außerdem „Project Lightspeed“ angekündigt, die nächste Generation der Spark-Streaming-Engine. Diese Streaming Engine gehört fast von Anfang zum Funktionsumfang von Apache Spark. „Mit der zunehmenden Vielfalt von Anwendungen, die sich mit Streaming-Daten beschäftigen, sind neue Anforderungen entstanden, um die am meisten nachgefragten Daten-Workloads für Lakehouse, das Daten-Streaming, zu unterstützen“, erläuterte Joe Minnick.

„Spark Structured Streaming“ habe sich seit den Anfängen des Streaming aufgrund seiner Benutzerfreundlichkeit, Leistung, seines großen Ökosystems und seiner Entwickler Communities durchgesetzt. In diesem Sinne wolle Databricks laut Minnick mit der Community zusammenarbeiten und die Teilnahme am Projekt Lightspeed ((https://databricks.com/product/open-source)) fördern, um die Leistung zu verbessern, das Ökosystem für Konnektoren zu unterstützen, die Funktionalität für die Verarbeitung von Daten mit neuen Operatoren und APIs zu erweitern und die Bereitstellung, den Betrieb, die Überwachung und die Fehlerbehebung zu vereinfachen.

Im Gespräch erwähnte Minnick das Messaging-System Apache Pulsar, das es erlaubt Messages über verschiedene Standorte hinweg rasch zu replizieren.

(ID:48455697)