Nachbericht Data + AI Summit 2021 Databricks führt Delta Live Tables und Datenkatalog ein

Autor / Redakteur: Michael Matzer / Nico Litzel

Databricks, der Erfinder und Betreuer von Apache Spark, hat auf seiner Anwenderkonferenz Data + AI Summit 2021 mehrere Neuerungen für seine Unified Analytics Platform vorgestellt: Delta Live Tables, Unity Catalog, Machine Learning und das Universalprotokoll Delta Sharing.

Firmen zum Thema

Databricks hat auf der Anwenderkonferenz „Data + AI Summit 2021“ Neuerungen für die Unified Analytics Platform angekündigt.
Databricks hat auf der Anwenderkonferenz „Data + AI Summit 2021“ Neuerungen für die Unified Analytics Platform angekündigt.
(Bild: Databricks)

Databricks kündigte auf dem Data + AI Summit zwei neue Innovationen an, die seine Unified Analytics Platform hinsichtlich Zuverlässigkeit, Governance und Skalierung verbessern sollen. Zunächst stellten die Erfinder von Apache Spark „Delta Live Tables“ vor, mit denen sich die Entwicklung und Verwaltung möglichst zuverlässiger Daten-Pipelines auf Delta Lake vereinfachen lassen soll.

Delta Live Tables

Delta Live Tables ist ein Cloud-Service in der Databricks-Plattform, der ETL – Extrahieren, Transformieren und Laden – auf Delta Lake einfach und zuverlässig mache, um so sicherzustellen, dass die Daten bei der Verwendung für Analysen und maschinelles Lernen (ML) sauber und konsistent sind.

Bildergalerie

„Delta Live Tables abstrahiert die üblichen Low-Level-Anweisungen für ETL und beseitigt damit viele potenzielle Fehlerquellen, weil solche Pipelines zerbrechlich sind“, sagte Joel Minnick, Vice President Product Marketing bei Databricks. „Data Engineers spezifizieren mit Delta Live Tables nur die Ergebnisse, die die ETL-Pipeline erreichen muss, indem sie wichtige Programmiersprachen wie SQL verwendet.“ Delta Live Tables erstelle dann automatisch die Anweisungen sowohl für die Datentransformationen als auch für die Datenvalidierungen und implementiere eine einheitliche Fehlerbehandlung. Zusätzlich sei Delta Live Tables in der Lage, Pipelines neu zu starten, um kurzzeitige Fehler zu beheben.

Unity Catalog

Mit „Unity Catalog“ führt Databricks einen einheitlichen Datenkatalog ein. Eine neue Schnittstelle soll es erleichtern, alle Datenbestände eines Unternehmens zu entdecken und zu verwalten, mit einer vollständigen Ansicht der Daten über Clouds und bestehende Kataloge hinweg – natürlich in Databricks' Lakehouse-Plattform.

Unity Catalog bietet ein einziges Sicherheitsmodell – basierend auf ANSI SQL – um die Implementierung zu rationalisieren und die Governance über Clouds hinweg zu standardisieren. Das Tool lasse sich zudem in bestehende Datenkataloge von Alation, Collibra, Privacera und Immuta integrieren, sodass der jeweilige Kunde auf dem Bestehenden aufbauen und ein zukunftssicheres und zentralisiertes Governance-Modell ohne hohe Migrationskosten etablieren könne.

Delta Sharing

Unity Catalog wird von „Delta Sharing“ unterstützt, das laut Databricks weltweit erste offene Protokoll für den sicheren Austausch von Daten zwischen Unternehmen in Echtzeit, völlig unabhängig von der Plattform, auf der sich die Daten befinden. Unternehmen könnten bestehende große Datensätze in den Formaten Apache Parquet und Delta Lake nahtlos und in Echtzeit teilen, ohne sie zu kopieren. „Das Protokoll kann einfach in bestehende Software implementiert werden, die Parquet unterstützt“, sagte Matei Zaharia, Chief Technologist und Co-Gründer von Databricks.

„Delta Sharing soll einen gemeinsamen Standard für die gemeinsame Nutzung aller Datentypen mit einem offenen Protokoll mit API etabliert, das in SQL, Visual-Analytics-Tools und Programmiersprachen wie Python und R verwendet werden kann“, sagte Joel Minnick. Delta Sharing basiere auf Delta Lake 1.0 und profitiere von einem herstellerneutralen Governance-Modell, das von der Linux Foundation unterstützt wird.

Bei neuen Protokollen stellt sich immer die Frage, wie groß die Unterstützung seitens der Industrie ist. Delta Sharing ist Teil des quelloffenen Delta Lake Projekts. „Es wird von Databricks und einer Vielzahl von Daten-Providern wie NASDAQ, NYSE, S&P, Precisely, Factset, Foursquare, SafeGraph sowie von Softwareanbietern wie AWS, Microsoft, Google Cloud und Tableau unterstützt“ so Minnick weiter. Es werde der Linux Foundation übergeben.

Zwei Anwendungsbeispiele

Delta Sharing hebt die Bindung an einen bestimmten Anbieter auf und ermöglicht eine viel breitere und vielfältigere Palette von Anwendungsfällen. Eine akademische Einrichtung und ein Krankenhaussystem, die gemeinsam an der Erforschung von Impfstoffen arbeiten, hätten zum Beispiel eine standardisierte, einfache Möglichkeit, Forschungsdaten sicher auszutauschen und gemeinsam an ihren Ergebnissen zu arbeiten. Sie wären nicht durch proprietäre Datenformate oder unterschiedliche Anwendungen und Tools eingeschränkt und es wäre nicht erforderlich, eine komplexe Einrichtung wie die Installation der gleichen Data-Warehouse-Software in beiden Organisationen vorzunehmen.

Oder ein Hersteller von Triebwerken für Flugzeuge hätte einen Standardweg, um auf Triebwerksleistungsdaten der verschiedenen Fluggesellschaften zuzugreifen, die er beliefert, selbst wenn jede Fluggesellschaft einen anderen Satz von Systemen zur Speicherung und Verwaltung dieser Daten verwendet.

Databricks Machine Learning

Databricks Machine Learning (ML) ist eine offene, kollaborative Plattform für maschinelles Lernen, um den gesamten Daten- und ML-Lebenszyklus zu optimieren. Das KI-Tool basiert auf der Lakehouse-Architektur und soll ML-Teams die Vorbereitung, Verarbeitung und Verwaltung von Daten im Self-Service-Verfahren ermöglichen, sodass sie ML in jeder Größenordnung einsetzen können – vom Experimentieren bis zur Produktion.

Data Scientists könnten die Programmiersprachen und Datentools ihrer Wahl verwenden – von SQL, Python, R und Scala bis hin zu TensorFlow, PyTorch, RStudio und mehr. „Databricks ML bietet eine verwaltete, sichere und skalierbare Plattform, die es Data-Teams einfach macht, von einem Ort aus auf alle Data Science-Projekte zuzugreifen“, so Minnick.

Databricks AutoML

Mit der Einführung neuer AutoML-Funktionen in Databricks Machine Learning sollen Data-Teams nicht nur schnell grundlegende ML-Modelle generieren können, sondern auch den zugrundeliegenden Code bereitstellen, sodass Data Scientists leicht einen unbekannten Datensatz validieren oder die Richtung eines neuen ML-Projekts überprüfen können. Laut Minnick bietet dieser „Glaskasten“-Ansatz für AutoML einen größeren Einblick, wie jedes Modell trainiert wurde und soll es den Anwendern erlauben, Modifikationen basierend auf ihrer Domänenexpertise vorzunehmen. Das soll die Erklärbarkeit der Modelle ebenso fördern wie auch die nötigen Notebooks für die Code-Änderung bereitstellen.

Feature Store

Der Feature Store ist ebenfalls Teil von Databricks Machine Learning. Features sind Funktionen und Attribute, auf die Modelle zurückgreifen, um eine Entscheidung zu treffen. In Teams werden ständig neue Funktionen erzeugt, die konsistent zusammengeführt werden sollten. Dies hilft auch, die sogenannte Modell-Drift zu verhindern, die zu jeweils unterschiedlichen Ergebnissen führt. Beim Erstellen eines Modells kann der Entwickler dann auf den FeatureStore zurückgreifen, um diese Funktionen einzubauen. FeatureStore ist mit MLflow und Delta Lake integriert.

(ID:47442685)

Über den Autor