Nachbericht Databricks Data + AI World Tour in München Lakehouse-Technologie und neue KI-ML-Funktionen treiben globalen Erfolg voran
Anbieter zum Thema
Der ML- und Big-Data-Spezialist Databricks expandiert stark. Nun rief er zur Data + AI World Tour in die Münchner Eisbach-Studios. Dort gab es eine Zusammenfassung der Neuerungen des Jahres, eine Ausstellung und viele weitere Informationen.

Mehr als 900 Besucher und Besucherinnen kamen Anfang November in die Eisbach-Studios in der Münchner Peripherie zur Data + AI World Tour von Databricks. Das Unternehmen erfand vor einigen Jahren den Begriff Lakehouse, technologisch eine Mischung aus Data Lake und Data Warehouse, und ist damit sehr erfolgreich. Der Vorteil: Daten müssen nicht mehr zwischen Warehouse und Data Lake hin und her kopiert werden.
Das wird mit Wachstum belohnt. Die Zahl der Angestellten in Zentraleuropa legte innerhalb von nur vier Jahren auf mehr als 200 zu. Über 150 davon sitzen in Deutschland – unter anderem an den Standorten München und Berlin, ein weiterer Standort ist Zürich in der Schweiz. Ein Frankfurter Büro ist als nächstes in Planung.
Weltweit arbeiten inzwischen 6.000 Mitarbeiter für Databricks. Sie beliefern 10.000 Unternehmenskunden. In Deutschland kommen die vorwiegend aus dem gehobenen Mittelstand und Großunternehmen.
Sportliche Bewertung
Über Umsätze spricht Databricks nicht, in einigen Internet-Wirtschaftsmedien finden sich aber Informationen dazu. Demnach setzte Databricks im Februar 2022 etwa 800 Millionen US-Dollar um. Gleichzeitig wird das Unternehmen mit 43 Milliarden US-Dollar bewertet, was selbst angesichts der attraktiven Produkte und der steilen Wachstumskurve sehr sportlich ist.
Der gegenwärtige Drang zur Datenanalyse spielt dem Anbieter in die Hände. „In 88 Prozent der Unternehmen investiert die Geschäftsführungsebene in generative AI“, sagte Frank Boenig, Vice Präsident und Regionalverantwortlicher für Zentraleuropa in seiner Begrüßungsrede.
Auch Roman Pritzkow, Regionalverantwortlicher für den deutschsprachigen Raum, betonte im Interview mit BigData-Insider: „Unser Geschäft entwickelt sich dramatisch positiv.“ Das Plattform-agnostische Multi-Cloud-Modell von Databricks werde von den Kunden geschätzt, die sich liebend gern aus der Abhängigkeit von „ihrem“ Cloud-Provider befreien wollten.
Demokratisierte Datennutzung
Databricks sei mit dem Ziel angetreten, die Datenanalyse zu „demokratisieren“, betonte David Meyer, Senior Vice President Databricks. Dem komme man durch LLMs näher, denn „die heißeste Programmiersprache ist einfach die Sprache, die man spricht.“
Schon im Sommer des Jahres hatte Databricks GenAI-bezogene Erweiterungen von Lakehouse und Unity-Datenkatalog auf seiner weltweiten Tagung in den USA angekündigt, weshalb sie hier nicht näher beschrieben werden.
:quality(80)/p7i.vogel.de/wcms/1f/49/1f49b2b67d70d24577f00f4d365d9d02/0112610611.jpeg)
Delta Lake mit UniForm für Apache Iceberg und Apache Hudi
Databricks vereinheitlicht die Speicherformate für Lakehouses
Seitdem sind aber weitere Neuerungen hinzugekommen. So stehen Delta Live Tables (DLT) seit August in der Google Cloud zur Verfügung. Damit lassen sich Cloud-übergreifende Datenpipelines aufbauen, die auch Streaming-Daten umfassen.
Daten-Sharing mit Datenschutz
Mit Delta Sharing über den Databricks-Marketplace können Anwender jetzt von gemeinsamer Datennutzung in AI und ML profitieren, ohne den Datenschutz dafür aufgeben zu müssen. Dafür sorgt ein spezielles Protokoll. Alle Databricks-Kunden können die Funktion nutzen, die auf Delta-Sharing basiert. Inzwischen haben bereits 90 Provider Daten zugänglich gemacht.
:quality(80)/p7i.vogel.de/wcms/2a/39/2a39c2bb40cc6a20bda8244371a08b38/0112686843.jpeg)
Lakehouse-AI-Ansatz wird ausgebaut
Databricks kündigt Tools für generative KI an
Auf dem Online-Marktplatz finden sich auch branchenspezifische Module, die den Aufbau von Lösungen beschleunigen sollen. Sie enthalten vorprogrammierten Code, Beispieldaten und weitere hilfreiche Werkzeuge. Adressiert werden Gesundheitswesen und Biowissenschaften, Kommunikation, Medien, Unterhaltung, Einzelhandel, Konsumgüter und produzierende Betriebe.
Ebenfalls neu auf dem Marketplace sind die Llama-2-Basismodelle. Sie können in Lakehouse AI integriert werden.
KI-generierte Dokumentation
Als Public Preview gibt es für den Unity-Datenkatalog eine KI-generierte Dokumentation. Die Funktion fügt automatisch Beschreibungen und Kommentare, also Metadaten, zu Tabellen und Tabellenspalten hinzu. Diese können anschließend von Anwendern gelesen und verändert werden. Das Verfahren soll die sonst zeitraubende Metadaten-Generierung erheblich beschleunigen und mehr Transparenz in den Datendschungel bringen.
:quality(80)/p7i.vogel.de/wcms/50/8d/508dbfebc868a8895dc4384478cfb19f/0112749384.jpeg)
Natural Language Interface LakehouseIQ angekündigt
Databricks macht Datenanalyse für jeden zugänglich
Diverse neue Funktionen des Unity Catalog vereinfachen die Integration zwischen der Erstellung von ML-Applikationen und ihrem Betrieb (MLOps). So können Modelle aus einer großen Modelldatenbank direkt in den Katalog geladen und auch bewertet werden. Der Verlauf des gesamten ML-Lebenszyklus einschließlich der Daten (Lineage) lässt sich nun bruchlos verfolgen. Das vereinfacht die Ursachensuche bei Fehlern.
Bald generell verfügbar: MLOps
In der Beta-Phase befindet sich auch MLOps Stacks. Mit Databricks Asset Bundles können Teams ein Projekt von Ende zu Ende inklusive Test und Deployment in Lakehouse codieren. Dafür wird MLOps Stacks verwendet, das praxiserprobte Verfahren für MLOps enthält.
Mit Inferenztabellen, ebenfalls in Public-Preview-Stadium, lassen sich alle Modellanfragen und -antworten im Unity Catalog speichern. So kann man die Kosten der Nutzung einzelner Modelle leicht den Verursachern berechnen.
Für ein besseres Monitoring hat Databricks Lakehouse Monitoring angekündigt. Das Tool erzeugt automatisch Dashboards für Leistungsmetriken und Echtzeitwarnungen, wenn Modelle kritische, von Anwendern definierte Schwellenwerte überschreiten.
SAP-Kooperation: Testkunden für Datenanalyse gesucht
Ganz neu ist eine enge Kooperation mit SAP: SAP integriert Databricks in seine Datasphere respektive die Business Data Fabric. Das Ziel: Die eigenen Kunden sollen leichter Datenquellen außerhalb der SAP-Sphäre in ihre Analysen einbeziehen können respektive SAP-Daten in Analysen außerhalb von SAP. Torsten Ammon, Senior Vice President SAP Datasphere and Data Warehouse: „Die Integration heterogener Daten dauerte bisher zu lange.“
Das soll sich nun durch sogenanntes Semantic Onboarding ändern. Dabei werden die Daten auf dem SAP-Stack föderiert. Bei der Zusammenführung von Daten aus SAP und Databricks sollen die in SAP-Daten hinterlegten Business-Logiken und -Hierarchien erhalten bleiben. Anwender können auch in ihren SAP-Applikationen Modelle aus Databricks nutzen. Ammon: „Das ist erst der erste Schritt.“
Gesucht werden derzeit zehn Testkunden, die entsprechende Lösungen für sich aufbauen wollen. Databricks und SAP bieten ihnen einen kostenlosen Workshop mit einem Databricks- und einem SAP-Experten an, in dem die ersten Konturen einer solchen Lösung erarbeitet werden können.
Sechsstellige Einsparungen jährlich
Doch auch ohne SAP-Integration bringt der Einsatz von Databricks massiven Nutzen. Davon berichtete Marco Lohaus, Head of BI bei der flaschenpost, die zur Oetker-Gruppe gehört, im Interview mit BigData -Insider. Der Online-Supermarkt hat seine Zentrale in Münster und liefert in mehr als 200 Städte in ganz Deutschland.
In Lohaus‘ Datenteam sitzen rund 20 Mitarbeiter. Er beschäftigt sich vorwiegend mit dem Aufbau einer stabilen Daten-Infrastruktur, die die täglich eingehenden zwei Terabyte Neudaten verkraftet. Die Analysten sitzen in den Fachabteilungen.
Vor zwei Jahren begann Lohaus mit Databricks zu experimentieren. Damals ging es lediglich um die Google-Daten. Mit der Ankündigung des Unity-Katalog lieferte Databricks das entscheidende Argument, um bei einer Renovierung der bisherigen, SQL-lastigen Dateninfrastruktur komplett auf Databricks umzusteigen. Microsofts Produkt Synapse und Snowflake, ebenfalls in der engeren Wahl, hatten das Nachsehen.
Maximale Selbstbedienung
Lohaus möchte, dass sich die Anwender weitgehend selbstständig mit den benötigten Daten und dazugehöriger Rechenleistung für ihre analytischen Tasks versorgen können. Dadurch müssen nicht mehr alle Tasks auf einer Umgebung gerechnet werden. Vielmehr erhält jede Aufgabe die angemessen leistungsfähige Umgebung.
„Wir haben jetzt den ersten Usecase online“, sagt Lohaus. Durch den Wechsel der alten Infrastruktur auf die von Databricks konnte gut ein Drittel der gesamten Infrastrukturkosten eingespart werden.“
KI wird hauptsächlich intern genutzt
Vollstes Vertrauen zu KI und ML scheinen die Anwender aber heute noch nicht zu haben. Julia Ertl, Senior Manager Data Science bei Accenture, verriet während einer Podiumsdiskussion zwischen Frauen, die in der Datenanalyse arbeiten: „Die Kunden nutzen die Technologien heute vor allem für das Wissensmanagement, Content-Generierung, was beispielsweise das Gendern gender-unsensitiver Texte sein kann, und Prompt-Engineering.“
Relativ autonom agierende KI-Applikationen würden vor allem für interne Prozesse genutzt. Ertl: „Bei allen kundenseitigen Prozessen guckt heute noch ein Mensch drüber.“
(ID:49789001)