Der ML- und Big-Data-Spezialist Databricks expandiert stark. Nun rief er zur Data + AI World Tour in die Münchner Eisbach-Studios. Dort gab es eine Zusammenfassung der Neuerungen des Jahres, eine Ausstellung und viele weitere Informationen.
Databricks will mit seinen Produkten dazu beitragen, dass Daten von möglichst vielen im Unternehmen genutzt werden können. Wie, das präsentierte das Unternehmen auf der Data + AI World in München.
(Bild: Rüdiger)
Mehr als 900 Besucher und Besucherinnen kamen Anfang November in die Eisbach-Studios in der Münchner Peripherie zur Data + AI World Tour von Databricks. Das Unternehmen erfand vor einigen Jahren den Begriff Lakehouse, technologisch eine Mischung aus Data Lake und Data Warehouse, und ist damit sehr erfolgreich. Der Vorteil: Daten müssen nicht mehr zwischen Warehouse und Data Lake hin und her kopiert werden.
Das wird mit Wachstum belohnt. Die Zahl der Angestellten in Zentraleuropa legte innerhalb von nur vier Jahren auf mehr als 200 zu. Über 150 davon sitzen in Deutschland – unter anderem an den Standorten München und Berlin, ein weiterer Standort ist Zürich in der Schweiz. Ein Frankfurter Büro ist als nächstes in Planung.
Bildergalerie
Weltweit arbeiten inzwischen 6.000 Mitarbeiter für Databricks. Sie beliefern 10.000 Unternehmenskunden. In Deutschland kommen die vorwiegend aus dem gehobenen Mittelstand und Großunternehmen.
Sportliche Bewertung
Über Umsätze spricht Databricks nicht, in einigen Internet-Wirtschaftsmedien finden sich aber Informationen dazu. Demnach setzte Databricks im Februar 2022 etwa 800 Millionen US-Dollar um. Gleichzeitig wird das Unternehmen mit 43 Milliarden US-Dollar bewertet, was selbst angesichts der attraktiven Produkte und der steilen Wachstumskurve sehr sportlich ist.
Der gegenwärtige Drang zur Datenanalyse spielt dem Anbieter in die Hände. „In 88 Prozent der Unternehmen investiert die Geschäftsführungsebene in generative AI“, sagte Frank Boenig, Vice Präsident und Regionalverantwortlicher für Zentraleuropa in seiner Begrüßungsrede.
Auch Roman Pritzkow, Regionalverantwortlicher für den deutschsprachigen Raum, betonte im Interview mit BigData-Insider: „Unser Geschäft entwickelt sich dramatisch positiv.“ Das Plattform-agnostische Multi-Cloud-Modell von Databricks werde von den Kunden geschätzt, die sich liebend gern aus der Abhängigkeit von „ihrem“ Cloud-Provider befreien wollten.
Demokratisierte Datennutzung
Databricks sei mit dem Ziel angetreten, die Datenanalyse zu „demokratisieren“, betonte David Meyer, Senior Vice President Databricks. Dem komme man durch LLMs näher, denn „die heißeste Programmiersprache ist einfach die Sprache, die man spricht.“
Schon im Sommer des Jahres hatte Databricks GenAI-bezogene Erweiterungen von Lakehouse und Unity-Datenkatalog auf seiner weltweiten Tagung in den USA angekündigt, weshalb sie hier nicht näher beschrieben werden.
Seitdem sind aber weitere Neuerungen hinzugekommen. So stehen Delta Live Tables (DLT) seit August in der Google Cloud zur Verfügung. Damit lassen sich Cloud-übergreifende Datenpipelines aufbauen, die auch Streaming-Daten umfassen.
Daten-Sharing mit Datenschutz
Mit Delta Sharing über den Databricks-Marketplace können Anwender jetzt von gemeinsamer Datennutzung in AI und ML profitieren, ohne den Datenschutz dafür aufgeben zu müssen. Dafür sorgt ein spezielles Protokoll. Alle Databricks-Kunden können die Funktion nutzen, die auf Delta-Sharing basiert. Inzwischen haben bereits 90 Provider Daten zugänglich gemacht.
Auf dem Online-Marktplatz finden sich auch branchenspezifische Module, die den Aufbau von Lösungen beschleunigen sollen. Sie enthalten vorprogrammierten Code, Beispieldaten und weitere hilfreiche Werkzeuge. Adressiert werden Gesundheitswesen und Biowissenschaften, Kommunikation, Medien, Unterhaltung, Einzelhandel, Konsumgüter und produzierende Betriebe.
Ebenfalls neu auf dem Marketplace sind die Llama-2-Basismodelle. Sie können in Lakehouse AI integriert werden.
KI-generierte Dokumentation
Als Public Preview gibt es für den Unity-Datenkatalog eine KI-generierte Dokumentation. Die Funktion fügt automatisch Beschreibungen und Kommentare, also Metadaten, zu Tabellen und Tabellenspalten hinzu. Diese können anschließend von Anwendern gelesen und verändert werden. Das Verfahren soll die sonst zeitraubende Metadaten-Generierung erheblich beschleunigen und mehr Transparenz in den Datendschungel bringen.
Diverse neue Funktionen des Unity Catalog vereinfachen die Integration zwischen der Erstellung von ML-Applikationen und ihrem Betrieb (MLOps). So können Modelle aus einer großen Modelldatenbank direkt in den Katalog geladen und auch bewertet werden. Der Verlauf des gesamten ML-Lebenszyklus einschließlich der Daten (Lineage) lässt sich nun bruchlos verfolgen. Das vereinfacht die Ursachensuche bei Fehlern.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Bald generell verfügbar: MLOps
In der Beta-Phase befindet sich auch MLOps Stacks. Mit Databricks Asset Bundles können Teams ein Projekt von Ende zu Ende inklusive Test und Deployment in Lakehouse codieren. Dafür wird MLOps Stacks verwendet, das praxiserprobte Verfahren für MLOps enthält.
Mit Inferenztabellen, ebenfalls in Public-Preview-Stadium, lassen sich alle Modellanfragen und -antworten im Unity Catalog speichern. So kann man die Kosten der Nutzung einzelner Modelle leicht den Verursachern berechnen.
Für ein besseres Monitoring hat Databricks Lakehouse Monitoring angekündigt. Das Tool erzeugt automatisch Dashboards für Leistungsmetriken und Echtzeitwarnungen, wenn Modelle kritische, von Anwendern definierte Schwellenwerte überschreiten.
SAP-Kooperation: Testkunden für Datenanalyse gesucht
Ganz neu ist eine enge Kooperation mit SAP: SAP integriert Databricks in seine Datasphere respektive die Business Data Fabric. Das Ziel: Die eigenen Kunden sollen leichter Datenquellen außerhalb der SAP-Sphäre in ihre Analysen einbeziehen können respektive SAP-Daten in Analysen außerhalb von SAP. Torsten Ammon, Senior Vice President SAP Datasphere and Data Warehouse: „Die Integration heterogener Daten dauerte bisher zu lange.“
Das soll sich nun durch sogenanntes Semantic Onboarding ändern. Dabei werden die Daten auf dem SAP-Stack föderiert. Bei der Zusammenführung von Daten aus SAP und Databricks sollen die in SAP-Daten hinterlegten Business-Logiken und -Hierarchien erhalten bleiben. Anwender können auch in ihren SAP-Applikationen Modelle aus Databricks nutzen. Ammon: „Das ist erst der erste Schritt.“
Gesucht werden derzeit zehn Testkunden, die entsprechende Lösungen für sich aufbauen wollen. Databricks und SAP bieten ihnen einen kostenlosen Workshop mit einem Databricks- und einem SAP-Experten an, in dem die ersten Konturen einer solchen Lösung erarbeitet werden können.
Sechsstellige Einsparungen jährlich
Doch auch ohne SAP-Integration bringt der Einsatz von Databricks massiven Nutzen. Davon berichtete Marco Lohaus, Head of BI bei der flaschenpost, die zur Oetker-Gruppe gehört, im Interview mit BigData -Insider. Der Online-Supermarkt hat seine Zentrale in Münster und liefert in mehr als 200 Städte in ganz Deutschland.
In Lohaus‘ Datenteam sitzen rund 20 Mitarbeiter. Er beschäftigt sich vorwiegend mit dem Aufbau einer stabilen Daten-Infrastruktur, die die täglich eingehenden zwei Terabyte Neudaten verkraftet. Die Analysten sitzen in den Fachabteilungen.
Vor zwei Jahren begann Lohaus mit Databricks zu experimentieren. Damals ging es lediglich um die Google-Daten. Mit der Ankündigung des Unity-Katalog lieferte Databricks das entscheidende Argument, um bei einer Renovierung der bisherigen, SQL-lastigen Dateninfrastruktur komplett auf Databricks umzusteigen. Microsofts Produkt Synapse und Snowflake, ebenfalls in der engeren Wahl, hatten das Nachsehen.
Maximale Selbstbedienung
Lohaus möchte, dass sich die Anwender weitgehend selbstständig mit den benötigten Daten und dazugehöriger Rechenleistung für ihre analytischen Tasks versorgen können. Dadurch müssen nicht mehr alle Tasks auf einer Umgebung gerechnet werden. Vielmehr erhält jede Aufgabe die angemessen leistungsfähige Umgebung.
„Wir haben jetzt den ersten Usecase online“, sagt Lohaus. Durch den Wechsel der alten Infrastruktur auf die von Databricks konnte gut ein Drittel der gesamten Infrastrukturkosten eingespart werden.“
KI wird hauptsächlich intern genutzt
Vollstes Vertrauen zu KI und ML scheinen die Anwender aber heute noch nicht zu haben. Julia Ertl, Senior Manager Data Science bei Accenture, verriet während einer Podiumsdiskussion zwischen Frauen, die in der Datenanalyse arbeiten: „Die Kunden nutzen die Technologien heute vor allem für das Wissensmanagement, Content-Generierung, was beispielsweise das Gendern gender-unsensitiver Texte sein kann, und Prompt-Engineering.“
Relativ autonom agierende KI-Applikationen würden vor allem für interne Prozesse genutzt. Ertl: „Bei allen kundenseitigen Prozessen guckt heute noch ein Mensch drüber.“