Nachbericht Databricks Data + AI Summit 2023 Datenkonferenz ganz im Zeichen der KI

Von Michael Matzer Lesedauer: 12 min |

Anbieter zum Thema

Databricks' CEO Ali Ghodsi setzt ganz auf Künstliche Intelligenz (KI). Er kündigte Lakehouse AI an und will MosaicML kaufen, das LL-Modelle anbietet. Sein Motto: „Die Demokratisierung von Technologie fördert Innovationen.“ Deshalb werde Englisch von nun an auch eine Programmiersprache sein.

Ali Ghodsi, CEO von Databricks
Ali Ghodsi, CEO von Databricks
(Bild: Databricks)

Auf der Kundenkonferenz „Databricks Data + AI Summit 2023“ (DAIS) in San Francisco stellte Ghodsi vor 20.000 anwesenden Besuchern zahlreiche Neuerungen vor, mit denen er dieses Prinzip umsetzen will. Weitere 75.000 Besucher waren virtuell zugeschaltet. Die DAIS war dieses Jahr eine der größten KI-Konferenzen überhaupt.

Databricks erzeugt selbst keine LLMs (Large Language Models) wie ChatGPT, sondern überlässt das Spezialisten. Vielmehr verfolgt das Unternehmen einen datenzentrierten Ansatz, in dessen Mittelpunkt seine Lakehouse-Architektur stellt, die unter anderem in der eigenen Cloud gehostet wird. Diese Architektur wird nun zu Lakehouse AI erweitert und mit neuen generativen KI-Tools unterstützt. Ghodsi unterstrich mehrfach die Beachtung von Datenschutzgesetzen und der Sicherstellung von Datensicherheit. Das soll Missbrauch von KI und Manipulation von KI-Datenbeständen und -Aussagen einen Riegel vorschieben.

Matei Zaharia, CTO von Databricks
Matei Zaharia, CTO von Databricks
(Bild: Databricks)

Cheftechnologe Matei Zaharia, ein weiterer Databricks-Mitgründer, stellte die Neuerungen im Einzelnen vor. Kunden sollen einfach und effizient generative KI-Anwendungen, einschließlich LLMs, direkt innerhalb der Databricks Lakehouse Platform entwickeln können. „Lakehouse AI bietet einen datenzentrierten Ansatz für KI, mit integrierten Funktionen für den gesamten KI-Lebenszyklus und die zugrunde liegende Überwachung und Steuerung.“ Zu den neuen Funktionen, die Kunden helfen, generative KI-Anwendungsfälle einfacher zu implementieren, gehören: Vektorsuche, eine kuratierte Sammlung von Open-Source-Modellen, LLM-optimiertes Model Serving, MLflow 2.5 mit LLM-Funktionen wie AI Gateway und Prompt Tools sowie Lakehouse Monitoring.

„Der Erfolg von KI hängt von den Daten ab, und wenn die Datenplattform von der KI-Plattform getrennt ist, ist es schwierig, saubere, qualitativ hochwertige Daten zu erzwingen und zu pflegen“, so Zaharia. „Darüber hinaus ist der Prozess, ein Modell von der Erprobung in die Produktion zu überführen, und die damit verbundene Abstimmung, Operationalisierung und Überwachung der Modelle, komplex und unzuverlässig.“

Mit Lakehouse AI vereine Databricks nun die Daten- und KI-Plattform, sodass Kunden ihre generativen KI-Lösungen schneller und erfolgreicher entwickeln könnten – von der Nutzung grundlegender SaaS-Modelle bis hin zum sicheren Training ihrer eigenen benutzerdefinierten Modelle mit ihren Unternehmensdaten. Durch die Zusammenführung von Daten, KI-Modellen, LLM-Operationen (LLMOps), Monitoring und Governance auf der Databricks Lakehouse Platform könnten Unternehmen ihre generative KI-Reise beschleunigen.

Lakehouse AI vereinheitlicht den KI-Lebenszyklus, von der Datenerfassung und -aufbereitung über die Modellentwicklung und LLMOps bis hin zur Bereitstellung und Überwachung. Zu den neu angekündigten Funktionen gehören:

Die Vektorsuche soll es Entwicklern erlauben, die Genauigkeit ihrer generativen KI-Antworten durch die Suche nach Einbettungen zu verbessern. Sie verwaltet und erstellt automatisch Vektoreinbettungen aus Dateien in Unity Catalog – Databricks‘ Lösung für eine einheitliche Suche und Governance in den Bereichen Daten, Analytik und KI – und hält sie durch nahtlose Integrationen im Databricks Model Serving automatisch auf dem neuesten Stand. Zusätzlich haben Entwickler die Möglichkeit, Abfragefilter hinzuzufügen, um ihren Nutzern noch bessere Ergebnisse zu bieten.

Rund 20.000 Teilnehmer besuchten den Databricks Data + AI Summit 2023 in San Francisco.
Rund 20.000 Teilnehmer besuchten den Databricks Data + AI Summit 2023 in San Francisco.
(Bild: Databricks)

Databricks AutoML bietet jetzt einen Low-Code-Ansatz für die Feinabstimmung von LLMs. Kunden können LLMs unter Verwendung ihrer eigenen Unternehmensdaten sicher abstimmen und sind Eigentümer des von AutoML erstellten Modells, ohne dass sie Daten an einen Dritten senden müssen. Darüber hinaus kann das Modell dank der MLflow-, Unity Catalog- und Model Serving-Integrationen leicht innerhalb eines Unternehmens geteilt, für die angemessene Verwendung geregelt, die Inferenz in der Produktion bereitgestellt und überwacht werden.

Databricks Model Serving wurde nach seiner Veröffentlichung Anfang 2023 für die Inferenz von LLMs mit bis zu zehnfach geringerer Latenzzeit und reduzierten Nutzungskosten optimiert. Model Serving wird vollständig von Databricks verwaltet, um ein reibungsloses Infrastrukturmanagement zu ermöglichen, und unterstützt nun GPU-basierte Inferenzen. Es protokolliert und überwacht automatisch alle Anfragen und Antworten auf Delta-Tabellen und gewährleistet eine durchgängige Nachverfolgung der Abstammung durch Unity Catalog.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Databricks hat eine Liste von kuratierten Open-Source-Modellen veröffentlicht, die im Databricks Marketplace verfügbar sind. Darunter fallen MPT-7B- und Falcon-7B-Befehlsverfolgungs- und Zusammenfassungsmodelle sowie „Stable Diffusion“ für die Bilderzeugung. Lakehouse-KI-Funktionen wie Databricks Model Serving wurden, wie erwähnt, für diese Modelle optimiert.

LLMOps effektiv und zuverlässig verwalten

Mit der Ankündigung von MLflow 2.5, der neuesten Version des beliebten Open-Source-Projekts MLflow der Linux Foundation, hat Databricks auch neue Innovationen im Bereich LLMOps vorgestellt. MLflow ist eine Open-Source-Plattform für den Lebenszyklus des maschinellen Lernens, die monatlich fast elf Millionen Mal heruntergeladen wird.

MLflow 2.5 enthält folgende Aktualisierungen:

MLflow AI Gateway soll es Unternehmen erlauben, Anmeldeinformationen für SaaS-Modelle oder Modell-APIs zentral zu verwalten und zugriffskontrollierte Routen für Abfragen bereitzustellen. Organisationen können diese Routen dann verschiedenen Teams zur Verfügung stellen, um sie in ihre Workflows oder Projekte zu integrieren. Entwickler können das Backend-Modell jederzeit problemlos austauschen, um Kosten und Qualität zu verbessern, und zwischen verschiedenen LLM-Anbietern wechseln. MLflow AI Gateway erlaubt auch das Zwischenspeichern von Vorhersagen, um wiederholte Prompts zu verfolgen, und die Begrenzung der Nutzungsrate, um die Kosten zu kontrollieren.

Neue visuelle Tools ohne Code wie MLflow Prompt Tools sollen es Nutzern erlauben, die Ergebnisse verschiedener Modelle auf der Grundlage einer Reihe von Aufforderungen (Prompts) zu vergleichen, die automatisch in MLflow verfolgt werden. Durch die Integration in Databricks Model Serving können Kunden das entsprechende Modell in der Produktion einsetzen.

Die Funktionen von MLflow 2.5 sollen in der Juli-Version von MLflow verfügbar sein. Neue Databricks-Funktionen wie Vector Search und Lakehouse Monitoring befinden sich derzeit in der Preview.

Intelligente Überwachung von Daten und KI-Assets

Mit der Einführung von „Lakehouse Monitoring“ hat Databricks auch seine Daten- und KI-Überwachungsfunktionen erweitert, um alle Daten- und KI-Assets innerhalb des Lakehouse besser überwachen und verwalten zu können. Databricks Lakehouse Monitoring bietet einen durchgängigen Einblick in die Datenpipelines, um die Leistung kontinuierlich zu überwachen, zu optimieren und zu verbessern – ohne zusätzliche Tools und Komplexität. Durch die Nutzung von Unity Catalog bietet Lakehouse Monitoring Anwendern einen tiefen Einblick in die Herkunft ihrer Daten und KI-Assets, um eine hohe Qualität, Genauigkeit und Zuverlässigkeit zu gewährleisten. Proaktive Erkennung und Berichterstattung erleichtern die Erkennung und Diagnose von Fehlern in Pipelines, die automatische Durchführung von Ursachenanalysen und das schnelle Auffinden empfohlener Lösungen über den gesamten Lebenszyklus der Daten.

Schatzkästlein MosaicML

Databricks will MosaicML kaufen, eine führende generative KI-Plattform. Gemeinsam wollen die beiden Firmen generative KI für jedes Unternehmen zugänglich machen und es ihnen ermöglichen, generative KI-Modelle mit ihren eigenen Daten zu erstellen, zu verwalten und zu sichern. Der Wert der Transaktion beläuft sich auf etwa 1,3 Milliarden US-Dollar, einschließlich der Einbehaltungspakete.

MosaicML ist ein wahres Schatzkästlein, denn es ist bekannt für seine hochmodernen MPT-LLMs. Mit über 3,3 Millionen Downloads von MPT-7B und der kürzlichen Veröffentlichung von MPT-30B habe MosaicML laut Ghodsi gezeigt, wie Unternehmen schnell und kostengünstig ihre eigenen Modelle mit ihren Daten erstellen und trainieren können. In der Präsentationen staunten die Besucher über die Preise: Das MPT-7B-Trainingsmodell, ein LLM, kostet „nur“ 150.000 USD/Modell, doch die Trainingskosten für das MPT-30B-Modell liegen schon bei 871.000 USD/40 GB, für 80 GB bei 714.000 USD. Man kann also sagen, dass das KI-Business recht lukrativ ist.

Es wird erwartet, dass das gesamte MosaicML-Team, einschließlich des branchenführenden Forschungsteams von MosaicML, zu Databricks wechseln wird. Die Plattform von MosaicML soll im Laufe der Zeit unterstützt, skaliert und integriert werden, um Kunden eine nahtlose, einheitliche Nutzererfahrung zu bieten, auf der sie ihre generativen KI-Modelle erstellen, verwalten und sichern können. Databricks und MosaicML wollen den Kunden eine größere Auswahl an Möglichkeiten bieten, ihre eigenen Modelle zu erstellen, diese mit ihren eigenen Daten zu trainieren und eine unverwechselbare IP für ihre Unternehmen zu schaffen.

Delta Lake 3.0

Databricks hat Delta Lake in der Version 3.0 angekündigt, die mit neuem Universalformat für Apache Iceberg und Apache Hudi aufwartet. Die neue Version vereinheitlicht die Speicherformate für Lakehouses und stärkt das quelloffene Delta Lake als beste Wahl für den Bau eines offenen Lakehouse, das sowohl strukturierte als unstrukturierte Daten verarbeiten kann.

Universal Format (UniForm) soll es ermöglichen, in Delta gespeicherte Daten so zu lesen, als wären sie Apache Iceberg oder Apache Hudi. „UniForm macht die Wahl eines offenen Datenformats überflüssig und beseitigt Kompatibilitätsprobleme, indem es automatische Unterstützung für Iceberg und Hudi in Delta Lake bietet“, so Ghodsi in seiner Keynote. Delta Lake 3.0 erlaube es Anwendern zudem, die komplizierte Integrationsarbeit, die durch unterschiedliche Datenformate verursacht wird, zu eliminieren.“

Ghodsi weiter: „Kunden sollten nicht durch die Wahl des Formats eingeschränkt werden, sondern problemlos mit allen Dateiformaten arbeiten, die sie wollen, einschließlich Iceberg und Hudi, und gleichzeitig die branchenführende Geschwindigkeit und Skalierbarkeit von Delta Lake zu nutzen.” Kritiker hatten ihm offenbar vorgeworfen, proprietäre Einschränkungen in einem Open-Source-Projekt zu eigenem Nutzen eingeführt oder beibehalten zu haben. Dieser Kritik nimmt er mit UniForm den Wind aus den Segeln.

Das neue Delta Universal Format (UniForm), bedeutet: In Delta gespeicherte Daten können jetzt so gelesen werden, als wären sie in Iceberg oder Hudi gespeichert. Die Grundlage ist das Datenformat Parquet. Mit UniForm generiert Delta automatisch Metadaten, die für Iceberg oder Hudi benötigt werden, und vereinheitlicht so die Tabellenformate, so dass die Benutzer nicht mehr zwischen den Formaten wählen oder sie manuell umwandeln müssen. Unternehmen können getrost auf Delta als universelles Format setzen, das in allen Ökosystemen funktioniert und skalierbar ist, um die sich ändernden Anforderungen ihres Unternehmens zu unterstützen.

Des weiteren „Delta Kernel“: Um der Fragmentierung der Konnektoren entgegenzuwirken, stellt der Kernel sicher, dass die Konnektoren auf einer Delta-Kernbibliothek aufbauen, die die Delta-Spezifikationen implementiert. So müssen die Benutzer die Delta-Konnektoren nicht mehr bei jeder neuen Version oder Protokolländerung aktualisieren.

„Delta Liquid Clustering“: Eine der häufigsten Herausforderungen, mit denen Unternehmen bei der Implementierung von Datenanwendungsfällen konfrontiert sind, betrifft die Leistung bei Lese- und Schreibvorgängen. Die Einführung von Liquid Clustering ist eine Abkehr von der jahrzehntealten Tabellenpartitionierung im Hive-Stil (in Apache Hadoop), die ein festes Datenlayout verwendet. Delta Lake führt ein flexibles Datenlayoutverfahren ein, das eine kosteneffiziente Datenclusterung bei wachsendem Datenvolumen ermöglicht und Unternehmen dabei hilft, ihre Anforderungen an die Lese- und Schreibleistung zu erfüllen. Delta Lake 3.0 ist ab sofort als Teil des Delta Lake-Projekts der Linux Foundation in der Vorschau verfügbar.

Lakehouse Apps

Mit der Neuerung „Lakehouse Apps“ sollen Entwickler eine neue Möglichkeit erhalten, native, sichere Anwendungen für Databricks zu erstellen. Die Kunden haben einfachen Zugang zu einer breiten Palette von Anwendungen, die vollständig innerhalb ihrer Lakehouse-Instanz laufen und ihre Daten nutzen, mit den vollen Sicherheits- und Governance-Funktionen von Databricks. Da diese Apps direkt auf der Databricks-Instanz des Kunden laufen, können sie einfach und sicher in die Daten des Kunden integriert werden, Databricks-Dienste nutzen und erweitern und den Benutzern die Interaktion mit einer einzigen Anmeldung ermöglichen – und das alles, ohne dass die Daten jemals die Instanz des Kunden verlassen.

Lakehouse Apps verfügen über die gleichen Sicherheits-, Datenschutz- und Compliance-Kontrollen wie Databricks. Entwickler können jede beliebige Technologie und Sprache zur Erstellung von Apps verwenden und sind nicht auf ein proprietäres Framework beschränkt. Entwickler profitieren demnach auch von einer einfacheren Verteilung, indem sie ihre Lakehouse Apps im Databricks Marketplace auflisten, sodass Kunden ihre Software schnell entdecken und einsetzen können.

Zu den frühen Entwicklungspartnern von Lakehouse Apps gehören Retool, Posit, Kumo.ai und Lamini. „Mit Lakehouse Apps können Software-Anbieter ihre reichhaltigen, sicheren Apps innerhalb von Lakehouse anbieten, was sowohl für Databricks-Kunden als auch für Software-Anbieter spannend ist, da es die Reibung für Anwendungen, neue Kunden zu erreichen, erheblich reduziert“, sagte Matei Zaharia. „Zudem erfüllt die Erweiterung des Databricks Marketplace um KI-Modelle und Apps einen entscheidenden Bedarf in der heutigen Geschäftswelt, da sich die Zusammenarbeit zwischen Unternehmen über den bloßen Austausch von Datensätzen hinaus zu sicheren Berechnungen und KI-Modellen auf gemeinsamen Daten entwickelt.“

Databricks will auch die gemeinsame Nutzung von KI-Modellen im Databricks Marketplace anbieten. Dies wird Datenkonsumenten und -anbietern die Möglichkeit geben, KI-Modelle zu entdecken und zu monetarisieren sowie KI in alle ihre Datenlösungen zu integrieren. Databricks Marketplace ist seit dem 28. Juni 2023 allgemein verfügbar. Lakehouse Apps und die gemeinsame Nutzung von KI-Modellen im Databricks Marketplace werden voraussichtlich im kommenden Jahr in der Vorschau verfügbar sein.

LakehouseIQ

Für Benutzer des Lakehouse wohl die wichtigste Neuerung ist die neue sprachbasierte Eingabeschnittstelle, die der Einfachheit halber nur LakehouseIQ heißt. Die Programmiersprache dafür ist schlichtes Englisch. Hier wird generative KI angewandt, um wie mit Copilot von GitHub die produktive Arbeit zu unterstützen: Abfragen, Programmieren usw.

Grundlage ist eine Wissens-Engine, die lernt, was in einem Unternehmen an einzigartigem Wissen vorhanden ist und die kontextbasierte Antworten auf Fragen in natürlicher Sprache (vorerst Englisch) geben kann. Unter „Wissen“ ist nicht nur Umgangssprache, offizieller Sprachgebrauch, Datennutzungsmuster, Datenherkunft, Abfragen, Dashboards, die Organisationsstruktur und vieles mehr zu verstehen. LakehouseIQ ist vollständig mit Unity Catalog integriert, der die Metadaten, Governance-Vorgaben, Rollen und vieles mehr im Unternehmen umfasst. Governance-Regeln und interne Sicherheit werden also einbezogen.

LLMs wie ChatGPT haben offenbar in jener Hinsicht versagt, die inzwischen einen Flaschenhals darstellt: Die schnelle, einfache Bereitstellung von Abfrageergebnissen, etwa nach Quartalsergebnisse, Kampagnenauswertung und dergleichen. LLMs für generelle Zwecke (GPTs) verstünden die jeweils spezifische Sprache eines Unternehmens nicht, so CTO Matei Zaharia. „Sie können intern genutzte Abkürzungen nicht entschlüsseln, Jargon nicht verstehen, sind nicht auf die hausinternen Datenmengen trainiert und kapieren nicht, was Organisationsdiagramme besagen oder welche Teams Zugang zu welchen Informationen haben sollte.“

LakehouseIQ lernt aus den genannten Datenquellen eines Unternehmens und stellt Antworten auf Abfragen in einfachem Englisch bereit. Es verstehe die Absicht hinter einer Anfrage und könne sogar zusätzliche Erkenntnisse präsentieren, die zu weiteren Fragen oder Gedankengängen anspornen. Weil alle Mitarbeitenden das Tool nutzen könnten, würde der Flaschenhals der Analytiker beseitigt. Weil der Zugang zu Daten demokratisiert wird, tragen die zusätzlichen Einsichten zu besser fundierten Entscheidungen bei und förderten Innovationen.

Zusätzlich betont Ghodsi, dass die Mitarbeiter die passenden Daten unter Beachtung von Datenschutz- und Governance-Belangen erhielten. „The Databricks Assistant”, powered by LakehouseIQ, ist noch in Preview, aber schon jetzt ein vielversprechendes Projekt.

Lakehouse Federation

Mit Lakehouse Federation, einer neuen Unity-Catalog-Funktion, will es Databricks seinen Kunden erlauben, alle ihre Daten zu erforschen, abzufragen und zu verwalten – gleichgültig, wo sie sich befinden: ein DataMesh für performante Datenabfragen. Das bedeutet das Ende für Datensilos innerhalb einer Organisation.

Eines der wichtigsten Leistungsmerkmale ist dabei die Query Federation (QF). Mit einer Abfrage lassen sich interne Unternehmensdaten zusammenführen und konsolidieren. Diese Daten können sich extern auf Plattformen wie Databricks selbst, MySQL, PostgreSQL, Amazon Redshift, Snowflake, Azure SQL Database, Azure Synapse, Google BigQuery und weitere. Solche föderierten Abfragen lassen sich besser planen und mit Caching optimal performant ausführen. Das wäre bei großen Datenmengen sehr hilfreich.

Unity Catalog stellt GOV und Compliance sicher. Zukünftig sollen Kunden zudem in der Lage sein, Datenzugriffsrichtlinien selbst zu definieren und diese Policies auch in anderen Data Warehouses durchzusetzen. Das macht die Notwendigkeit, ständig separate Policies zu formulieren und zu implementieren, überflüssig.

Die Schnittstelle des Unity Catalog zum Hive Metastore (HMS) wurde angekündigt. Diese versetzt jede Software, die mit Apache Hive kompatibel ist, in die Lage, sich mit Unity Catalog zu verbinden. So sollen Organisationen jetzt ihre Datenverwaltung und Governance zentralisieren können und Verbindung mit einer Vielzahl von Datenquellen halten oder herstellen können, darunter Amazon EMR, Apache Spark, Amazon Athena, Presto, Trino usw. Das Verwalten verschiedener Datenkataloge ist überflüssig, die Data Governance über alle diese Plattformen ist konsistent statt widersprüchlich.

Query Federation und die Schnittstelle zum Hive Metastore sollen „bald“ in öffentlicher Preview bereitstehen. Databricks-Kunden können sich auf die Warteliste setzen lassen.

(ID:49604525)