Nachbericht Kafka Summit London Confluent bringt universelle Datenprodukte

Von lic.rer.publ. Ariane Rüdiger 5 min Lesedauer

Anbieter zum Thema

Beim jährlichen Kafka Summit in London verkündete Hauptveranstalter Confluent viele Neuerungen. Darunter eine verbesserte Governance und universelle Datenprodukte, die Streaming- mit Analytik-Daten zusammenführen.

„Mit Tableflow und Flink-Integration schaffen wir die Bedingungen für universelle Datenprodukte“, so Jay Kreps, CEO von Confluent.(Bild:  Confluent)
„Mit Tableflow und Flink-Integration schaffen wir die Bedingungen für universelle Datenprodukte“, so Jay Kreps, CEO von Confluent.
(Bild: Confluent)

Vor einem vollen Saal im Londoner Messe- und Kongresszentrum führte Excel Shawn Clowes, Chief Product Officer Confluent, in die Themen des diesjährigen Kafka Summit ein: „Wir müssen verbessern, wie Anwender auf Daten zu greifen und mit ihnen arbeiten.“

Sobald Streaming-Daten dabei eine Rolle spielen, ist meist Kafka dabei. Der Hauptinput zur Weiterentwicklung von Kafka stammt von Confluent. Die Open-Source-Technologie der Apache Foundation kommt demnächst in Version 4.0.

150 Millionen Organisationen nutzen Kafka

Kafka, ein Werkzeug zur Handhabung von kontinuierlich erzeugten Datenströmen, wird laut Rachel Groberman, Product Manager Confluent, von mittlerweile 150 Millionen Organisationen weltweit genutzt. Zu den in letzter Zeit umgesetzten Neuerungen gehören laut Groberman der Abschied vom Orchestrierungstool Zookeeper und die Freigabe eines offiziellen Kafka Docker Image für den Betrieb in Container-Umgebungen.

Demnächst zu erwarten sind Queues für Kafka, vereinfachte Client-Protokolle, Two-Phase-Commit für mehr Datenkonsistenz und Observability für die Clients. Und für die fernere Zukunft denkt die Entwickler-Community über Topic-Directories und ein partitionsfreies Kafka nach.

Datenprodukt-Management zu kompliziert

Shaun Clowes, Chief Product Officer Confluent: „Die operative und die analytische Welt müssen zusammenwachsen.“(Bild:  Confluent)
Shaun Clowes, Chief Product Officer Confluent: „Die operative und die analytische Welt müssen zusammenwachsen.“
(Bild: Confluent)

Heute, so Clowes, sei der Umgang mit Datenprodukten zu kompliziert. Die Punkt-zu-Punkt-Verbindungen in der Dateninfrastruktur müssten viel zu oft verändert werden, weil sich etwa die Schemata einbezogener Datenquellen änderten. Operative und analytische Welt seien streng getrennt, was den übergreifenden Einsatz von Datenprodukten erschwere. Arbeiten an der Dateninfrastruktur fräßen die Zeit, die eigentlich für Analytik gebraucht werde.

Es stehe eine grundsätzlich veränderte Betrachtungsweise an, betonte Jay Kreps, CEO von Confluent: „Eigentlich besteht die gesamte Datenverarbeitung aus Streams. Denn die Realität findet ständig statt. Nur ein Teil der Daten wird als Batch verarbeitet.“

Tableflow: Integration von operativer und analytischer Welt

Um operative und analytische Welt näher zusammen zu rücken, hat Confluent die neue Funktion Tableflow vorgestellt. Für sie sucht das Unternehmen jetzt Testnutzer. Tableflow verbindet die Streams, die Kafka verwaltet, mit dem transaktionalen Datenformat Apache Iceberg, das die Daten tabellarisch vorhält. Tableflow hat Zugriff auf alle Kafka-Funktionen. Da viele Data Warehouses oder Data Lakes inzwischen dieses Format unterstützen, können sie Iceberg-Daten in ihre Analysen einbeziehen, ohne sie nochmals speichern zu müssen. Dafür sucht Confluent jetzt testwillige Unternehmen.

Transaktional bedeutet die Einhaltung der aus dem Datenbankbereich bekannten ACID-Regeln: Atomizität (jede Transaktion steht für sich), Konsistenz (alle in den Speicher geschriebenen Daten sind gültig), Isolierung (mehrere Transaktionen laufen gleichzeitig und unabhängig voneinander), Dauerhaftigkeit (Daten bleiben auch bei Ausfällen oder Transaktionszwischenfällen intakt).

Schrittweise Einführung

Im ersten Schritt kann nur Iceberg auf Kafka zugreifen, später sollen bidirektionale Zugriffsmöglichkeiten folgen. Am Ende sollen alle Iceberg-Daten auch in Kafka konsumierbar sein und umgekehrt. Die Schemata von Kafka-Topics lassen sich dann automatisch auf Knopfdruck auf Iceberg übertragen, wo sie als Tabellen gespeichert werden.

Iceberg-Tabellen werden automatisch mit neuen Daten aus Kafka-Streams versorgt. Ziel ist, die Analysen auf Data Warehouses und Data Lakes mit aktuellen, hochqualitativen Daten zu füttern. Zusammen mit der jetzt generell aktivierten Stream Governance entstehen so qualitätsgesicherte Datenprodukte.

Flink in der Confluent-Cloud

Unterstützend wirkt dabei die Integration des führenden Stream-Processing-Tools Apache Flink in die Confluent Cloud. Flink wurde 2023 über eine Million Mal heruntergeladen. Durch die Integration werden Kafka und Flink gemeinsam überwacht, gesichert und verwaltet. Diese Funktion ist jetzt für alle Kunden auf AWS, Google Cloud und MS Azure mit einer Verfügbarkeitsgarantie von 99,99 Prozent ohne Zusatzkosten erhältlich.

Flink verarbeitet serverlos die von Kafka angelieferten Streams in Echtzeit statt im Batch-Format, sodass die entstehenden Datenströme wieder verwendet werden können. Dazu gehören die Anreicherung mit Metadaten und die Filterung durch SQL-Statements, etwa, indem man nur Daten eines bestimmten Zeitraums, Daten zu einem bestimmten Event oder Item auswählt. Die Latenz liegt hier auch bei sehr großen Datenmengen unter einer Sekunde. Auch Alarme beim Eintreten bestimmter Events sind so möglich.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Flink versorgt auch Vektordatenbanken, die für die Anreicherung generativer KI mit individuellen Daten benutzt werden, mit aktuellen Datenströmen. Sie werden an generative KI angeflanscht und liefern ihnen zusätzliche, individuelle Informationen ins Vektorformat umgesetzt. So können sie von der generativen KI durchsucht und die Resultate in die Antworten auf Prompts einbezogen werden. Confluent unterstützt diverse Vektordatenbanken.

Weitere Neuerungen

Dazu kommen weitere Neuerungen in der Confluent-Cloud:

  • Schon im Juli 23 wurde das Partnerprogramm Connect with Confluent (CwC) zur Erweiterung der Konnektoren-Landschaft gestartet. Die Tools der Softwarepartner können über Schnittstellen direkt auf verwaltete Streams zugreifen. Bisher gibt es Integrationen mit 40 Partnern, zum Beispiel mit Redis.
  • Die über Stream Governance zugreifbare Schema Registry bietet bei Nutzung von Stream Governance Advanced jetzt eine garantierte Verfügbarkeit von 99,99 %. Die Registry speichert alle Schemata und hilft, Datenstandards unternehmensweit umzusetzen.
  • Die in Tableflow vorhandenen Stream-Governance-Funktionen gibt es bald auch für Iceberg-Tabellen.
  • Verschiedene Preise wurden erheblich gesenkt, unter anderem die für Enterprise-Cluster, die nun stundenbasiert skalieren und abgerechnet werden, und für Durchsatz verwendeter Konnektoren.

Wettbewerb für Start-ups

Confluent investiert auch in Start-ups, die Kafka-Technologie nutzen. Mittel dazu ist ein Wettbewerb. Auf dem Kafka-Summit wurden drei von mehreren hundert Wettbewerbsteilnehmern präsentiert und ein Gewinner ausgewählt. Das Gewinner-Start-up erhält 500.000 US-Dollar, die Zweit- und Drittplatzierten jeweils 250.000 US-Dollar. Sind die Unternehmen erfolgreich, kann sich Confluent an ihnen beteiligen.

Der Gewinner, Twinlabs.ai, präsentiert durch Peter Gray, CEO, und Rob Webster, CTO, baut Digital Twins für Events. Zielgruppe sind die Organisatoren großer, wiederkehrender Events, von Event-Reihen und Betreiber von Event-Standorten wie Messegeländen. Die Gründer haben sich aus NTT herausgelöst. Dort hatten sie sich mit der Digitalisierung des Event-Managements beispielsweise für die Tour de France befasst.

Vorstrukturierte Integrationen, eine auf Mikroservices basierende Architektur und Templates sollen die Kosten für die Erstellung digitaler Zwillinge auf einen Bruchteil fallen. „Wir glauben, dass Branchen wie die Transportindustrie und der Einzelhandel ganz ähnliche Probleme haben. Auf die können wir unsere Lösung später übertragen“, sagt Gray.

Streaming wird neue Softwarekategorie

Die beiden Verfolger waren Busie, ein Start-up, das Prozesse bei den bisher kaum digitalisierten Anbietern von Bus- und Limousinen-Gruppentransport für Personengruppen optimiert. Aktiv ist das Unternehmen im Moment in den USA und Kanada.

Atomic Tisselator betätigt sich in der Computational Chemistry, hier dem Moleküldesign. Mit Stream-Verarbeitung und KI sollen schneller effizientere Katalysatoren (Beschleuniger) für wichtige chemische Reaktionen wie die zur Düngerproduktion nötige Haber-Bosch-Reaktion entwickelt oder gefunden werden. Nur wenige Prozent mehr Effizienz bewirken dabei global betrachtet sehr große Energieeinsparungen oder andere Nutzeffekte. Atomic Tisselator will die Katalysatoren selbst finden. Deren Nutzer sollen dann Lizenzgebühren entrichten.

Auf der angegliederten Ausstellung fanden sich zahlreiche kleinere und sehr junge Unternehmen, deren Ziel es ist, über kurz oder lang an Confluents Marktanteil zu knabbern. Kai Wähner, CTO von Confluent: „Wir begrüßen das. Denn Data Streaming wird, so jedenfalls Forrester [ein Marktforschungsunternehmen, die Red.], zu einer neuen Softwarekategorie, und das bedeutet jede Menge Wachstum.“

(ID:49977768)