Nachbericht Current 2025 Confluent vereint Streaming- und Batchdaten

Von Michael Matzer 7 min Lesedauer

Anbieter zum Thema

Auf seiner Kundenkonferenz Current 2025 hat Streaming-Spezialist Confluent eine Reihe von Neuerungen vorgestellt, die helfen sollen, Echtzeit-Datenströme mit historischen Daten zu verbinden. Das soll etwa KI-Agenten nützen, die auf RAG-optimierte Daten zugreifen wollen.

Confluent-CEO und Mitgründer Jay Kreps auf seiner Keynote.(Bild:  Confluent)
Confluent-CEO und Mitgründer Jay Kreps auf seiner Keynote.
(Bild: Confluent)

CEO und Mitgründer Jay Kreps stellte das mittlerweile verfügbare Produkt Tableflow mit Leistungsmerkmalen vor, die noch kommen sollen. Tableflow soll es Entwicklern und Analysten erlauben, kontinuierliche Streaming-Daten mit historischen Daten zu kombinieren, die traditionell in Batch-Prozessen verarbeitet werden. Hier treffen also zwei verschiedene Konzepte aufeinander.

Eine grafische Darstellung der Funktion „Tableflow“. Zwei offene Tabellenformate werden unterstützt: Apache Iceberg und Databricks DeltaTables. Man beachte den Tableflow-Katalog der Metadaten und die Integration mit AWS S3 für Storage (als Beispiel).(Bild:  Confluent)
Eine grafische Darstellung der Funktion „Tableflow“. Zwei offene Tabellenformate werden unterstützt: Apache Iceberg und Databricks DeltaTables. Man beachte den Tableflow-Katalog der Metadaten und die Integration mit AWS S3 für Storage (als Beispiel).
(Bild: Confluent)

Zwei Dinge sind für Tableflow nötig: ein offenes Tabellenformat wie Apache Iceberg, das bereits unterstützt wird, und Snapshot Queries. „Snapshot Queries, eine neue Funktion in Confluent Cloud für Apache Flink, ermöglicht die gemeinsame Verarbeitung von vergangenen und aktuellen Daten, wodurch KI-Agenten und -Analysen deutlich leistungsfähiger werden.“ Das sind also „Schnappschüsse“ von Echtzeitdaten, die sich auswerten lassen, die aber in einem offenen Tabellenformat vorliegen müssen.

„Die Snapshots sind eine festgelegte Anzahl von Events innerhalb eines Datenstroms, die mit einem Zeitstempel versehen sind”, erläutert Kai Wähner, der CTO von Confluent im Gespräch. „Der Nutzer kann daher festlegen, welche Zeiträume er betrachten will und so auch einen Trend identifizieren.“ So habe beispielsweise Advanced Auto Parts in USA seine Preise für Scheibenwischer um 50 Prozent erhöht, als ein Sensor auf dem Ladendach registrierte, dass es zu regnen begann.

Snapshot-Abfragen sollen es Teams ermöglichen, historische und Streaming-Daten mit einem einzigen Produkt und einer einheitlichen Sprache zu vereinen. Das schafft konsistente, intelligente Nutzererlebnisse, sowohl für analytische Zwecke als auch für den Einsatz von Agentic AI. Snapshot-Abfragen sind jetzt im Early Access verfügbar.

Nach dem offenen Tabellenformat Apache Iceberg will Confluent auch Delta Tables unterstützen, die Databricks entwickelt hat, allerdings zu einem späteren Zeitpunkt. Im Rahmen einer erweiterten Partnerschaft mit Databricks bietet Confluent ein Early-Access-Programm für Delta Lake an.

Die Kombination von Streaming und Iceberg ermögliche Teams, die Apache Flink und andere Tools nutzen, eine Verarbeitung sowohl von kontinuierlichen Datenströmen als auch von Batch-Workloads innerhalb einer einzigen Plattform. Dadurch entfielen die Komplexität und der betriebliche Aufwand für die Verwaltung separater Datenverarbeitungslösungen.

Darüber hinaus soll die Datenspeicherung mit Tableflow flexibler werden. Dafür koppelt Confluent verbreitete Datenkataloge an, so etwa Glue Data Catalog von AWS und Open Catalog von Snowflake, ein Managed Service für Apache Polaris. Neu sind zudem der Snowflake Source Connector, das Cross-Cloud Cluster Linking und neue private Netzwerkfunktionen für Schema-Registry.

Verbesserte KI-Agenten

Die Anwendungsfälle reichen von KI-Agenten und -Apps über umfassende Analysen in Echtzeit bis hin zu allgemeineren Apps. CEO Jay Kreps bestätigte, dass KI-Agenten, die RAG nutzen, vom Zugriff auf interne oder öffentliche historische Daten profitieren, weil sie auch Verläufe und Trends berücksichtigen können.

So sind etwa Banken bei der Betrugserkennung auf Echtzeitdaten angewiesen, um verdächtige Aktivitäten sofort zu erkennen. Gleichzeitig benötigen sie vergangene Daten, um bewerten zu können, ob eine Transaktion dem bisherigen Verhalten eines Kunden entspricht. In Krankenhäusern sind sowohl aktuelle Vitalwerte als auch die medizinische Vorgeschichte entscheidend, um sichere und fundierte Behandlungsentscheidungen zu treffen.

Agentische KI

„Der systematische Einsatz von Agentic AI nimmt zu. Jetzt ist der richtige Zeitpunkt, um sich darauf vorzubereiten“, sagt Stewart Bond, Vice President für Data Intelligence and Integration Software bei IDC. „Um das volle Potenzial dieser Technologie auszuschöpfen, sollten Unternehmen nach Lösungen suchen, die verschiedene Datentypen – strukturierte, unstrukturierte, Echtzeit- und vergangene Daten – in einer einheitlichen Umgebung zusammenführen. Nur so kann KI ganzheitliche Erkenntnisse gewinnen und aussagekräftige Ergebnisse liefern.“

Um jedoch sowohl vergangene als auch aktuelle Daten effektiv zu nutzen, greifen Teams oft auf verschiedene Tools zurück. Sie entwickeln manuelle Workarounds, was zu zeitaufwendigen Prozessen und unterbrochenen Abläufen führt. Zudem sei es laut Wähner unerlässlich, die für Analysen und Agentic AI genutzten Daten zu schützen, um verlässliche Ergebnisse sicherzustellen und sensible Informationen vor unbefugtem Zugriff zu bewahren. Das lasse sich nun durch CCN-Routing und IP-Filter besser realisieren.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Integration mit Apache Flink

Die Integration von Apache Flink mit der Confluent Cloud schreitet weiter voran. Dies soll die Entwicklung von Echtzeit-Anwendungen für KI vereinfachen und beschleunigen helfen.

Data Lakes erlauben ja Batch-Verarbeitung, doch die Process Engine von Flink erledigt die Datenverarbeitung in Echtzeit“, erläutert CTO Wähner.

In der Betrugserkennung bei einer Bank sei es wenig hilfreich, erst fünf Minuten später von dem Betrug zu erfahren. Vielmehr müsse der Betrugsversuch in Echtzeit erkannt werden und mit einer Vorhersage versehen sein, der zufolge der Nutzer abgewiesen oder akzeptiert wird. „Das Gleiche kann man in der Fertigung mithilfe von Sensoren erzielen oder im Einzelhandel mithilfe des aktuellen Kundenprofils, um dem Kunden ein minutenaktuelles Angebot aufs Handy zu schicken.” Diese Prozesse würden aufgrund der vorhandenen Konnektoren mit unterschiedlichen Datenquellen über verschiedene Plattformen wie SAP, Oracle oder Salesforce hinweg funktionieren. „Aber Flink kann auch Batch-Verarbeitung”, ergänzt Wähner. „Deshalb ist es möglich, Streaming- und Batch-Prozesse aus operatives Systemen (SAP usw.) mit solchen aus analytischen Systemen (Datenbanken, Data Lake, BI) zusammenzuführen. Das erfolgt in Tableflow.”

Flink Native Inference soll komplexe Arbeitsabläufe vereinfachen, weil es erlaubt, beliebige Open-Source-KI-Modelle wie etwa ChatGPT oder Mistral AI direkt in der Confluent Cloud auszuführen. „Das betrifft die Inferenz von vortrainierten Modellen innerhalb der Flink Process Engine”, erläutert Wähner. Je nach Datenbasis des jeweiligen Modells erzeugt die Inferenz unterschiedliche Vorhersagen. „Weil sie auf unterschiedlichen Datenbeständen beruhen, unterscheiden sich etwa die Inferenzen bei BMW und Daimler deutlich voneinander.“ Flink Search soll zudem den Datenzugriff über mehrere Vektordatenbanken hinweg und die Suche und den Abruf über eine einzige Schnittstelle optimieren.

„Um zu verhindern, dass KI-Agenten halluzinieren, und herauszufinden, ob das gerade der Fall ist, erfolgt die Prüfung bereits in der Process Engine von Flink“, erläutert Wähner. „Das hat Air Canada in einem bekannten Fall 2024 in seinem Chatbot unterlassen.” Es sei zu einem verprellten Passagier gekommen, der die Fluggesellschaft verklagte.

Flink SQL ist eine Abfragesprache für die Datenanalyse. Sie soll nun auch Prognosen und Anomaliererkennung erlauben, indem sie neuen integrierten Funktionen für maschinelles Lernen (ML) solche KI-gesteuerte Anwendungsfälle wie etwa Forecasting ermöglicht. Gemeinsam sollen es diese Flink-Funktionen den Confluent-Kunden erlauben, KI-Apps und -Agenten für die Kundeninteraktionen (Support usw.) und Entscheidungsfindung in Echtzeit zu realisieren. Diese Funktionen sind im Rahmen eines Early-Access-Programms verfügbar, das für die Anmeldung von Confluent-Cloud-Kunden offen ist.

Höhere Sicherheit bei Flink-Nutzung

Confluent Cloud Network (CCN) Routing soll die private Anbindung von Flink erleichtern, während IP-Filterung Zugriffskontrollen für öffentlich zugängliche Flink-Pipelines einführt, um Daten für agentische KI und Analyseanwendungen abzusichern.

Routing vereinfacht private Netzwerke für Apache Flink

Private Netzwerke sind für Unternehmen mit hohen Sicherheitsanforderungen unverzichtbar. Confluent bietet hierfür eine verbesserte Lösung: Bereits bestehende Confluent Cloud Networks (CCN, die für Apache-Kafka-Cluster eingerichtet wurden, lassen sich jetzt auch für Flink-Workloads nutzen. Teams können damit Daten sicher mit beliebigen Flink-Anwendungen verbinden, wie etwa für Streaming-Pipelines, Agentic AI oder analytische Workloads. CCN Routing ist ab sofort auf AWS allgemein in allen Regionen mit Flink-Unterstützung verfügbar.

IP-Filterung schützt Flink-Workloads in hybriden Umgebungen

Unternehmen mit hybriden IT-Strukturen benötigen oft eine gezieltere Kontrolle über öffentliche Datenzugriffe. Die neue IP-Filterung für Flink ermöglicht es laut CTO Wähner, den eingehenden Internetverkehr präzise auf freigegebene IP-Adressen zu beschränken. Gleichzeitig verbessert sie die Nachvollziehbarkeit unautorisierter Zugriffe und stärkt die IT-Sicherheit durch mehr Transparenz. „Diese Kontrolle des Zugriffs ist in der Cloud schwierig zu realisieren“, weiß Wähner, „und daher für Admins umso wichtiger, um Sicherheit zu gewährleisten.“ Die IP-Filterung ist ab sofort für alle Nutzerinnen und Nutzer von Confluent Cloud allgemein verfügbar.

„Die meisten unserer Projekte dienen der Migration“, berichtet Wähner. „Die meisten werden von Systemintegratoren wie SVA oder MVG im SAP-Umfeld geleistet.“ Denn dort sei der Bedarf nach digitaler Transformation derzeit sehr hoch, ebenso wie der Zeitdruck aufgrund der Wartungsfristen.

Übergang zu Kafka 4.0

Auf seiner Webseite kündigt Confluent den entschlossenen Übergang zu Kafka 4.0 an. Beim Upgrade werden dabei alte Versionen von Komponenten abgewertet bzw. ausrangiert. Dazu gehört Apache Zookeeper, das durch den Kraft-Modus ersetzt wird. Damit lassen sich Services in verteilten Systemen ebenso hochverfügbar, performant und redundant bereitstellen, aber ohne ein Extra-Tool wie Zookeeper.

Der Übergang zu Version 4.0 werde den Umstieg zu mehreren aktuellen Versionen von quelloffener Software notwendig machen. Kafka Clients und Kafka Streams erfordern nun Java 11, und Kafka Brokers, Connect und Tools erfordern Java 17. Als KIP-932 wird das Konzept der Kafka Queues eingeführt. Es handelt sich offenbar nicht um Warteschlangen, sondern um das Teilen von Ressourcen im Sinne kooperativer Nutzung. Das Konzept befindet sich noch in der Entwicklung und sollte derzeit nicht produktiv genutzt werden.

(ID:50433330)