Nachbericht Kafka Summit 2022 Confluent treibt Ereignisverarbeitung mit Kafka voran

Von Michael Matzer

Confluent, ein Anbieter von Streaming-Technologien, hat auf seiner Anwenderkonferenz Kafka Summit 2022, die in London stattfand, eine Reihe von Neuerungen vorgestellt. CEO Jay Kreps erläuterte fünf Prinzipien der Streaming-Technologie und stellte die Entwicklungsfirma Wix als exemplarischen Kunden vor.

Anbieter zum Thema

Confluent-CEO Jay Kreps (links) und Avi Perez, Head of Backend Engineering bei Wix.com, bei der Eröffnungs-Keynote des Confluent Kafka Summit 2022 in London.
Confluent-CEO Jay Kreps (links) und Avi Perez, Head of Backend Engineering bei Wix.com, bei der Eröffnungs-Keynote des Confluent Kafka Summit 2022 in London.
(Bild: Daniel Jones)

Confluent-CEO Jay Kreps, Mitentwickler von Apache Kafka, hielt seine Eröffnungsrede zum Thema „Modern Data Flow with Kafka“ nicht, ohne gleichzeitig zu erwähnen, dass sich die Kafka-Bibliothek zunehmender Beliebtheit erfreue. Das ließ sich gut anhand der steil nach oben zeigenden Kurve ablesen, die die Anzahl der Downloads widerspiegelte.

Die Anwendungsfälle für Streaming Analytics und -Transaktionen dürften bekannt sein: Echtzeitbenachrichtigungen für alle denkbaren Dienste, u. a. bei Flugbuchungen. Diese sorgen für zufriedenere Kunden, denn es ist für sie wichtig, rechtzeitig über Verspätungen, Umleitungen oder gar Streichungen von Flügen informiert zu werden.

Diese Benachrichtigungen in Echtzeit erstellen und senden zu können, ist nicht trivial, denn daran sind, wie die Demo zeigte, mehrere zentrale IT-Systeme beteiligt. Sowohl auf der Airline-Seite als auch auf der Buchungsseite müssen Daten mit SQL (Structured Query Language) abgefragt und auf einem Info-Bus zusammengeführt werden, bis sie schnellstmöglich an die betroffenen Personen in der passenden Form (SMS, Whatsapp, E-Mail usw.) versandt werden können. Kafka sorgt mit seiner Struktur aus Konnektoren, Abfragesprache, Publish/Subscribe-basierter Datenübertragung und anderen Funktionen für diese Zusammenführung, Verarbeitung und Verteilung. Und zwar nicht etwa wie in Legacy-Systemen nach dem Prinzip der Stapelverarbeitung („Batch“), sondern in Echtzeit, wie Kreps aufzeigte.

Dieser Übergang von der Legacy-Batch-Verarbeitung zum modernen Datenfluss in Echtzeit müsse laut Kreps fünf Prinzipien folgen: Streaming statt Batch; Dezentralisierung statt Data Warehouse; deklarativ als SQL mit Konnektoren; Entwickler-orientiert nach dem quelloffenen CI/CD-Modell („Code is king“); und schließlich „von Governance und Beobachtbarkeit bzw. Transparenz“ bestimmt. Dieses letzte Prinzip ist insbesondere für bilanzpflichtige und börsennotierte Unternehmen von zentraler Bedeutung, denn sie müssen nachweisen können, wo die Zahlen ihrer Bilanz stammen und dass sie nicht manipuliert werden konnten. Können sie das nicht, haben sie ein Problem.

Neuerungen

Diesen zentralen Aspekt und weitere adressieren die Neuerungen, die Confluent u. a. auf dem Kafka Summit 2022 vorstellte oder ankündigte. Dazu gehören untern anderem Roll Based Access Control (RBAC), der vollständig gemanagte Oracle CDC Source Connector, die Metrics-API und die Grafana-Cloud-Integration.

Zugangskontrolle mit RBAC

Eigentlich verfügt Confluent bereits über die rollenbasierte Zugangskontrolle (Role-based access control, RBAC) seit 2021, doch nun sind die Kontrollmöglichkeiten noch feiner eingestellt worden. Um sowohl Datenkonformität als auch Datenschutz berücksichtigen zu können, reicht die Zugriffskontrolle bis hinab auf die Ebene der Datenhaltung. Zur Datenhaltung gehören beispielsweise die Kafka-Topics bzw. -Themen. Diese Granularität des Zugriffs mit komplexen Skripten sicherzustellen, ist mühselig. RBAC änderte das 2021: Die rollenbasierte Zugriffskontrolle ließ sich – zumindest in der Confluent Cloud – mit einem Mausklick einstellen.

Mit dem Q2-Release 2022 wird die RBAC-Kontrolle auf einzelne Kafka-Ressourcen wie etwa Topics, Verbrauchergruppen im Pub/Sub-Verfahren und auf Transaktions-Identitäten ausgeweitet. Das soll es Unternehmen erlauben, klare Rollen und Verantwortungsbereiche für Admins, Operatoren und Entwickler festzulegen. Dadurch können diese Rollen nur auf solche Daten zugreifen, die für die Ausübung ihrer Tätigkeit sowohl auf der Daten- als auch auf der Steuerungsebene nötig sind.

Metriken

Die erweiterte Metrics API für die Confluent Cloud unterstützt zahlreiche wirtschaftliche Aspekte, die der Betrieb einer Confluent-Cloud-Instanz mit sich bringt. So ist beispielsweise wichtig zu wissen, ob die Leistung von Confluents-Kafka-Diensten im Daten-Streaming stets dem Optimum hinsichtlich Auslastung und Leistung entspricht und nicht etwa während eines Notfalls nachlässt oder gar ausfällt.

Mit dem neuen Release führt Confluent zwei weitere Metriken ein. Kunden erhalten Einblick, wo in ihrer Organisation in Geschäftsbereichen und Unterabteilungen die bereitstehenden Ressourcen auf welche Weise genutzt werden. Das ist relevant für Unternehmen, die diese Nutzung intern verrechnen können bzw. müssen. Sie können also Kostenstellen überwachen, was im Hinblick auf den jeweiligen Ausbau der Streaming-Nutzung wichtig für die Planung ist. Teams können herausfinden, wo Ressourcen über- oder unterfordert werden. Diese Analyse kann sich bis zu einem einzelnen Nutzer erstrecken. Anschließend können sie die Zuweisung von Ressourcen optimieren und die Kostendämpfung verbessern.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Neue Funktionen für die Nachverfolgung von Verzögerungen bei der Dienstnutzung soll Unternehmen helfen sicherzustellen, dass ihre geschäftskritischen Dienste stets den Nutzererwartungen entsprechen. Mithilfe von Echtzeitanalysen sollen Confluent-Kunden in die Lage versetzt werden, Hotspots in ihren Daten-Pipelines zu finden und leicht Flaschenhälse zu identifizieren, an denen die Ressourcen skaliert werden müssen, bevor ein Zwischenfall auftritt.

Datensätze lassen sich nun als Zeitreihen darstellen und verwenden. Das erlaubt es den Mitarbeitern Entscheidungen, die den historischen Kontext berücksichtigen, wenn sie SLOs (Service Level Objective festlegen oder anpassen.

Grafana-Integration

Grafana Cloud fährt nun auf dem Kafka-Zug mit, und zwar „erster Klasse“, wie Confluent betont. Das verbreitete Open Source Tool für die Abfrage und Visualisierung von Metriken gewährt Nutzern der Confluent Cloud weiter gehende Einblicke, auf die sie aus dem bereits verwendeten Monitoring-Tool zugreifen können. Dieses Update soll es Nutzern erlauben, ihre Datenströme besser im Blick zu behalten.

Oracle-Unterstützung

Im neuen Release ist Confluents „Premium Source Connector“ für Oracles Software Change Data Capture (CDC) verfügbar. Der Konnektor soll Kunden in die Lage versetzen, Daten aus hochwertigen Systemen (wie etwa Oracle-Datenbanken) einfach und kosteneffektiv in die Confluent Cloud zu integrieren. Mithilfe des vollständig verwalteten Konnektors können Nutzer wichtige Änderungsereignisse aus einer Oracle-Datenbank auslesen und sie in Echtzeit in Confluent Kafka ansehen, ohne zusätzlichen operativen Aufwand bewältigen zu müssen.

Erhöhte Verfügbarkeit

Eine der größten Sorgen, wenn sich ein Unternehmen auf Open Source Software in geschäftskritischen Workloads verlässt, ist nach Confluents Ansicht die Zuverlässigkeit in Form von Verfügbarkeit. Ein Ausfall ist nicht hinnehmbar, wenn ein Unternehmen in der digitalen Welt tätig ist. So ein Ausfall hat nicht nur finanzielle und wirtschaftliche Schäden zur Folge, sondern schadet langfristig auch dem guten Ruf des Unternehmens.

Confluent bietet nun in seinen SLAs erstmals eine Verfügbarkeitsgarantie von 99,99 Prozent an. Das lässt im Jahr nur wenige Stunden an Ausfallzeit zu. Die Garantie betrifft die Tarife „Standard“ und „Dedicated“ (dediziert) in vollständig verwalteten Multizonen-Clustern. Sie deckt nicht nur Infrastruktur ab, sondern auch Kafka-Performance, Beseitigung kritischer Fehler, Sicherheits-Updates und mehr. Das umfassende SLA soll es den Kunden erlauben, die vertraulichsten und geschäftskritischen Streaming-Workloads in der Cloud mit vollem Vertrauen auszuführen.

Rezepte für Anwendungsfälle

Für viele Entwicklerteams ist Stream-Verarbeitung und die damit verbundenen Anwendungsfälle noch Neuland, findet Confluent. Um bei solchen Use Cases einen schnellen Start zu ermöglichen, führt Confluent nun Kochrezepte ein: Stream Processing Use Case Recipes. Diese Reihe von 25 der verbreitetsten Anwendungsfälle, die von Kunden und zertifizierten Experten stammen, lässt sich direkt in der Confluent mit einem Mausklick starten. Die Rezepte sollen besonders Entwicklern zu einem schnellen Start in die Nutzbarmachung der Stream-Verarbeitung verhelfen. „Mit den Stream Processing Use Case Recipes können wir gebrauchsfertige Code-Beispiele nutzen, um neue Echtzeitinitiativen für unser Geschäfts rasch anzustoßen“, sagt Jeffrey Jennings, Vice President of Data and Integration Services bei Acertus, einem Unternehmen in St. Louis, Missouri, das Echtzeitinformationen in der Automobillogistik bereitstellt.

Ein Anwender

Schon in seiner Keynote stellte Jay Kreps mit der Softwarefirma Wix einen Anwender vor. Mit Wix kann jeder User seine eigene Webseite erstellen. Avi Perez ist dort Head of Backend Engineering. Er gab an, dass ganze sieben Prozent der Webseiten im Internet aus seinem Hause stammen würden. In Apache Kafka und seinem Anbieter Confluent habe er das ideale Werkzeug gefunden, um das Prinzip „Move fast at scale!“ umsetzen zu können, also eine schnelle Weiterentwicklung, die hoch skaliert. Als Beispiel nannte er den Transaktionsumfang: 700 Millionen Ereignisse würden seine Webseiten pro Tag verarbeiten.

Der zentrale Vorteil an der Arbeitsweise ist für Perez die Entkopplung der einzelnen Systeme, sodass Event Streams parallel verarbeitet werden können. Bei der Stapelverarbeitung (Batch) ginge das nicht. So sei es möglich gewesen, Cluster aus Microservices zu erstellen, beispielsweise für Warenkörbe für Millionen von Kunden auf E-Commerce. „Kafka stellt dafür Load Balancing und andere Funktionen bereit, sodass es keine Ausfälle gibt, und Disaster Recovery erfolgt in Echtzeit – diese Zuverlässigkeit schafft Vertrauen und erlaubt Software-Entwicklung mit hoher Geschwindigkeit.“

Als nächste Phase in der Entwicklung seines Unternehmens soll eine Multi-Cluster-Topologie in Angriff genommen werden, sodass ein asymmetrisches Deployment-Modell realisiert werden kann.

Sessions und Experten

In einer Reihe von Sessions und Expertengesprächen präsentierte Confluent zusammen mit Partnern und Kunden die mittlerweile bestehende Software-Landschaft und das Ökosystem, das sich um Confluent und Apache Kafka entwickelt hat. Offensichtlich erfüllt Stream Processing einen wachsenden Bedarf, der in der digitalen Wirtschaft täglich zunimmt.

(ID:48264674)