Kommentar von Manish Devgan, Hazelcast Stream-Verarbeitung für eine bessere Kundenbindung

Von Manish Devgan Lesedauer: 5 min |

Anbieter zum Thema

Die Echtzeit-Wirtschaft klopft unüberhörbar an die Tür und junge Technologiekonzerne strecken ihre Fühler aus. Vorbei sind die Zeiten, in denen „Digital First“ für Unternehmen ausreichte. Das Online-Angebot ist aufgrund der digitalen Migration explodiert: Was vor der Pandemie Jahre gedauert hat, konnte plötzlich in nur wenigen Monaten umgesetzt werden.

Der Autor: Manish Devgan ist Chief Product Officer von Hazelcast
Der Autor: Manish Devgan ist Chief Product Officer von Hazelcast
(Bild: Hazelcast)

Laut IDC verfügen mehr als die Hälfte (53 Prozent) der Unternehmen mittlerweile über eine unternehmensweite Strategie für die digitale Transformation. Den entscheidenden Unterschied macht die Echtzeit aus. Erfolgreich werden jene sein, die IDC „Digital-First-Aficionados“ nennt und die sich durch Innovationen in puncto Kundenbindung auszeichnen. Das kann durch den Einsatz von Daten-Management- und -verarbeitungstechnologien in Echtzeit erfolgen – z. B. um maßgeschneiderte Angebote genau zu dem Zeitpunkt zu unterbreiten, zu dem Kunden online einkaufen oder Bankgeschäfte tätigen. Auch bezieht sich dies auf die Fähigkeit der Unternehmen, betrügerische Aktivitäten während einer Transaktion zu erkennen und diese sofort zu bekämpfen oder ein Bauteil rechtzeitig auszutauschen, bevor eine Maschine ausfällt.

Diese Art der Interaktion beherrschen die Giganten des Silicon Valley – und in zunehmendem Maße auch die digitalen Start-ups – ausgezeichnet. Amazon und Netflix zum Beispiel haben das Kundenerlebnis in ihren jeweiligen Bereichen Einkauf und Film völlig neu definiert, indem sie personalisierte Dienste und maßgeschneiderte Angebote in diesem so wichtigen ersten Fenster der Kundeninteraktion bereitstellen.

Amazon erklärt, dass es nicht nur um die Herausforderung geht, sondern auch darum, wie man die Anforderungen bewältigt: „Eines der Probleme in Bezug auf Amazons riesiger Auswahl ist, dass sie extrem umfangreich ist. Für Amazon ist es von ganz entscheidender Bedeutung, den Kunden exakt zu verstehen, um es ihm möglichst leicht zu machen, das zu finden, was er wirklich sucht."

Das Wichtigste ist, den Kunden umfassend zu verstehen

Um das zu erreichen, bedarf es einer „frischen“ 360-Grad-Sicht auf den Kunden mit aktuellen Erkenntnissen auf der Grundlage von dessen Echtzeitverhalten und -bedürfnissen. Die Etablierung dieser „frischen“ Ansicht erfordert zum einen Streaming-Ereignisdaten (wie z. B. Website-Klicks, Maschinen-Kommunikation und Transaktionen von Endgeräten, die in Millisekunden generiert werden, sowie Aussagen über aktuelle Geschehnisse und Ereignisse).

Zum anderen bedarf es historischer Daten aus statischen Systemen. Aus der Kombination von beidem ergibt sich der Kontext und der Wert dieser Ereignisse. Das muss genau in dem Moment bereitgestellt werden, in dem es benötigt wird – ohne die Wartezeit, die eine Datenbank für die Verarbeitung braucht. Nur so ist eine Umsetzung zu realisieren. Notwendig ist demnach eine IT-Infrastruktur, die Streams in Echtzeit verarbeiten kann.

De-facto-Standard aber keine Datenbank

Apache Kafka hat sich zu einem De-facto-Standard für das Streaming von Ereignisdaten in Echtzeit entwickelt. Diese Open-Source-Event-Streaming-Technologie hat sich aufgrund ihrer Geschwindigkeit und einfachen Implementierung bei einer besonders wichtigen Kategorie von IT-Anwendern als beliebt erwiesen: den Entwicklern. Das Streaming-Analytik-Unternehmen Swim hat in seiner Studie „State of Streaming Data“ herausgefunden, dass fast die Hälfte der Unternehmen Einblicke in Streams generieren, wobei Kafka die führende Wahl hinsichtlich der Basistechnologie ist.

Bezeichnenderweise schließt Swim dabei ein zentrales Element der Streaming-Technologie bei seinen Erwägungen aus. Ein Element, das eine wichtige Quelle für kontextreiche Daten darstellt, die wiederum für die Erstellung einer 360-Grad-Ansicht wichtig sind: einen schnellen Datenspeicher. Denn, wie Swim-Chef Ramana Jonnala anmerkt, würde die Speicherung von Daten in "latenzanfälligen Datenspeichern" die Fähigkeit von Unternehmen beeinträchtigen, "sofort auf geschäftskritische Ereignisse zu reagieren und entsprechend zu handeln.".

ETL – Extrahieren, Transformieren, Laden – stellt eine Hürde dar: Das Schreiben großer Datenmengen, die Ausführung von Aggregationen, die Verarbeitung und Präsentation von Ergebnissen – früher wurde dies am Ende des Tages in Batches ausgeführt. Heute erfolgt das in Microbatches. Jeder Schritt in dieser Sequenz führt zu Verzögerungen. Infolgedessen hinken die Daten den tatsächlichen Ereignissen hinterher, was ihren Wert mindert.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Die Entwicklung von Echtzeitanwendungen bedeutet, dass die Architektur mit einer Plattform für die Verarbeitung von Echtzeitdatenströmen neu überdacht werden muss. Diese Plattform muss in der Lage sein, Daten aus verschiedenen Quellen mit hoher Geschwindigkeit aufzunehmen und zu verarbeiten – seien es Streaming-Daten, wie Website-Transaktionen oder statische Daten wie CRM-Systeme oder andere Datenbanken.

Welche Merkmale zeichnen eine solche Streaming-Datenplattform aus?

Streaming-Flow: Hier geht es um die Bewegung der Daten. Die Fähigkeiten der Software, die dabei helfen, Daten aus verschiedenen Datenquellen zu verknüpfen und bereitzustellen, indem sie Informationen aussenden, die als Ereignisse bezeichnet werden.

Streaming-Engine: Sie ist der Schlüssel zur Aufnahme, Umwandlung, Verteilung und Synchronisation von Daten. Sie muss in der Lage sein, Daten in Echtzeit zu verarbeiten und die Ergebnisse direkt in Analysen einzubinden. Die Engine sollte Daten im Datenstrom kontinuierlich im Stream verarbeiten und Funktionen wie Windowing (zur Betrachtung von Daten innerhalb eines bestimmten Zeitraums) und Watermarking (zur Behandlung von Ereignissen, außerhalb einer Sequenz) umfassen. Außerdem sollte sie die Möglichkeit bieten, Jobs neu zu starten, die nur mit Momentaufnahmen (Snapshots) bezüglich der Informationen zum Zustand arbeiten, um Ausfallsicherheit, Konsistenz und Verfügbarkeit zu gewährleisten.

Data Processing (Datenverarbeitung): Die Anreicherung und Verarbeitung von Daten in Echtzeit erfordert schnelle und konsistent verteilte Berechnungen. Dies ist eine Herausforderung, wenn Daten über große Umgebungen hinweg verarbeitet werden müssen, in denen Verarbeitung und Netzverfügbarkeit nicht garantiert werden können.

Die Lösung besteht darin, die zur Verfügung stehenden Ressourcen zu nutzen: Es gilt, zur Verarbeitung (mehrere) Pools an Speicher in lokalen Servern und Clustern zu nutzen. Dadurch müssen die Daten nicht über das Netzwerk zu einem Datenzentrum übertragen werden und zudem wird keine zusätzliche Hardware für die lokale Verarbeitung benötigt. Die Streaming-Engine sollte in diese Rechenschicht integriert werden, um eine hohe Leistung zu erzielen. Eine In-Memory-Architektur liefert die für Echtzeit-Analysen erforderlichen Antworten im Sub-Millisekundenbereich, wobei jede Sekunde Millionen komplexer Transaktionen durchgeführt werden, um gespeicherte Daten mit Streaming-Daten zu verbinden. Eine In-Memory-Architektur liefert die im Sub-Millisekundenbereich erforderlichen Antwortzeiten für die Echtzeitanalyse, bei der Millionen komplexer Transaktionen pro Sekunde ausgeführt werden, um gespeicherte Daten mit Streaming-Daten zu verbinden.

Machine Learning (ML) Interface: Die letzte Meile auf dieser Landkarte ist die maschinelle Intelligenz. ML bietet das Potenzial zur Automatisierung, um intelligent mit Kunden zu interagieren und Transaktionen in großem Umfang durchzuführen. Doch etwa die Hälfte der ML-Projekte schafft es nicht, von der Pilotphase zur Produktion. Um diese Lücke zu schließen, muss das Maschinenmodell operationalisiert werden: Dazu ist eine Schnittstelle zu einem Speichergitter erforderlich, die sowohl die automatische, parallele Verarbeitung in Clustern als auch die gemeinsame Nutzung des Maschinenmodells in verschiedenen Pipelines ermöglicht. Dies liefert die Skalierbarkeit, Leistung und Zuverlässigkeit ohne zusätzliches Coding oder weitere Hardware.

Fazit

Der Erfolg in der Echtzeit-Ökonomie erfordert eine neue Informationsarchitektur: Eine Architektur mit Echtzeit-Stream-Verarbeitung, die turbogeladene Analysen, Kundenaktionen, Überwachung und mehr ermöglicht. Dies muss innerhalb eines unglaublich engen Zeitfensters geschehen, da Inputs und Outputs sich ständig ändern.

Artikelfiles und Artikellinks

(ID:49434490)