Nachbericht GraphSummit Neo4j kündigt auf dem GraphSummit neue Features und Services an

Anbieter zum Thema

Neo4j ist der derzeit führende Anbieter von Graphdatenbanken. Der schwedisch-amerikanische Softwarespezialist lud im Juli große deutsche Kunden zum GraphSummit nach München ein. Dort berichtete DB Systel, die IT-Tochter der Deutschen Bahn, von ihren Nutzungserfahrungen. Auch weitere Pläne für die Neo4j-Plattform wurden präsentiert.

Vortrag von Dr. Klaus Bermuth (rechts) und Frederik Behler von der Deutschen Bahn AG
Vortrag von Dr. Klaus Bermuth (rechts) und Frederik Behler von der Deutschen Bahn AG
(Bild: Neo4j )

Graphdatenbanken werden, darauf deuten jedenfalls Studien hin, in Zukunft immer wichtiger. So konstatiert Gartner, dass bis 2025 60 Prozent der existierenden Modelle durch kontext-getriebene analytische Methoden ersetzt werden. Weiter sollen bis dahin 80 Prozent der Innovationen in der Datenanalyse Graph-Technologie verwenden.

Der Grund dafür: „Graph-Technologie vereinheitlicht die Beziehungen zwischen heterogenen Daten intuitiv. Das macht ihren Kontext sichtbar“, erklärt Heiko Schönfelder, Country Manager Deutschland bei Neo4j. Und diesen Kontext brauche man für neue Einsichten.

Das inzwischen auf über 700 Mitarbeiter angewachsene schwedisch-amerikanische Unternehmen mit Hauptsitz in Malmö ist derzeit zumindest laut Forrester Wave führend in diesem Segment. Neo4j, das es auch in einer kostenlosen Open-Source-Version gibt, wurde bislang mehr als 100 Millionen Mal heruntergeladen. Die Community zählt über 250.000 Mitglieder.

„50 bis 60 deutsche Großunternehmen gehören zu unseren Kunden“, Dirk Möller, Regional Manager DACH und Emerging Regions bei Neo4j.
„50 bis 60 deutsche Großunternehmen gehören zu unseren Kunden“, Dirk Möller, Regional Manager DACH und Emerging Regions bei Neo4j.
(Bild: Rüdiger )

In seiner kommerziellen Variante allerdings wird Neo4j nur vom gleichnamigen Unternehmen weiterentwickelt. „Wir geben viele Funktionen anschließend weiter an die Open Source Community“, sagt Area Director of Sales Dirk Möller, der für die Region DACH sowie die sogenannten Emerging Regions zuständig ist. Diese bestehen derzeit aus Italien, Spanien und Osteuropa. Der Geschäftsaufbau in der letztgenannten Region verzögert sich allerdings auf Grund der geopolitischen Lage.

Steiles Wachstum setzt sich fort

Neo4j wächst pro Jahr etwa um die Hälfte. Die Entwickler-Community, die vor allem Applikationen auf Basis der Graph-Plattform entwickelt, legt jährlich sogar um rund 80 Prozent zu. Rund 50 Prozent der Umsätze kommen aus den USA. Der deutschsprachige Raum trägt ca. zehn Prozent bei. Außerdem konnte der Softwarespezialist 2021 390 Millionen Dollar frisches Kapital einwerben.

Der Erfolg hat Gründe. Möller: „Wir waren die erste und einzige native Graphdatenbank“, sagt Möller. Die meisten Wettbewerber setzen die Graphtechnologie lediglich als Layer auf bekannte Datenbankformen wie relationale Datenbanken oder Key-Value-Store auf. „Diese Software ist nicht optimal auf Graph-Verarbeitung zugeschnitten“, erklärt Möller.

Die Neo4j Graph Data Platform umfasst die Neo4j-Datenbank, das Graph-Data-Science-Modul (GDS), den Visualisierer Bloom und Neo4j Fabric, ein Tool zum Zusammenführen oder Aufteilen von Datenbeständen. Anfragen werden mit der Graph QL direkt in den Query Browser eingegeben.

Seit einem Jahr: Neo4j aus der Cloud

Seit rund einem Jahr gibt es die Lösungen von Neo4j auch als Hyperscaler-Cloud-Service AuraDB oder AuraDS. Dabei setzt Neo4j von vornherein auf einen Multicloud-Ansatz. Mit der Zeit sollen alle Services bei allen drei großen Providern (AWS, Azure und GCP) verfügbar sein. Auch Integrationen mit anderen Cloud-Providern sind auf Kundenwunsch möglich.

In den vergangenen Monaten hat Neo4j zahlreiche Neuerungen eingeführt. Dazu gehört ein Data-Warehouse-Konnektor. Über ihn lassen sich die Data Warehouses von Snowflake, Google Big Query und Amazon Redshift einbinden. Weitere Konnektoren öffnen Neo4j für viel genutzte Sprachen, Streaming-Tools oder verbreitete BI-Applikationen.

Die Graph Data Platform wurde zudem um eine intuitive Benutzerschnittstelle für die Datenmodellierung erweitert. Mit ihr lassen sich flache Dateien auf Graphen mappen. So kann man Millionen von Datensätzen sehr schnell direkt in Neo4j importieren. Ein Operations Manager zeigt auf einem Dashboard die wichtigsten Betriebsparameter von Neo4j, und zwar übergreifend für mehrere Deployments.

Riesige Graphdatenbank

Das Graph-Data-Science-Modul verfügt mit mehr als 65 Graph-Algorithmen über einen umfassenden Fundus. Bis zu acht Millionen Datenobjekte lassen sich pro Sekunde einlesen. Ein nativer Python-Client gehört zum Produkt genau wie eine automatisierte ML-Pipeline. Ein feingranuliertes rollenbasiertes Zugriffskonzept sorgt dafür, dass nur Befugte an Daten und Ergebnisse kommen.

„Das Graph-Data-Science-Modul automatisiert die Datentransformation“, erklärt Neo4j Product Manager Luke Gannon. So könne man mit verschiedenen Datensätzen und -modellen experimentieren oder schnelle Iterationen durchführen. Eine weitere neue Funktion ist das Embedding. Damit lassen sich Graphen so zusammenfassen und gewichten, dass sie als Input für AI-Pipelines taugen.

Integriert wurde auch Apache Arrow, ein Tool für den sprachenunabhängigen Datentransport. Es kann große Graphen schnell im- und exportieren. Außerdem gibt es jetzt einen nativen Data Science Python Client. Er vereinfacht die Arbeit mit Algorithmen wie beispielsweise Python-Funktionen. Wie die Graphen aussehen, die ihre Algorithmen erzeugen, können Anwender im Visualisierungstool Bloom ausprobieren.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Einfachere Updates

Auch von den weiteren Entwicklungsplänen berichtete Neo4j. Geplant ist ein Bulk-Updater, der den mühevollen Update-Prozess vereinfacht, indem die Aktualisierungen in eine zweite Datenbank geschrieben und anschließend gemergt werden.

Seine diversen Tools will Neo4j in einem einzigen Workspace mit einer einheitlichen Benutzerschnittstelle zusammenführen. Das soll die Benutzungserfahrung der Anwender vereinheitlichen und vereinfachen. Außerdem ist im zweiten Halbjahr eine neue Benutzerschnittstelle für die Abfragesprache GraphQL geplant.

In der fünften Version von Neo4j soll das automatische Clustering unterschiedlicher Datenbanken und unterschiedlicher Cluster möglich werden. Leistung und Funktion der einzelnen Datenbanken bleiben trotzdem erhalten.

Vorzugsweise Großkunden

Neo4j unterstützt Kunden aller Größenordnungen. Erklärtermaßen wird der Umsatz aber in erster Linie mit Enterprise-Kunden erzielt, die oft für mehrere Millionen jährlich bei Neo4j einkaufen. Außerdem stammen rund 10 bis 15 Prozent der Umsätze aus dem OEM-Geschäft, das eher überproportional wächst. Möller: „Unsere Software steckt beispielsweise in Sicherheitslösungen oder in Telefon-Betriebssystemen.“

Mehr als 75 der Fortune-100-Firmen nutzen laut dem Unternehmen Neo4j, darunter die zehn größten Banken weltweit, zum Beispiel um Betrugsversuche rasch herauszufinden. Weitere Kunden kommen aus der Versicherungs-, Automotive-, Telekommunikations- oder Pharmabranche. Deshalb legt Neo4j auf Enterprise-Funktionen wie Skalierbarkeit und Sicherheit großen Wert.

50 bis 60 der Neo4j-Großkunden stammen aus Deutschland, darunter so bedeutende wie die Deutsche Bahn. DB Systel, die IT-Tochter des Bahnriesen, beschäftigt rund 5.400 Mitarbeiterinnen und Mitarbeiter. 15 bis 20 davon befassen sich mit Neo4j.

Deutsche Bahn: Feingranulare Analysen sollen den Verkehr optimieren

Die Bahn führt pro Tag 40.000 Fahrten durch, hat 5.700 Bahnhöfe und ein Streckennetz von 33.000 Kilometern Länge zu verwalten. „Das deutsche Bahnnetz ist eines der komplexesten weltweit“, erklärt Dr. Klaus Bermuth, der bei DB Systel schon einige Jahre mit Neo4j arbeitet. „Denn auf denselben Schienen fahren höchst unterschiedliche Züge mit unterschiedlicher Länge, Beschleunigung oder Geschwindigkeit.“ Beispielsweise Güterzüge, Personenzüge und die S-Bahn.

Frederik Behler erklärt, wie die Zugtelegramme für Datenanalysen mit Neo4j genutzt werden.
Frederik Behler erklärt, wie die Zugtelegramme für Datenanalysen mit Neo4j genutzt werden.
(Bild: Rüdiger )

Bermuths Team versucht derzeit, die Bahnverbindungen und -bewegungen im Raum Frankfurt zu analysieren. Dabei werden unterschiedliche Datenquellen ausgenutzt. „Wir verwenden die Fahrttelegramme der Züge, die jeweils entstehen, wenn sie ein Signal an der Strecke passieren oder den Bahnhof verlassen“, erklärt Frederik Behler, der als Datenwissenschaftler an dem Projekt mitwirkt. Weitere Datenquellen sind die vom Zug versendeten GPS-Daten oder der Fahrplan.

All diese Daten werden dann mittels der Graphdatenbank miteinander verknüpft und analysiert. Dabei können unterschiedliche Bezugspunkte gewählt werden, etwa der einzelne Zug oder ein bestimmter Bahnhof. Außerdem wird als weitere Ebene das Streckennetz mit seinen Kreuzungen, Weichen und Haltepunkten unterlegt.

Verbesserungen im Detail

Das Ganze ist hochkomplex und soll vorerst dazu dienen, „dass wir herausbekommen, warum bestimmte Dinge im Netz so ablaufen, wie sie ablaufen“, erklärt Bermuth. Dazu seine auch viele Gespräche mit dem operativen Bereich der Bahn und mit anderen Zugbetreibern, die das DB- Schienennetz nutzen.

„Wir haben schon einige kleine Verbesserungen erzielt, die aber für die Bahnnutzer nicht unbedingt sichtbar sind“, sagt Bermuth. In einigen Jahren sollen die Analysen aber auch den operativen Bereich vorteilhaft beeinflussen. Ein direkter Durchgriff auf den operativen Betrieb ist allerdings vorläufig nicht geplant. Auch mit der schnellen Graphdatenbank Neo4j brauchen Veränderungen am komplexen Koloss Deutsche Bahn also Zeit und Unterstützung durch die Politik.

(ID:48461015)