Nachbericht Neo4j Graph Summit in München Neo4j treibt Integration von Generativer KI voran

Von lic.rer.publ. Ariane Rüdiger 5 min Lesedauer

Anbieter zum Thema

Neo4j, Spezialist für Graph-Datenbanken, rief zum Graph Summit nach München. Neben kleineren Anpassungen stand die Integration von Generativer KI (GenAI) und Graph-Datenanalyse im Mittelpunkt des Treffens.

Neo4j, der Anbieter der aktuell führenden Graph-Datenbank, integriert die eigene Lösung mit LLMs. Das wurde in München beim Graph Summit 2024 verkündet.(Bild:  frei lizenziert /  Pixabay)
Neo4j, der Anbieter der aktuell führenden Graph-Datenbank, integriert die eigene Lösung mit LLMs. Das wurde in München beim Graph Summit 2024 verkündet.
(Bild: frei lizenziert / Pixabay)

Neo4j, nach eigenem Bekunden Weltmarktführer im Bereich Graph-Datenbanken, hat es geschafft: Die eigene Programmiersprache Cypher ist die Vorlage der von der Standardisierungskommission IEC inzwischen verabschiedeten ISO/IEC-Norm 39075:2024 für eine Graph-Abfragesprache (GQL, Graph Query Language).

Bedeutet das ein offenes Einfallstor für die Konkurrenz? Eher nein, meint Stefan Kolmar, Vice President Field Engineering EMEA und APAC bei Neo4j. Der Entwicklungsvorsprung bei Datenbanken betrage im Durchschnitt immerhin fünf Jahre, und die Bemühungen der Hyperscaler, eigene Graph-Lösungen anzubieten, dümpelten eher vor sich hin. Im Gegenteil: „Große Datenbankhersteller wurden erst wirklich erfolgreich, als die SQL-Schnittstelle standardisiert war und damit von jedem genutzt werden konnte.“

Vertikalisierung in DACH schreitet fort

„Wir bauen das vertikale Geschäft aus“, unterstreicht Heiko Schönfelder, Head of Sales für DACH und Osteuropa bei Neo4j.(Bild:  Rüdiger)
„Wir bauen das vertikale Geschäft aus“, unterstreicht Heiko Schönfelder, Head of Sales für DACH und Osteuropa bei Neo4j.
(Bild: Rüdiger)

Auch geschäftlich läuft es gut: Neo4j beschäftigt weltweit derzeit um die 750, in Deutschland um die 40 Mitarbeiter, Tendenz steigend. Über Geschäftszahlen gibt es keine Auskünfte. Heiko Schönfelder, Head of Sales für DACH und das erstarkende Geschäft in Osteuropa: „Wir vertikalisieren weiter. So haben wir inzwischen Mitarbeitende, die sich auf die Automotive-, die Finanz-, die Pharma- und die produzierende Branche spezialisiert haben.“

Das zweite große Thema, das den rund 100 Kunden in den Münchner Design Offices am Ostbahnhof präsentiert wurde, war die Integration von GenAI und Graph-Datenbanken: Die großen LLMs (Large Language Models) sollen hier die natürlichsprachliche und syntaxfähige Ein- und Ausgabeschnittstelle stellen. Damit verbunden arbeiten Knowledge-Graphen als zusätzliche Datenquellen, die dafür sorgen, dass nur richtige und fachlich passende Informationen in Antworten einfließen.

Vektorwert als Eigenschaft von Knoten

Deshalb wurde die Vektorisierung als neue Funktion Neo4j hinzugefügt: Jeder Knoten erhält als Eigenschaft einen Vektorwert, anhand dessen sich die inhaltliche Nähe zu anderen Knoten feststellen lässt.

Zahlreiche Neuerungen präsentierte im Eiltempo Michael Hunger, Head of Product and Development Strategy bei Neo4j.(Bild:  Rüdiger)
Zahlreiche Neuerungen präsentierte im Eiltempo Michael Hunger, Head of Product and Development Strategy bei Neo4j.
(Bild: Rüdiger)

„So kann man aus Neo4j auch unscharfe Antworten, also solche nach Ähnlichkeiten, herausholen, nicht nur ganz genaue Antworten“, erklärt Michael Hunger, Head of Product and Development Strategy. Letztere werden durch die Verbindungen zwischen den einzelnen Knoten abgebildet.

Das bezeichnet man als GraphRAG (Graph Retrieval Augmented Generation). Dabei werden LLMs mit externen Daten aus einem Knowledge-Graphen ergänzt. Diese Form von RAG soll KI-Halluzinationen verhindern und die Genauigkeit und Rückverfolgbarkeit der GenAI-Antworten verbessern.

Workspace – eine Oberfläche für alles

Hunger präsentierte auch eine ganze Reihe weiterer Neuerungen, die Neo4j innerhalb der vergangenen zwölf Monate hinzugefügt wurden. Beispielsweise sind jetzt verschiedene Graph-Tools, darunter der Neo4j Browser für Entwickler und das Visualisierungswerkzeug Neo4j Bloom für Endanwender, unter einer einheitlichen Benutzeroberfläche – dem Neo4j Workspace – zusammengefasst.

In Bloom kann man jetzt bei der Mustersuche auch Eigenschaften einbeziehen. Zeit- und Zahlenreihen lassen sich mittels des Data Slicers mehrdimensional animiert grafisch darstellen. Außerdem können mittels Low-Code-Technik ohne echte Programmierkenntnisse in Bloom Analysen durchgeführt werden, die das Tool dann auf den Daten vollzieht. In Zukunft sollen die Werkzeuge der zentralen Workspace-Oberfläche erweitert und verfeinert werden.

Weitere Neuerungen: Neo4j hat die Musterkennung (Graph Pattern Matching) durch eine leistungsfähigere Syntax der quantifizierten Pfadmuster verbessert, sodass man gezielt nach bestimmten Mustern suchen kann.

Anwender können jetzt klassische Datenbanken über eine API an Neo4j oder die Cloud-Variante Aura anbinden. Der Erfolg letzterer ist groß: Rund zwei Drittel der Kunden nutzen derzeit bereits die Cloud-Variante, der Rest tendiere, so Schönfelder, aufgrund starken Kostendrucks ebenfalls in Richtung Cloud.

Eigene Schlüssel und Blockspeicher

Kunden können in Neo4js Cloud-Plattform Aura jetzt eigenständig ihre Schlüssel für verschlüsselte Neo4j-Daten verwalten, sodass Cloud-Provider auf die Schlüssel keinen Zugriff haben.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Abfragen, die große Teile umfangreicher Graphen einbeziehen, können jetzt parallel, also gleichzeitig auf mehreren Prozessoren verteilt, laufen (Parallel Runtime). Das soll die Geschwindigkeit auf das bis zu Hundertfache erhöhen.

Außerdem wurde für die Neo4j-Daten ein neues, für Graph-Daten optimiertes Block-Format definiert. Es soll auch Zukunftstechnologien der Hyperscaler, die Neo4j vorhalten, unterstützen. Die Daten von Neo4j-Kunden werden aber in eigenen Infrastruktur beim Hyperscaler gespeichert, nicht beim Hyperscaler direkt.

Mehr Zuverlässigkeit beim Datenimport

Optimierungen beim Datenimport ermöglichen es, transaktionsüblichen Zuverlässigkeits- und Konsistenzregeln besser einzuhalten. Das gilt sowohl beim Batch-Import und bei Aktualisierungen als auch bei großen Datenmengen. Die Größe der Transaktionen lässt sich über die Abfragesprache Cypher kontrollieren. Geplant ist zudem die parallele Ausführung von Datenimports für höhere Geschwindigkeit.

Mit native Change Data Capture (CDC) kann Neo4j sich ändernde Daten aus Datenbanken über ein API importieren, das auf einem Transaktions-Log basiert. Es ist also klar, wann welche Veränderung passiert. Dadurch könne Neo4j laut Hunger „zur Single Source of Truth im Unternehmen“ werden.

Anpassung an eine sogenannte ereignisgesteuerte Architektur, wie sie etwa im IoT-Umfeld oft vorkommt, sind in Neo4j durch Schnittstellen zu Apache Kafka und dem Kafka-basierenden Confluent möglich. Weitere Schnittstellen zu entsprechenden Werkzeugen sollen folgen.

Ausblick: Skalierbarkeit und mehr Speed

Im nächsten Jahr soll die Skalierbarkeit verbessert werden, etwa durch automatisierte Erweiterung und Replikation von Clustern. Zusammengesetzte (Composite) Datenbanken sollen sich in Zukunft gemeinsam abfragen lassen und auch in einem gemeinsamen Graphen darstellen.

Außerdem plant Neo4j sogenannte Sharded Properties (Eigenschaften): Interessieren sich Anwender für bestimmte Eigenschaften, können sie diese auf den jeweils leistungsfähigsten Ressourcen durchsuchen.

Anwendungen: So vielfältig wie die Wirtschaft

Drei Anwender zeigten schließlich, was sie jeweils mit Neo4j anfangen. Bei Siemens gibt es ein vierköpfiges Team, das Neo4j-Projekte für interne Siemens-Kunden akquiriert. Die Arbeit mit Neo4j begann 2019, inzwischen werden 16 Projekte bearbeitet.

Dazu gehört die Verarbeitung von Sensordaten, die Produktionsmaschinen bei diversen Siemens-Kunden liefern. Weitere Anwendungsfälle: Fehlererkennung in Computertomografien und die Überwachung von Lieferketten für die Nachhaltigkeitsberichterstattung sowie die transparente Darstellung von Materiallisten oder die Steuerung großer elektrischer Schaltanlagen.

Mit dem Thema Compliance befasst sich das Beratungsunternehmen EY. Es hat für die neuen Berichtsanforderungen im Nachhaltigkeitsbereich wie CSRD (Corporate Sustainability Reporting Directive einen auf Neo4j basierenden Data-Requirement-Navigator entwickelt. Er speichert die unternehmensspezifischen Ontologien, stellt die unterschiedlichen Datenbedarfe für die diversen Berichtsformate dar, ist mit den entsprechenden Datenquellen verbunden und sorgt damit für die geforderte Transparenz. Bis zu 500 KPIs sind dort hinterlegt.

Bei Quiagen, einem der führenden Player in der Biomedizin, wird Neo4j als Basis für diverse Softwareprodukte für Kunden genutzt. Der Bereich Discovery Insights etwa bietet Datenbanken für kuratierte Forschungsbefunde, Genomics-Daten und Genvarianten an.

Dabei erleichtert es die Arbeit mit Knowledge Graphs mehr als die üblichen Tabellen, Kausalverknüpfungen und geeignete Molekülen zu finden oder andere branchenspezifische Forschungsfragen zu beantworten.

(ID:50017742)