Der Nutzungsbereich großer Sprachmodelle (LLM) und Basismodelle (Functional Models) wird durch den Einsatz von Retrieval Augmented Generation (RAG) erheblich erweitert. Graph-Datenbanken können mit ihrer spezifischen Technologie GraphRAG die Genauigkeit erheblich steigern. BigData-Insider sprach mit Michael Hunger, Head of Product Innovation & Developer Product Strategy beim Graph-Datenbankanbieter Neo4j.
So funktioniert Retrieval Augmented Generation (RAG) im Zusammenspiel mit einer Graph-Datenbank.
(Bild: Neo4J)
Michael Hunger ist Head of Product Innovation & Developer Product Strategy beim Graph-Datenbankanbieter Neo4j.
(Bild: Neo4J)
Große Sprachmodelle haben die Fähigkeit, Sprache zu verarbeiten und zu generieren. Aufgrund ihrer Architektur, ihrer Trainingsansätze und Trainingsdaten sind sie jedoch keine verlässliche Quelle für Fakten. Im Geschäftsumfeld sind vor allem KI-Halluzinationen gefährlich. Aber auch die fehlende Nachvollziehbarkeit von Antworten, der mangelnde Zugriff auf interne und aktuelle Informationen („frischer als die Trainingsdaten“) sowie die Nichteinhaltung von Sicherheits- und Compliance-Vorgaben beim Beantworten der Fragen stellen ein Problem dar.
„Für verlässliche Anwendungen sind verlässliche Datenquellen nötig, die mit den Sprachfähigkeiten der LLMs kombiniert werden – Stichwort: RAG, also Retrieval Augmented Generation“, erläutert Hunger. „Dabei wird versucht, möglichst alle relevanten Informationen zur Beantwortung der Frage zu ermitteln und im Kontext der Frage dem LLM zur Generierung der Antwort bereitzustellen.“
Für RAG kommen in der Regel Datenbanken mit verschiedenen Suchansätzen zum Einsatz, von der Vektor- oder Volltextsuche nach ähnlichen Textfragmenten über die Nutzerfrage bis zur Generierung von Datenbankabfragen sowie Kombinationen davon. „Graph-Datenbanken leisten hier besonders gute Arbeit, da sie anders als traditionelle Datenbanken Informationen ähnlich detailliert und flexibel abspeichern und abrufen wie unser Gehirn“, erläutert Hunger. „Sie liefern quasi ,Fakten & Erinnerungen‘, die mit den Sprachfähigkeiten zu einem leistungsfähigen und vertrauenswürdigen Gesamtsystem kombiniert werden.“
Informationen für natürlichsprachliche Fragen seien häufig detailliert und miteinander verknüpft – ähnlich wie Erinnerungen, Erfahrungen oder komplexe Sachverhalte. „In einem Graphen sind Daten als Knoten (Entitäten) und Kanten (Beziehungen) mit beliebigen Attributen abgelegt.“ Anders als Vektordatenbanken, die in der Regel nur Ähnlichkeiten erfassen, schaffe ein Graph auf diese Weise einen reichhaltigen Kontext, der die Abfragen beeinflusse.
Hunger nennt ein Beispiel: „Statt beispielsweise nur einzelne Metadaten eines Textfragments bereitzustellen, repräsentiert der Graph sowohl die innere Struktur von Dokumenten als auch Beziehungen, basierend auf Vektorähnlichkeiten, sowie weitere, dokumentenübergreifende Verknüpfungen.“ Diese weiterführenden RAG-Architekturen seien im Graphen viel einfacher zu repräsentieren als in anderen Datenmodellen.
Einsatz von GraphRAG
„Besonders interessant wird es bei GraphRAG-Ansätzen“, berichtet Michael Hunger weiter. „Hier werden zusätzlich zu den Text-Elementen auch Entitäten und ihre Beziehungen aus den Ausgangstexten extrahiert und im Knowledge Graph repräsentiert. Eine solche Graphstruktur kann dokumentenübergreifend Themen und Informationscluster abbilden. Das schafft eine Informationsverdichtung, die bei Abfragen herangezogen wird, um relevantere Antworten zu liefern.“
Vorteile von GraphRAG
„Knowledge Graphen ermöglichen es, sowohl strukturierte als auch unstrukturierte Informationen in einer strukturierten Repräsentation zu speichern“, erläutert der Neo4J-Manager. „Dadurch können sie reichhaltige Informationen über komplexe Sachverhalte abbilden (beispielsweise ein digitaler Zwilling in Unternehmen). Das erlaubt Multi-Hop Reasoning und schnelle Antworten auf komplexe Abfragen.“ Gleichzeitig sinke der Aufwand beim Abfragen und Wiederauffinden von Informationen (Information Retrieval), was die Gesamtleistung weiter verbessere. „Die Antworten des LLM“, so Hunger, „lassen sich dank des Knoten-Kanten-Modells im Graphen rückverfolgen und überprüfen, was für die Nachvollziehbarkeit wichtig ist.“ Gerade im Zusammenhang mit regulatorischen Compliance-Vorgaben und KI-Richtlinien sei diese Transparenz ein entscheidender Pluspunkt.
„Die Komplexität beziehungsweise Datentiefe (Dimensionalität) bleibt dabei erhalten“, so Hunger weiter. So ermöglichen Knowledge Graphen kontextbezogene Einblicke und überwinden damit die grundlegenden Einschränkungen der reinen Vektorsuche. Ein auf GraphRAG gestütztes LLM könne semantische Ähnlichkeiten in Texten abgleichen und gleichzeitig den Kontext strukturierter Daten verstehen. „Die auf diesem Weg generierten Antworten haben mehr Relevanz, gehen dabei ‚näher‘ auf die eigentliche Frage ein.“ Der Pluspunkt: KI-Halluzinationen lassen sich auf diese Weise reduzieren, und die Relevanz und Genauigkeit der Antworten steigt.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
„GraphRAG erzeugt und berücksichtigt sowohl auf der Seite der Datenextraktion als auch bei der Abfrage tiefere und reichhaltigere Informationen, als es mit Vektorsuche allein möglich wäre“, führt der Manager als weiteren Vorteil an. „Darüber hinaus lassen sich Informationen im Graphen dank Graphalgorithmen weiterverarbeiten, zum Beispiel deduplizieren, clustern und zusammenfassen. Anwender erhalten neben der vertikalen Dokumentenstruktur horizontale, dokumentenübergreifende Themenbereiche, die in die Beantwortung von themenspezifischen Fragen einfließen.“
Anwendungsfälle: Chatbots, LLMs, KI-Assistenten und mehr
GraphRAG-gestützte LLMs seien insbesondere für Anwendungsfälle spannend, die ein tiefes Verständnis von Kontextinformationen innerhalb großer Datensätze voraussetzen. Damit ergäben sich eine ganze Reihe an möglichen Anwendungsgebieten. Ein GraphRAG-Chatbot im Unternehmen liefert Anwendern präzise, detaillierte und kontextbezogene Antworten – egal ob er im Online-Shop, auf der Webseite, im Lieferanten-Portal oder in der internen Enterprise Search zum Einsatz kommt.
„In Fachbereichen, wie in der Medizin oder der Forschung, stellen graphbasierte GenAI-Anwendungen hochspezifisches Wissen bereit“, fährt Hunger fort. „Die Experten gewinnen damit eine Art GenAI-Assistent, der hochkomplexe Daten schneller analysieren und auswerten hilft.“ Zu den weiteren Aufgaben gehöre auch die Extraktion relevanter Daten aus wissenschaftlichen Datenbanken, Fachpublikationen oder Studien, um beispielsweise Zusammenfassungen zu erstellen. Bestimmte Analysen seien auch in Verbindung mit LLMs möglich, ob nun in der Betrugsaufdeckung oder in Netzwerkanalysen.
Herausforderungen von GraphRAG
„Das Erstellen des Knowledge Graphen ist oft der schwierigste Schritt“, weiß der Neo4J-Manager. „Entwickler müssen Daten sammeln, strukturieren und miteinander verknüpfen. Das setzt ein tiefes Verständnis sowohl des jeweiligen Anwendungsbereichs als auch Kenntnisse in der Modellierung von Graphen voraus.“
Zu den größten Herausforderungen zähle die Knowledge Graph Extraktion. Um eine hohe Qualität sicherzustellen, seien ein Schema und – soweit möglich – spezifische Prompts und Beispiele nötig. LLMs könnten diesen Schritt vereinfachen. Allerding sei es relativ aufwendig, LLM-Kontext herzustellen. Zudem sei viel Kontext nötig, und die Umsetzung dauere ihre Zeit, was wiederum die Kosten steigen lasse. „Entitäten werden zudem oft in verschiedenen Schreibweisen und damit doppelt extrahiert, was eine De-Duplikation erfordert, aber um die Datenqualität zu verbessern, können Anwender eine Kombination von Graph-Algorithmen durchführen (so etwa Embeddings-Ähnlichkeiten, Clustering, Text-Distanzen).“
Bei der Extraktion werden viele Daten erzeugt, die es dann auch effizient zu speichern gelte. Graph-Datenbanken würden sich hierfür sehr gut eignen, auch weil die Daten dort inkrementell angereichert und aktualisiert werden könnten. Die Detailtiefe im Graphen müsse trotzdem handhabbar bleiben. Deshalb seien Zusammenfassungen, das Clustering von Themen und das Management von Kontextgrößen wichtig.
Die Vorteile von Neo4j als Graph-Datenbank
„Um all diese Schritte zu vereinfachen, hat Neo4j eine Reihe von GraphRAG-Ecosystem-Tools für den Einsatz von GraphRAG-Anwendungen veröffentlicht“, berichtet Hunger. „Mit dem Neo4j LLM Knowledge Graph Builder zum Beispiel steht Anwendern ein kostenloses Online-Tool zur Verfügung, das unstrukturierten Text in wenigen Schritten in einen Knowledge Graph verwandelt.“
Der Builder verwendet demnach LLM wie OpenAI, Google Gemini, Meta Llama3, Diffbot, Anthropic Claude und Qwen, um PDFs, Dokumente, Bilder, Webseiten und Transkripte von Youtube-Videos automatisch in ein Graphmodell aus Knoten und Kanten zu transformieren. „Anwender können das Extraktionsschema konfigurieren und im Nachgang Operationen zur weiteren Bereinigung durchführen“, erläutert Hunger. „Anschließend lassen sich verschiedene RAG-Ansätze wie etwa GraphRAG, Vector und Text2Cypher (Abfragesprache, s. u.) einsetzen, um zu testen, wie die extrahierten Daten zur Generierung von Antworten genutzt werden.“ Dank der bereits erwähnten Integrationen könnten Anwender die generierten Graphen dann relativ einfach für eigene GenAI-Anwendungen verwenden.
Die Unterstützung für LLMs
Es gibt laut Hunger keine Einschränkung für die Sprachmodelle, die in Kombination mit Neo4j genutzt werden können. „Unsere Kunden nutzen unter anderem OpenAI, Azure OpenAI, VertexAI Gemini, AWS Bedrock Modelle, Cohere, Anthropic oder auch die Llama3 Modelle von Meta.“
Viel wichtiger sei seiner Ansicht nach die Integration in LLM-Frameworks. Hierfür biete Neo4j mit LangChain, LlamaIndex, HayStack, Spring AI, LangChain4j und Semantic Kernel ein breites Set an Optionen, das es Entwicklern erlaube, Neo4j in ihre GenAI-Anwendungen zu integrieren. Die Integrationen umfassen laut Hunger Vektor- und hybride Suche kombiniert mit Graph-Abfragen, die Extraktion von Knowledge-Graphen aus Text sowie die Erzeugung von Datenbankabfragen. Wer mehr darüber erfahren möchte und nach praktischen Tipps suche, könne dazu die entsprechenden Kurse in der Neo4j Graph Academy besuchen.
Die Abfragesprache GQL ausnutzen
Die Graph Query Language (GQL) wurde im April 2024 zu einem internationalen Standard erklärt und ist damit die erste ISO-zertifizierte Datenbanksprache seit SQL vor 30 Jahren. GQL ist für das Property-Graph-Modell konzipiert und hat sich aus der Neo4j-Abfragesprache Cypher heraus entwickelt. „Damit sind alle Erkenntnisse, die auf der Abfragegenerierung mit Cypher basieren, auch eins zu eins auf GQL übertragbar“, erläutert Hunger. „Die Graphmuster in Cypher und GQL ähneln natürlicher Sprache, sodass LLMs eigene Datenbank-Abfragen generieren können.“ Da die Sprachmodelle bereits seit zwölf Jahren anhand von Cypher-Beispielen im Internet trainiert wurden, funktioniere das schon recht zuverlässig.
Durch ein Fine-Tuning-Verfahren namens „text2cypher“ lasse sich die Qualität der generierten Abfrage und die Bereitstellung des Graph-Schemas für die Generierung weiter verbessern. „Neo4j arbeitet mit Partnern und Entwicklern gerade an einer zweiten Generation dieses Fine-Tunings, insbesondere an hochqualitativen Trainingsdaten“, berichtet Hunger.