Kommentar von Dr. Jim Webber, Neo4j Das passt – Large Language Models und Knowledge Graphs

Von Dr. Jim Webber Lesedauer: 5 min |

Anbieter zum Thema

Die Bedeutung von Graphtechnologie wächst rasant, die von KI-Tools wie ChatGPT scheint geradezu zu explodieren. Wie unterscheiden und überschneiden sich Large Language Models (LLMs) und Knowledge-Graphen? Wie arbeiten sie zusammen? Und was bedeutet das für Unternehmen auf ihrem Weg zur tiefergehenden Integration von KI?

Der Autor: Dr. Jim Webber ist Chief Scientist von Neo4j und Gastprofessor an der Universität Newcastle. Zu seinem Spezialgebiet gehört u. a. die Fehlertoleranz von Graphdatenbanken.
Der Autor: Dr. Jim Webber ist Chief Scientist von Neo4j und Gastprofessor an der Universität Newcastle. Zu seinem Spezialgebiet gehört u. a. die Fehlertoleranz von Graphdatenbanken.
(Bild: Dr. Jim Webber)

Die Tech-Welt steht im Bann der generativen Künstlichen Intelligenz auf Basis von Large Language Models (LLM). Weltweit experimentieren Menschen mit ChatGPT, dem Chatbot, den OpenAI auf Basis des LLMs GPT geschaffen hat. Auch andere LLMs wie MT-NLG von Microsoft, LaMDA und BERT von Google erhalten viel Aufmerksamkeit.

Faszinosum LLM

Large Language Models sind große generative Sprachmodelle auf Basis neuronaler Netzwerke. Sie werden mit gigantischen Mengen von Texten trainiert und können mehrere Milliarden Parameter haben. LLMs verstehen menschliche Sprache, können sie verarbeiten und selbst generieren. Sie beantworten komplexe Fragen, schreiben schlüssige Texte mit korrekter Rechtschreibung und Grammatik und erstellen Code in verschiedenen Programmiersprachen. Manche LLMs können auch Bilder verarbeiten und neue generieren. Und nicht nur das: Die Modelle bewältigen auch Aufgaben, für die sie nicht trainiert wurden. Es ist kein Wunder, dass die Menschheit von ihnen fasziniert ist.

Schattenseite Data Bias

Viel Licht, viel Schatten: Eins der schwerwiegendsten Probleme mit LLMs ist der sogenannte Data Bias. Wenn die Daten, mit denen die Modelle trainiert werden, Verzerrungen enthalten, übernehmen die LLMs diese. Unsere menschlichen Vorurteile spiegeln sich in den Texten, Bildern und Programmen wider, die die LLMs generieren. Das kann weitreichende Folgen haben, besonders, wenn LLMs in alltägliche Anwendungen Einzug halten. Und genau daran arbeiten Unternehmen weltweit.

Es gilt daher LLMs zu trainieren, ohne unsere Vorurteile massenhaft zu replizieren. Hier kommen Knowledge-Graphen ins Spiel, eine Anwendung der Graphtechnologie. Sie bieten optimale Trainingsbedingungen für LLMs.

Schlüsseltechnologie für KI

In einer Graphdatenbank werden Objekte als Knoten dargestellt, ihre Verbindungen als Kanten. Knoten wie Kanten können Eigenschaften zugeschrieben werden (Labeled-Property-Graph). Dadurch können Graphdatenmodelle große Mengen heterogener Daten aus verschiedenen Systemen aufnehmen und vernetzen sowie die vielseitigen Beziehungen zwischen den Objekten realitätsnah abbilden.

Ein semantischer Kontext aus heterogenen Informationen unterschiedlichster Herkunft ist eine Voraussetzung für Maschinelles Lernen und Künstliche Intelligenz. Das macht Graphen zu einer Schlüsseltechnologie für KI-Anwendungen. Laut Gartner wird bis 2025 bei 80 Prozent aller Datenanalysen Graphtechnologie zum Einsatz kommen. Schon heute beziehen Gartner-Kunden in die Hälfte ihrer Anfragen zu Künstlicher Intelligenz Fragen nach dem Einsatz von Graphen ein.

Eine Anwendung der Graphtechnologie ist der Knowledge Graph. Er organisiert Wissen in einer strukturierten und semantischen Weise. Ein Knowledge Graph verknüpft verschiedene Einheiten wie Personen, Orte und Konzepte und ihre Beziehungen zueinander. So entsteht ein umfassendes, semantisches, kontextbezogenes Modell eines Wissensbereichs, das zudem leicht abfragbar ist. Es bildet eine ideale Grundlage für das Training von LLMs.

Struktur plus Flexibilität plus Tiefe

Graphen bieten eine einzigartige Kombination von Struktur, Flexibilität und Tiefe. Die Topologie des Graphen schafft die Struktur. Sie ist die Grundlage der Datenanalyse. Zugleich – hier kommen Flexibilität und Tiefe hinzu – ist die Zahl der Datendimensionen unbegrenzt. Ein Graph kann immer neue Daten aufnehmen und weiter in die Tiefe gehen.

Bei anderen Datenmodellen sind zusätzliche Dimensionen eine große Herausforderung. Um in die starren Tabellenschemata relationaler Datenbanken (wie SQL) zusätzliche Datendimensionen zu integrieren, sind aufwendige Joins erforderlich. Die Abfragen sind langwierig und können das System überfordern. In nicht-relationalen Datenbanken (wie NoSQL) hingegen fehlen die Topologie und die Beziehungen zwischen den Daten.

Graph-natives maschinelles Lernen

Hochentwickelte Algorithmen aus der Graph Data Science machen Graphen noch nützlicher. Sie analysieren die Topologie des Graphen und fördern Zusammenhänge zu Tage, die sich der menschlichen Analyse entziehen. So entstehen beispielsweise Einblicke in Page Rank, Zentralitätswerte und Nachbarschaften. Aus diesen Erkenntnissen können neue Graph Features werden: Der Graph gewinnt neue Eigenschaften hinzu, die ihrerseits wieder analysiert werden können. So entsteht eine wesentlich reichhaltigere Quelle für Machine-Learning-Pipelines als andere Datenquellen sie bieten.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Es gibt auch schon Lösungen für maschinelles Lernen direkt auf Graphen: Dazu zählt das Graph-native Machine Learning in Neo4j. Es ermöglicht beispielsweise Verknüpfungen, die Vergabe von Labels und die Vorhersage von Eigenschaften direkt im Graphen. Ein anderer Ansatz sind Graph Neural Networks (GNN), neuronale Netze auf Basis von Graphen.

Hohe Qualität der Daten und Ergebnisse

Ein alter Spruch ist beim Training von LLMs gültiger denn je: „Müll rein, Müll raus“. Die Qualität der Daten, die zur Schulung dieser Modelle verwendet werden, bestimmt die Qualität der Ergebnisse. Wenn LLMs mit schlechten – zum Beispiel durch Vorurteile verzerrten – Daten trainiert werden, können sie keine verlässlichen Ergebnisse liefern. Damit sind sie für Anwendungen in Geschäftssystemen ungeeignet.

Daher ist es so wichtig, die bestmögliche Datengrundlage für das Training eines LLMs zu schaffen. Dieser Anspruch macht Knowledge Graphen und LLMs zu natürlichen und leistungsstarken Partnern. Graph Data Science, Graph-natives Machine Learning und Graph Neural Networks tragen dazu bei, Knowledge-Graphen zu bereichern und zu verbessern – und damit letztlich die LLMs, deren Grundlage die Graphen bilden.

Mehr Kontext und Transparenz

Die Verwendung von Graphen als zugrundeliegender Datenbank für LLMs schafft Vertrauen in die Ergebnisse der LLMs: Denn das, was eingespeist wurde, ist nachvollziehbar. Es lässt sich erklären. Es lässt sich zurückverfolgen. Die Datengrundlage ist verständlich, strukturiert, verfeinert und in einen Kontext eingebettet. Diese Transparenz und Kontextbezogenheit rechtfertigen das Vertrauen der Nutzer, dass das darauf aufbauende LLM sich präzise über das jeweilige Fachgebiet äußern kann.

Mehr Genauigkeit

Wenn Unternehmen LLMs als Frontend für Geschäftsprozesse nutzen wollen, müssen die richtigen Ereignisse im Hintergrund ausgelöst werden. Hier können Knowledge-Graphen und Graph Data Science helfen: Sie können das Modell gezielt auf einen Geschäftsbereich beschränken. Die Nutzer können sich daher sehr sicher sein, dass es eine stimmige Korrelation zwischen den Ereignissen im Sprachmodell und den realen Ereignissen gibt. Damit kann das LLM zur Steuerung von Geschäftsprozessen verwendet werden.

Mehr Spezifität

Die Kombination von Knowledge-Graphen und LLMs ermöglicht es, spezifische LLMs zu erstellen, die nicht nur die Sprache ihres Fachgebiets fließend sprechen, sondern auch kontextspezifische und genaue Informationen in diesem Fachgebiet zu generieren. Ob in der Raumfahrt, der Medizin oder der IT: Diese LLMs wären für Fachleute besonders wertvoll.

Regeltreue Leistungsträger

Die Verbindung von Knowledge-Graphen, Graph Data Science und LLMs eröffnet Möglichkeiten, die weit über Chatbot-Funktionen hinausgehen. Durch das Feintuning der Daten in den zugrundeliegenden Graphen werden LLMs genauer und spezifischer und damit nützlicher für eine Vielzahl von Anwendungsfällen in Unternehmen.

Zugleich sind LLMs, die auf Knowledge Graphen aufbauen, aufgrund der Transparenz und Kontextbezogenheit ihrer Daten vertrauenswürdiger. Es wird regulatorische Rahmenbedingungen für LLMs geben, das zeigt allein schon die Vorbereitung des „Artificial Intelligence Acts“ der EU. Derzeit ist noch nicht entschieden, wie der Kompromiss zwischen dem Kampf gegen Desinformation und der Förderung von Innovation aussehen wird. Transparentere, nachvollziehbarere LLMs auf Basis von Knowledge Graphen werden jedenfalls eher in der Lage sein, den Regeln zu entsprechen. Als regeltreue Leistungsträger sind sie für Unternehmen die bei weitem sicherere Wette auf die Zukunft.

Artikelfiles und Artikellinks

(ID:49596076)