Kommentar von David Maria Schmidt, Universität Bielefeld Warum LLMs beim Kombinieren bekannter Fakten scheitern

Von David Maria Schmidt 6 min Lesedauer

Aktuelle KI-Systeme beruhen häufig darauf, dass bestehendes Wissen zur Beantwortung bestimmter Fragen neu zusammengesetzt wird. Large Language Models wie ChatGPT zeigen jedoch gravierende Schwächen, wenn diese kompositionell arbeiten und bekannte Bausteine neu zusammensetzen müssen. Doch die Kombination mit bewährten symbolischen Methoden könnte hier Abhilfe schaffen.

Der Autor: David Maria Schmidt forscht am Zentrum für Kognitive Interaktionstechnologie der Universität Bielefeld in der Arbeitsgruppe Semantic Computing. Als Mitglied im vom BMFTR geförderten Netzwerk AI Grid vernetzt er sich mit führenden KI-Experten aus Forschung und Industrie und stärkt so den Transfer verlässlicher, nachvollziehbarer KI in die Anwendung.(Bild:  Darren-John Krockhaus / Studioline)
Der Autor: David Maria Schmidt forscht am Zentrum für Kognitive Interaktionstechnologie der Universität Bielefeld in der Arbeitsgruppe Semantic Computing. Als Mitglied im vom BMFTR geförderten Netzwerk AI Grid vernetzt er sich mit führenden KI-Experten aus Forschung und Industrie und stärkt so den Transfer verlässlicher, nachvollziehbarer KI in die Anwendung.
(Bild: Darren-John Krockhaus / Studioline)

Large Language Models (LLMs) wie ChatGPT oder Gemini sind heute in vielen Bereichen kaum noch wegzudenken. Mit der immer größeren Leistungsfähigkeit dieser Systeme wachsen auch die Erwartungen, welche Aufgaben von solchen KI-Systemen gelöst werden können. Manche scheinbaren Fähigkeiten sind bei genauerer systematischer Betrachtung jedoch mehr Schein als Sein, sodass wir uns die Frage stellen müssen, wo die Grenzen aktueller LLM-basierter KI-Systeme liegen und infolgedessen welche Erwartungen wir an solche Systeme haben können – und wo wir vielleicht genauer hinsehen sollten.

Kompositionalität und LLMs

Einer dieser Aspekte, den wir uns an der Universität Bielefeld im Rahmen des SAIL-Projektes einmal näher angeschaut haben, ist Kompositionalität, bzw. die Fähigkeit, Fragen kompositionell zu interpretieren. Die Grundidee dabei ist, dass eine Person, die sowohl „grüner Apfel“ als auch „rote Paprika“ versteht, ebenfalls in der Lage sein sollte, dann „roter Apfel“ und „grüne Paprika“ zu verstehen. Gleichermaßen sollte ein KI-Modell, welches zu kompositionell systematischer Verallgemeinerung fähig ist, in der Lage sein, bekannte Bausteine auf eine solche Weise neu zusammenzusetzen.

Bildergalerie

Anwendungsfall Knowledge Graph Question Answering

Der Anwendungsfall, für den wir uns das Verhalten von LLMs näher angeschaut haben, ist das sogenannte „Knowledge Graph Question Answering“. Dabei geht es um die Umwandlung von natürlichsprachlichen Fragen wie „Wo ist der Hauptsitz der Vogel Communications Group?“ in SPARQL-Abfragen. SPARQL ist eine strukturierte Abfragesprache für Wissensgraphen, mit denen die Antwort auf die jeweilige Frage aus z. B. Wikidata abgerufen werden kann.

Ein solcher Wissensgraph enthält eine Reihe von Knoten wie die Vogel Communications Group oder die Stadt Würzburg. Zwischen diesen Knoten gibt es dann verschiedene Verbindungen, die z. B. anzeigen, dass der Hauptsitz eines Unternehmens in einer bestimmten Stadt liegt, oder wie viele Einwohner eine Stadt hat. Damit spiegelt eine SPARQL-Abfrage indirekt die Bedeutung der jeweiligen Frage wider.

CompoST, ein Kompositionalitäts-Test für LLMs

Um zu überprüfen, wie kompositionell LLMs bei dieser Umwandlung wirklich vorgehen, haben wir den CompoST-Benchmark für LLMs entwickelt – also eine Art „Kompositionalitäts-Test“. Dieser Benchmark basiert auf der oben beschriebenen Erwartungshaltung für kompositionell-systematisches Vorgehen. Ein LLM, welches die Fragen „Wo ist der Geburtsort von Goethe?“ und „Wer ist der Vater von Schiller?“ versteht, also in korrekte SPARQL-Abfragen übersetzen kann, sollte auch in der Lage sein, andere daraus zusammengesetzte Fragen zu beantworten, da dem Modell alle dafür nötigen Teile und deren Interpretation bekannt sind. Das können sehr ähnliche Fragen wie „Wo ist der Geburtsort von Schiller?“ und „Wer ist der Vater von Goethe?“ sein, aber auch größere, zusammengesetzte Fragen wie „Wo ist der Geburtsort des Vaters von Goethe?“.

Basierend auf diesem Grundgedanken haben wir LLMs in über 400 Experimenten jeweils mehrere Tausend solcher zusammenhängenden Fragen gestellt und überprüft, ob die Ergebnisse zu dem passen, was wir von Systemen mit kompositionellem Verständnis erwarten würden.

LLMs lernen nicht die Lösung des Problems, sondern erkennen Muster und reagieren

Bei diesen Experimenten schnitten die LLMs jedoch überraschend schlecht ab, trotz einer breiten Palette an Optimierungen. Selbst wenn LLMs das notwendige Wissen in den Trainingsdaten oder dem Eingabe-Prompt mitgegeben bekamen, scheiterten sie regelmäßig daran, diese Bausteine für die Interpretation anderer darauf aufbauender Fragen neu zusammenzusetzen. Wenn also z. B. die Fragen „Wo ist der Geburtsort von Goethe?“ und „Wer ist der Vater von Schiller?“ mit der jeweiligen Interpretation als SPARQL-Abfrage Teil der Trainingsdaten oder der Eingabe waren, dann scheiterten LLMs dennoch oft an der Beantwortung von größeren, sich daraus zusammensetzenden Fragen wie „Wo ist der Geburtsort des Vaters von Goethe?“.

Insbesondere scheinen LLMs nicht kompositionell zu generalisieren. Sie lernen also nicht, wie sie das jeweilige Problem allgemein lösen, sondern lernen nur, bestimmte Muster zu erkennen und darauf basierend zu antworten. Für kleine Instanzen des Problems, die den jeweiligen Trainingsdaten in ihrer Größe und Komplexität ähnlich sind, funktioniert das auch häufig gut, was sich nicht zuletzt in dem beeindruckenden Abschneiden von LLMs in zahlreichen Gebieten zeigt. Das führt bei größeren Instanzen jedoch zu Problemen, da nicht das tatsächliche Problem gelernt und verstanden wurde, sondern nur bestimmte Muster, die für größere Probleme nicht ohne Weiteres anwendbar sind – obwohl alle notwendigen Informationen in den Daten vorhanden wären.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Gruppiert man die Ergebnisse nach Problemgröße, so zeichnet sich ein klares Bild. In unserem Fall gruppieren wir also nach der Größe der Muster im Wissensgraphen, die für die Beantwortung der Frage notwendig sind. Für die Trainingsdaten schneiden die Modelle fast perfekt ab, auch leicht größere Fragen funktionieren noch relativ häufig. Je weiter die Fragen jedoch von der Größe in den Trainingsdaten abweichen, desto schlechter werden die Ergebnisse – obwohl die Bausteine für alle Fragen gleich und dem LLM bekannt sind. Das lässt ernsthafte Zweifel aufkommen, ob LLMs tatsächlich zur echten kompositionellen Interpretation von Fragen in der Lage sind und legt nahe, dass dies möglicherweise eine fundamentale Einschränkung aktueller LLMs ist.

Auswirkungen auf RAG-Systeme

Doch welche Auswirkungen hat diese Erkenntnis auf aktuelle LLM-basierte KI-Systeme? Viele Ansätze basieren aktuell auf Retrieval-Augmented Generation (RAG), um die Einschränkung auszugleichen, dass LLMs grundsätzlich nur auf öffentliche Daten bis zum Zeitpunkt ihres Trainings Zugriff haben. Für spezifischere Anwendungsfälle oder veränderte Informationen müssen dem LLM diese also mitgeteilt werden.

Bei RAG-Ansätzen werden dafür für die aktuelle Anfrage relevante Dokumente aus z. B. einer Datenbank geladen und dem LLM in der Eingabe zur Verfügung gestellt. Idealerweise bekommt das LLM so die Informationen, die für die Beantwortung der Anfrage nötig sind, und kombiniert diese entsprechend für die Antwort. In einem Teil unserer Experimente haben wir auch den „Optimalfall“ von RAG simuliert: In der Eingabe wurden dem LLM alle notwendigen „Teile“ gegeben, die für die Beantwortung der Anfrage notwendig sind und auch keine anderen Teile, die möglicherweise ablenken könnten.

Obwohl dies die Aufgabe deutlich vereinfachte, zeigten die LLMs auch in diesem Szenario kein konsistentes kompositionelles Verhalten und scheiterten häufig beim Zusammensetzen der gegebenen Informationen – selbst dann, wenn sie zusätzlich mit Fine-Tuning für diese Aufgabe optimiert wurden.

Unsere Arbeit betrachtet zwar nur den Anwendungsfall der Umwandlung von Fragen in SPARQL-Abfragen, doch legen die Ergebnisse unserer und anderer Studien nahe, dass grundsätzlich auch in aktuellen RAG-Ansätzen Vorsicht geboten ist, wenn dem LLM eine Aufgabe anvertraut wird, bei dem es verschiedene Informationen oder Dokumente zuverlässig kombinieren muss, um eine Antwort zu erzeugen.

Ausblick

Was heißt dies nun für die Zukunft von LLM-basierten Systemen? Der schlichte Verzicht auf LLMs ist in vielen Fällen sicher nicht die vielversprechendste Lösung, ermöglichen LLMs doch in vielen Bereichen eine Genauigkeit, wie sie mit keinem vorherigen Ansatz möglich war. Dennoch ist womöglich eine gesunde Mischung aus Vertrauen und Skepsis ratsam, statt der Ausgabe von LLMs blind zu vertrauen. Genauso kann es sinnvoll sein, die zu lösende Aufgabe mit etablierten klassischen Ansätzen und Programmen zu kombinieren, so dass jeder Teil das tut, was er am besten kann.

Während sich klassische, sogenannte symbolische Ansätze durch zuverlässiges, nachvollziehbares Verhalten bei geringerer Flexibilität auszeichnen, sind LLMs ausgesprochen flexibel und gut darin, Muster zu entdecken, wenn es keine klaren eindeutigen Regeln für eine Aufgabe gibt – sind dafür aber nicht immer nachvollziehbar und konsequent in ihrem Handeln. Ebenso kann die Zerlegung der Aufgabe in kleinere, überschaubarere Teile mit für Menschen verständlichen Zwischenergebnissen helfen. Dadurch können einerseits Fehler besser zurückverfolgt und repariert werden und andererseits werden die jeweiligen Aufgaben, die ein LLM oder ein symbolisches System zu lösen haben, einfacher und besser definiert, mit mehr Möglichkeiten zur Kontrolle und zum Eingreifen bei Problemen.

In unserem Ansatz NeoDUDES versuchen wir diese Philosophie für „Knowledge Graph Question Answering“ umzusetzen. In diesem modularen, kompositionellen Ansatz übernehmen symbolische Teile z. B. die Komposition von Teilbedeutungen einer Frage zu einer Gesamtbedeutung. Ergänzend sind LLMs für die Auswahl und Bewertung von Kandidaten auf verschiedenen Ebenen zuständig, falls es beispielsweise zu Mehrdeutigkeiten in der Fragestellung kommt und der korrekte Kandidat nicht unmittelbar klar ist. So sind in Zukunft hoffentlich noch zuverlässigere und erklärbarere KI-Systeme möglich, welche dann auch tatsächlich echtes kompositionelles Verständnis von Fragen an den Tag legen.

Artikelfiles und Artikellinks

(ID:50720349)