Kommentar von David Maria Schmidt, Universität BielefeldWarum LLMs beim Kombinieren bekannter Fakten scheitern
Von
David Maria Schmidt
6 min Lesedauer
Aktuelle KI-Systeme beruhen häufig darauf, dass bestehendes Wissen zur Beantwortung bestimmter Fragen neu zusammengesetzt wird. Large Language Models wie ChatGPT zeigen jedoch gravierende Schwächen, wenn diese kompositionell arbeiten und bekannte Bausteine neu zusammensetzen müssen. Doch die Kombination mit bewährten symbolischen Methoden könnte hier Abhilfe schaffen.
Der Autor: David Maria Schmidt forscht am Zentrum für Kognitive Interaktionstechnologie der Universität Bielefeld in der Arbeitsgruppe Semantic Computing. Als Mitglied im vom BMFTR geförderten Netzwerk AI Grid vernetzt er sich mit führenden KI-Experten aus Forschung und Industrie und stärkt so den Transfer verlässlicher, nachvollziehbarer KI in die Anwendung.
(Bild: Darren-John Krockhaus / Studioline)
Large Language Models (LLMs) wie ChatGPT oder Gemini sind heute in vielen Bereichen kaum noch wegzudenken. Mit der immer größeren Leistungsfähigkeit dieser Systeme wachsen auch die Erwartungen, welche Aufgaben von solchen KI-Systemen gelöst werden können. Manche scheinbaren Fähigkeiten sind bei genauerer systematischer Betrachtung jedoch mehr Schein als Sein, sodass wir uns die Frage stellen müssen, wo die Grenzen aktueller LLM-basierter KI-Systeme liegen und infolgedessen welche Erwartungen wir an solche Systeme haben können – und wo wir vielleicht genauer hinsehen sollten.
Kompositionalität und LLMs
Einer dieser Aspekte, den wir uns an der Universität Bielefeld im Rahmen des SAIL-Projektes einmal näher angeschaut haben, ist Kompositionalität, bzw. die Fähigkeit, Fragen kompositionell zu interpretieren. Die Grundidee dabei ist, dass eine Person, die sowohl „grüner Apfel“ als auch „rote Paprika“ versteht, ebenfalls in der Lage sein sollte, dann „roter Apfel“ und „grüne Paprika“ zu verstehen. Gleichermaßen sollte ein KI-Modell, welches zu kompositionell systematischer Verallgemeinerung fähig ist, in der Lage sein, bekannte Bausteine auf eine solche Weise neu zusammenzusetzen.
Bildergalerie
Anwendungsfall Knowledge Graph Question Answering
Der Anwendungsfall, für den wir uns das Verhalten von LLMs näher angeschaut haben, ist das sogenannte „Knowledge Graph Question Answering“. Dabei geht es um die Umwandlung von natürlichsprachlichen Fragen wie „Wo ist der Hauptsitz der Vogel Communications Group?“ in SPARQL-Abfragen. SPARQL ist eine strukturierte Abfragesprache für Wissensgraphen, mit denen die Antwort auf die jeweilige Frage aus z. B. Wikidata abgerufen werden kann.
Ein solcher Wissensgraph enthält eine Reihe von Knoten wie die Vogel Communications Group oder die Stadt Würzburg. Zwischen diesen Knoten gibt es dann verschiedene Verbindungen, die z. B. anzeigen, dass der Hauptsitz eines Unternehmens in einer bestimmten Stadt liegt, oder wie viele Einwohner eine Stadt hat. Damit spiegelt eine SPARQL-Abfrage indirekt die Bedeutung der jeweiligen Frage wider.
CompoST, ein Kompositionalitäts-Test für LLMs
Um zu überprüfen, wie kompositionell LLMs bei dieser Umwandlung wirklich vorgehen, haben wir den CompoST-Benchmark für LLMs entwickelt – also eine Art „Kompositionalitäts-Test“. Dieser Benchmark basiert auf der oben beschriebenen Erwartungshaltung für kompositionell-systematisches Vorgehen. Ein LLM, welches die Fragen „Wo ist der Geburtsort von Goethe?“ und „Wer ist der Vater von Schiller?“ versteht, also in korrekte SPARQL-Abfragen übersetzen kann, sollte auch in der Lage sein, andere daraus zusammengesetzte Fragen zu beantworten, da dem Modell alle dafür nötigen Teile und deren Interpretation bekannt sind. Das können sehr ähnliche Fragen wie „Wo ist der Geburtsort von Schiller?“ und „Wer ist der Vater von Goethe?“ sein, aber auch größere, zusammengesetzte Fragen wie „Wo ist der Geburtsort des Vaters von Goethe?“.
Basierend auf diesem Grundgedanken haben wir LLMs in über 400 Experimenten jeweils mehrere Tausend solcher zusammenhängenden Fragen gestellt und überprüft, ob die Ergebnisse zu dem passen, was wir von Systemen mit kompositionellem Verständnis erwarten würden.
LLMs lernen nicht die Lösung des Problems, sondern erkennen Muster und reagieren
Bei diesen Experimenten schnitten die LLMs jedoch überraschend schlecht ab, trotz einer breiten Palette an Optimierungen. Selbst wenn LLMs das notwendige Wissen in den Trainingsdaten oder dem Eingabe-Prompt mitgegeben bekamen, scheiterten sie regelmäßig daran, diese Bausteine für die Interpretation anderer darauf aufbauender Fragen neu zusammenzusetzen. Wenn also z. B. die Fragen „Wo ist der Geburtsort von Goethe?“ und „Wer ist der Vater von Schiller?“ mit der jeweiligen Interpretation als SPARQL-Abfrage Teil der Trainingsdaten oder der Eingabe waren, dann scheiterten LLMs dennoch oft an der Beantwortung von größeren, sich daraus zusammensetzenden Fragen wie „Wo ist der Geburtsort des Vaters von Goethe?“.
Insbesondere scheinen LLMs nicht kompositionell zu generalisieren. Sie lernen also nicht, wie sie das jeweilige Problem allgemein lösen, sondern lernen nur, bestimmte Muster zu erkennen und darauf basierend zu antworten. Für kleine Instanzen des Problems, die den jeweiligen Trainingsdaten in ihrer Größe und Komplexität ähnlich sind, funktioniert das auch häufig gut, was sich nicht zuletzt in dem beeindruckenden Abschneiden von LLMs in zahlreichen Gebieten zeigt. Das führt bei größeren Instanzen jedoch zu Problemen, da nicht das tatsächliche Problem gelernt und verstanden wurde, sondern nur bestimmte Muster, die für größere Probleme nicht ohne Weiteres anwendbar sind – obwohl alle notwendigen Informationen in den Daten vorhanden wären.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Gruppiert man die Ergebnisse nach Problemgröße, so zeichnet sich ein klares Bild. In unserem Fall gruppieren wir also nach der Größe der Muster im Wissensgraphen, die für die Beantwortung der Frage notwendig sind. Für die Trainingsdaten schneiden die Modelle fast perfekt ab, auch leicht größere Fragen funktionieren noch relativ häufig. Je weiter die Fragen jedoch von der Größe in den Trainingsdaten abweichen, desto schlechter werden die Ergebnisse – obwohl die Bausteine für alle Fragen gleich und dem LLM bekannt sind. Das lässt ernsthafte Zweifel aufkommen, ob LLMs tatsächlich zur echten kompositionellen Interpretation von Fragen in der Lage sind und legt nahe, dass dies möglicherweise eine fundamentale Einschränkung aktueller LLMs ist.
Auswirkungen auf RAG-Systeme
Doch welche Auswirkungen hat diese Erkenntnis auf aktuelle LLM-basierte KI-Systeme? Viele Ansätze basieren aktuell auf Retrieval-Augmented Generation (RAG), um die Einschränkung auszugleichen, dass LLMs grundsätzlich nur auf öffentliche Daten bis zum Zeitpunkt ihres Trainings Zugriff haben. Für spezifischere Anwendungsfälle oder veränderte Informationen müssen dem LLM diese also mitgeteilt werden.
Bei RAG-Ansätzen werden dafür für die aktuelle Anfrage relevante Dokumente aus z. B. einer Datenbank geladen und dem LLM in der Eingabe zur Verfügung gestellt. Idealerweise bekommt das LLM so die Informationen, die für die Beantwortung der Anfrage nötig sind, und kombiniert diese entsprechend für die Antwort. In einem Teil unserer Experimente haben wir auch den „Optimalfall“ von RAG simuliert: In der Eingabe wurden dem LLM alle notwendigen „Teile“ gegeben, die für die Beantwortung der Anfrage notwendig sind und auch keine anderen Teile, die möglicherweise ablenken könnten.
Obwohl dies die Aufgabe deutlich vereinfachte, zeigten die LLMs auch in diesem Szenario kein konsistentes kompositionelles Verhalten und scheiterten häufig beim Zusammensetzen der gegebenen Informationen – selbst dann, wenn sie zusätzlich mit Fine-Tuning für diese Aufgabe optimiert wurden.
Unsere Arbeit betrachtet zwar nur den Anwendungsfall der Umwandlung von Fragen in SPARQL-Abfragen, doch legen die Ergebnisse unserer und anderer Studien nahe, dass grundsätzlich auch in aktuellen RAG-Ansätzen Vorsicht geboten ist, wenn dem LLM eine Aufgabe anvertraut wird, bei dem es verschiedene Informationen oder Dokumente zuverlässig kombinieren muss, um eine Antwort zu erzeugen.
Ausblick
Was heißt dies nun für die Zukunft von LLM-basierten Systemen? Der schlichte Verzicht auf LLMs ist in vielen Fällen sicher nicht die vielversprechendste Lösung, ermöglichen LLMs doch in vielen Bereichen eine Genauigkeit, wie sie mit keinem vorherigen Ansatz möglich war. Dennoch ist womöglich eine gesunde Mischung aus Vertrauen und Skepsis ratsam, statt der Ausgabe von LLMs blind zu vertrauen. Genauso kann es sinnvoll sein, die zu lösende Aufgabe mit etablierten klassischen Ansätzen und Programmen zu kombinieren, so dass jeder Teil das tut, was er am besten kann.
Während sich klassische, sogenannte symbolische Ansätze durch zuverlässiges, nachvollziehbares Verhalten bei geringerer Flexibilität auszeichnen, sind LLMs ausgesprochen flexibel und gut darin, Muster zu entdecken, wenn es keine klaren eindeutigen Regeln für eine Aufgabe gibt – sind dafür aber nicht immer nachvollziehbar und konsequent in ihrem Handeln. Ebenso kann die Zerlegung der Aufgabe in kleinere, überschaubarere Teile mit für Menschen verständlichen Zwischenergebnissen helfen. Dadurch können einerseits Fehler besser zurückverfolgt und repariert werden und andererseits werden die jeweiligen Aufgaben, die ein LLM oder ein symbolisches System zu lösen haben, einfacher und besser definiert, mit mehr Möglichkeiten zur Kontrolle und zum Eingreifen bei Problemen.
In unserem Ansatz NeoDUDES versuchen wir diese Philosophie für „Knowledge Graph Question Answering“ umzusetzen. In diesem modularen, kompositionellen Ansatz übernehmen symbolische Teile z. B. die Komposition von Teilbedeutungen einer Frage zu einer Gesamtbedeutung. Ergänzend sind LLMs für die Auswahl und Bewertung von Kandidaten auf verschiedenen Ebenen zuständig, falls es beispielsweise zu Mehrdeutigkeiten in der Fragestellung kommt und der korrekte Kandidat nicht unmittelbar klar ist. So sind in Zukunft hoffentlich noch zuverlässigere und erklärbarere KI-Systeme möglich, welche dann auch tatsächlich echtes kompositionelles Verständnis von Fragen an den Tag legen.