KI kann rechnen, aber nicht begreifen Studie zeigt: KI-Sprachmodelle wirken klüger, als sie tatsächlich sind

Von Manuel Christa 2 min Lesedauer

Anbieter zum Thema

Verstehen KI-Modelle, was sie tun? Nicht wirklich – schlimmer noch: sie tun so, als würden sie verstehen. Zu diesem ernüchternden Ergebnis kam ein Forscherteam von Harvard und MIT. Wir können also aufatmen: Noch bleibt das Verständnis physikalischer Gesetze dem Menschen vorbehalten.

KI lügt: Schon Johannes Kepler wusste, dass man sich nicht auf KI-Modelle verlassen kann.(Bild:  KI-generiert)
KI lügt: Schon Johannes Kepler wusste, dass man sich nicht auf KI-Modelle verlassen kann.
(Bild: KI-generiert)

Wenn KI-Modelle wie GPT-4 oder Gemini Texte formulieren, wirkt es oft, als hätten sie ein tieferes Verständnis für die Welt. Aber was bedeutet „Verstehen“ in diesem Kontext? Um das zu klären, haben Harvard und MIT ein System entwickelt, das prüft, ob ein Modell nicht nur Vorhersagen treffen kann, sondern auch ein zugrundeliegendes Weltmodell verinnerlicht hat, wie etwa die Gravitation, die Planeten in Umlaufbahnen zwingt.

Zwei Arten von Erkenntnis

Für den Versuch haben die Forschenden einen historischen Vergleich herangezogen: Johannes Kepler konnte mit seinen Gesetzen die Planetenbewegung vorhersagen, aber erst Isaac Newton erkannte die physikalischen Ursachen. Kepler war ein Meister der Kurvenanpassung, Newton lieferte das erklärende Weltmodell. Diese Frage stellten sie der KI: Agiert sie wie Kepler oder wie Newton?

Die Forschenden trainierten ein Transformer-Sprachmodell mit 100 Millionen Parametern ausschließlich auf synthetischen Daten: Planetenpositionen in simulierten Sonnensystemen. Das Modell lernte, aus vergangenen Positionen die nächste vorherzusagen. Das klappte erstaunlich gut. Im zweiten Schritt sollten die Modelle aus den gleichen Daten die wirkende Gravitationskraft ableiten. Hier trennte sich die Spreu vom Weizen.

Fehlende Generalisierung trotz korrekter Vorhersagen

Die KI konnte zwar die Bahnverläufe akkurat extrapolieren, versagte aber bei der Berechnung der Kräfte. Statt einer universellen Formel wie Newtons Gravitationsgesetz lernte das Modell für jedes Szenario eigene, teils absurde Rechenregeln. Mithilfe symbolischer Regression konnte das Team die „gelernten“ Gleichungen rekonstruieren: Sie hatten mit realer Physik nichts zu tun.

Noch gravierender: Die Modelle fanden für jedes System neue Formeln. Es gelang ihnen nicht, das zugrunde liegende Prinzip, etwa die inverse quadratische Abhängigkeit der Kraft vom Abstand, zu abstrahieren. Damit blieb es bei isolierten Heuristiken ohne tieferes Verständnis.

Fehlendes Verständnis ist kein Einzelfall, sondern systematisch

Um sicherzugehen, dass dies kein Modellfehler war, verglichen die Forschenden die Ergebnisse mit einem „Oracle“: Einem System, das Zugriff auf alle relevanten physikalischen Parameter hatte. Dieses Modell konnte die Kräfte korrekt berechnen. Die Sprachmodelle scheiterten hingegen systematisch. Auch andere Architekturen wie Mamba oder RNNs zeigten denselben Mangel.

Sogar leistungsstarke kommerzielle Modelle wie GPT-4, Claude Sonnet oder Gemini 2.5 wurden mit In-Context-Learning-Aufgaben getestet, bei denen die Modelle während der Eingabephase Beispiele zur Aufgabenlösung erhielten. Auch sie nutzten in ihren Antworten teils grotesk vereinfachte oder physikalisch falsche Heuristiken. Trotz des Zugriffs auf Enzyklopädien, Lehrbücher und Formelsammlungen gelang es ihnen nicht, das Newtonsche Gesetz korrekt anzuwenden.

Wissen ist nicht gleich Verständnis

Die Studie liefert damit eine ernüchternde Erkenntnis: Selbst große KI-Modelle, die mit milliardenfachen Textdaten trainiert wurden, entwickeln kein tieferes Weltverständnis, solange sie nur auf Sequenzvorhersage optimiert werden. Sie sind exzellente Mustererkenner, aber keine Theoretiker.

Die Forschenden sehen darin eine Warnung. Wer KI-Systeme in sicherheitskritischen Bereichen einsetzen will, sei es in der Medizin, der Forschung oder dem Verkehr, sollte sich nicht auf ihre vermeintliche Intelligenz verlassen. „Die Modelle liefern aufgabenbezogen gute Ergebnisse, aber das heißt nicht, dass sie die dahinterliegenden Prinzipien verstanden haben“, heißt es im Fazit.

Dieser Artikel stammt von unserem Partnerportal ELEKTRONIKPRAXIS.

(ID:50494423)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung