KI-Training gegen Selbstüberschätzung MIT bringt Sprachmodellen das Zweifeln bei

Von Berk Kutsal 2 min Lesedauer

Anbieter zum Thema

Standard-Reinforcement-Learning macht KI-Modelle leistungsfähiger, aber auch übermütiger. MIT-CSAIL-Forscher ergänzen das Training um einen Kalibrierungsterm, der Modelle zwingt, ihre eigene Unsicherheit mitzudenken. Der Kalibrierungsfehler sinkt um bis zu 90 Prozent, die Genauigkeit bleibt stabil.

Vom Raten zum ehrlichen Zweifeln: MIT-Forscher bringen Sprachmodellen bei, ihre eigene Unsicherheit in Zahlen auszudrücken, wie ‚Ich bin zu 73 % sicher‘.(Bild:  Gemini / KI-generiert)
Vom Raten zum ehrlichen Zweifeln: MIT-Forscher bringen Sprachmodellen bei, ihre eigene Unsicherheit in Zahlen auszudrücken, wie ‚Ich bin zu 73 % sicher‘.
(Bild: Gemini / KI-generiert)

Aktuelle Reasoning-Modelle liefern bei komplexen Aufgaben bessere Ergebnisse als ihre Vorgänger, schätzen ihre eigene Treffsicherheit aber schlechter ein. Standardmäßiges Reinforcement Learning (RL) belohnt korrekte Antworten, gibt dem Modell aber keinen Anreiz, Unsicherheit auszudrücken. Das Ergebnis: Modelle raten selbstbewusst, auch wenn sie falsch liegen.

Ein Team am MIT CSAIL um die Doktoranden Mehul Damani und Isha Puri hat mit RLCR (Reinforcement Learning with Calibration Rewards) ein Trainingsverfahren entwickelt, das dieses Problem an der Wurzel angehen möchte. Die Methode ergänzt die Reward-Funktion um einen Brier Score: ein Maß, das die Differenz zwischen der vom Modell angegebenen Konfidenz und seiner tatsächlichen Genauigkeit bestraft. Sowohl selbstbewusst falsche als auch unnötig unsichere korrekte Antworten kosten das Modell Reward-Punkte.

Anderer Hebel als „Humble AI“

Das MIT arbeitet an mehreren Ansätzen gegen KI-Selbstüberschätzung. Vor Kurzem stellte eine andere MIT-Gruppe das BODHI-Framework unter dem Label „Humble AI“ vor, das bestehende Modelle per Prompting-Layer zu vorsichtigerem Verhalten bewegt.

RLCR setzt tiefer an: Es verändert nicht das Verhalten eines fertigen Modells, sondern den Trainingsprozess selbst. BODHI arbeitet qualitativ mit Rückfragen und Flags, RLCR liefert quantitative Konfidenzwerte mit mathematischen Garantien.

90 Prozent weniger Kalibrierungsfehler, null Genauigkeitsverlust

In Experimenten über mehrere Benchmarks hinweg reduzierte RLCR den Kalibrierungsfehler um bis zu 90 Prozent, also die Lücke zwischen behaupteter Konfidenz und tatsächlicher Trefferquote, bei gleichbleibender oder leicht verbesserter Genauigkeit. Die Ergebnisse hielten auch auf Tasks, die das Modell im Training nie gesehen hatte. Zum Vergleich: Modelle, die mit herkömmlichem RL trainiert wurden, zeigten eine schlechtere Kalibrierung als die untrainierten Basismodelle.

„Das Standard-Trainingsverfahren ist einfach und leistungsstark, gibt dem Modell aber keinen Anreiz, Unsicherheit auszudrücken oder ‚Ich weiß es nicht‘ zu sagen. Also lernt das Modell, bei Unsicherheit zu raten“, sagt Mehul Damani, Doktorand am MIT CSAIL. Isha Puri, ebenfalls Doktorandin am MIT CSAIL, ergänzt: „Gewöhnliches RL-Training verbessert die Kalibrierung nicht nur nicht. Es verschlechtert sie aktiv. Die Modelle werden leistungsfähiger und gleichzeitig übermütiger.“

Konfidenzwerte als Hebel bei der Inferenz

Über das Training hinaus liefert RLCR auch bei der Inferenz einen praktischen Nutzen. Wenn ein Modell mehrere Antwort-Kandidaten generiert, verbessert die Auswahl der Antwort mit dem höchsten selbst angegebenen Konfidenzwert sowohl Genauigkeit als auch Kalibrierung, und zwar mit steigendem Compute-Budget. Die Forscher zeigten zudem, dass die Unsicherheitsüberlegungen des Modells informativen Gehalt besitzen: Speist man sie als Input in nachgelagerte Klassifikatoren ein, verbessert sich deren Performance, besonders bei kleineren Modellen.

Die Forscher haben nach eigenen Aussagen formal bewiesen, dass die RLCR-Reward-Struktur Modelle garantiert, die sowohl akkurat als auch kalibriert sind. Das Papier „Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty“ von Damani, Puri, Stewart Slocum, Idan Shenfeld, Leshem Choshen, Yoon Kim und Jacob Andreas wird auf der International Conference on Learning Representations (ICLR) 2026 präsentiert.

(ID:50826193)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung