RLCR: MIT reduziert KI-Übermut mit Kalibrierungs-Rewards

KI-Training gegen Selbstüberschätzung MIT bringt Sprachmodellen das Zweifeln bei

04.05.2026 Von Berk Kutsal 2 min Lesedauer

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Standard-Reinforcement-Learning macht KI-Modelle leistungsfähiger, aber auch übermütiger. MIT-CSAIL-Forscher ergänzen das Training um einen Kalibrierungsterm, der Modelle zwingt, ihre eigene Unsicherheit mitzudenken. Der Kalibrierungsfehler sinkt um bis zu 90 Prozent, die Genauigkeit bleibt stabil.

Vom Raten zum ehrlichen Zweifeln: MIT-Forscher bringen Sprachmodellen bei, ihre eigene Unsicherheit in Zahlen auszudrücken, wie ‚Ich bin zu 73 % sicher‘.(Bild: Gemini / KI-generiert) — Vom Raten zum ehrlichen Zweifeln: MIT-Forscher bringen Sprachmodellen bei, ihre eigene Unsicherheit in Zahlen auszudrücken, wie ‚Ich bin zu 73 % sicher‘.
(Bild: Gemini / KI-generiert)

Aktuelle Reasoning-Modelle liefern bei komplexen Aufgaben bessere Ergebnisse als ihre Vorgänger, schätzen ihre eigene Treffsicherheit aber schlechter ein. Standardmäßiges Reinforcement Learning (RL) belohnt korrekte Antworten, gibt dem Modell aber keinen Anreiz, Unsicherheit auszudrücken. Das Ergebnis: Modelle raten selbstbewusst, auch wenn sie falsch liegen.

Ein Team am MIT CSAIL um die Doktoranden Mehul Damani und Isha Puri hat mit RLCR (Reinforcement Learning with Calibration Rewards) ein Trainingsverfahren entwickelt, das dieses Problem an der Wurzel angehen möchte. Die Methode ergänzt die Reward-Funktion um einen Brier Score: ein Maß, das die Differenz zwischen der vom Modell angegebenen Konfidenz und seiner tatsächlichen Genauigkeit bestraft. Sowohl selbstbewusst falsche als auch unnötig unsichere korrekte Antworten kosten das Modell Reward-Punkte.

Anderer Hebel als „Humble AI“

Das MIT arbeitet an mehreren Ansätzen gegen KI-Selbstüberschätzung. Vor Kurzem stellte eine andere MIT-Gruppe das BODHI-Framework unter dem Label „Humble AI“ vor, das bestehende Modelle per Prompting-Layer zu vorsichtigerem Verhalten bewegt.

RLCR setzt tiefer an: Es verändert nicht das Verhalten eines fertigen Modells, sondern den Trainingsprozess selbst. BODHI arbeitet qualitativ mit Rückfragen und Flags, RLCR liefert quantitative Konfidenzwerte mit mathematischen Garantien.

90 Prozent weniger Kalibrierungsfehler, null Genauigkeitsverlust

In Experimenten über mehrere Benchmarks hinweg reduzierte RLCR den Kalibrierungsfehler um bis zu 90 Prozent, also die Lücke zwischen behaupteter Konfidenz und tatsächlicher Trefferquote, bei gleichbleibender oder leicht verbesserter Genauigkeit. Die Ergebnisse hielten auch auf Tasks, die das Modell im Training nie gesehen hatte. Zum Vergleich: Modelle, die mit herkömmlichem RL trainiert wurden, zeigten eine schlechtere Kalibrierung als die untrainierten Basismodelle.

„Das Standard-Trainingsverfahren ist einfach und leistungsstark, gibt dem Modell aber keinen Anreiz, Unsicherheit auszudrücken oder ‚Ich weiß es nicht‘ zu sagen. Also lernt das Modell, bei Unsicherheit zu raten“, sagt Mehul Damani, Doktorand am MIT CSAIL. Isha Puri, ebenfalls Doktorandin am MIT CSAIL, ergänzt: „Gewöhnliches RL-Training verbessert die Kalibrierung nicht nur nicht. Es verschlechtert sie aktiv. Die Modelle werden leistungsfähiger und gleichzeitig übermütiger.“

Mehr Adoption, weniger Qualität: Die KI-Waage kippt in die falsche Richtung. (Bild: KI-generiert)

Konfidenzwerte als Hebel bei der Inferenz

Über das Training hinaus liefert RLCR auch bei der Inferenz einen praktischen Nutzen. Wenn ein Modell mehrere Antwort-Kandidaten generiert, verbessert die Auswahl der Antwort mit dem höchsten selbst angegebenen Konfidenzwert sowohl Genauigkeit als auch Kalibrierung, und zwar mit steigendem Compute-Budget. Die Forscher zeigten zudem, dass die Unsicherheitsüberlegungen des Modells informativen Gehalt besitzen: Speist man sie als Input in nachgelagerte Klassifikatoren ein, verbessert sich deren Performance, besonders bei kleineren Modellen.

Die Forscher haben nach eigenen Aussagen formal bewiesen, dass die RLCR-Reward-Struktur Modelle garantiert, die sowohl akkurat als auch kalibriert sind. Das Papier „Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty“ von Damani, Puri, Stewart Slocum, Idan Shenfeld, Leshem Choshen, Yoon Kim und Jacob Andreas wird auf der International Conference on Learning Representations (ICLR) 2026 präsentiert.

(ID:50826193)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.