NVIDIA iGRPO: Self-Feedback hebt GRPO bei Mathe-Benchmarks

Reinforcement Learning für LLM-Reasoning iGRPO: NVIDIA-Modell schlägt eigenen Entwurf

02.06.2026 Von Berk Kutsal 2 min Lesedauer

Anbieter zum Thema

NVIDIA Research hat mit iGRPO eine Erweiterung des Reinforcement-Learning-Verfahrens GRPO vorgestellt. Der Ansatz koppelt ein zweistufiges Self-Feedback an das Training: Das Modell erzeugt zunächst Lösungsentwürfe und lernt dann, den besten davon zu übertreffen. Auf den Mathe-Benchmarks AIME24 und AIME25 melden die Autoren neue Bestwerte.

NVIDIA Research stellt mit iGRPO eine GRPO-Erweiterung vor. Das Modell trainiert sich, indem es seinen eigenen besten Entwurf übertrifft.(Bild: NVIDIA) — NVIDIA Research stellt mit iGRPO eine GRPO-Erweiterung vor. Das Modell trainiert sich, indem es seinen eigenen besten Entwurf übertrifft.
(Bild: NVIDIA)

Wer schon einmal eine knifflige Matheaufgabe gelöst hat, kennt das Muster: Man schreibt einen ersten Ansatz hin, merkt im Schreiben, wo es hakt, und setzt mit dieser Einsicht noch einmal neu an. Für Menschen ist das Refinement ein Standardweg zur Lösung – Reinforcement-Learning-Verfahren für Sprachmodelle dagegen ignorieren ihn weitgehend. Ein Team von NVIDIA Research will diese Lücke schließen und hat dazu Iterative GRPO (iGRPO) entwickelt, eine Erweiterung des inzwischen prominenten RL-Verfahrens GRPO.

Das Paper „iGRPO: Self-Feedback–Driven LLM Reasoning“ liegt als Preprint auf arXiv vor und ist zur ICLR 2026 eingereicht. Es baut auf Group Relative Policy Optimization (GRPO) auf, dem RL-Verfahren, das durch DeepSeek-R1 breite Bekanntheit erlangte.

Zweistufiges Training mit eigenem Entwurf als Kontext

iGRPO ergänzt GRPO um eine Self-Feedback-Schleife. In Stage 1 sampelt das Modell mehrere Lösungsentwürfe zu einem Prompt. Der Entwurf mit dem höchsten Reward wird ausgewählt, erhält aber keine Gradienten. In Stage 2 hängen die Forscher diesen besten Entwurf an den ursprünglichen Prompt an und sampeln darauf konditioniert neue Antworten. Nur diese zweite Stufe fließt in das Policy-Update ein. Das Modell lernt dadurch eine Refinement-Funktion, die seinen jeweils stärksten eigenen Versuch übertreffen soll.

Das Sampling-Budget bleibt identisch zu GRPO. Bei acht Completions pro Prompt verteilt iGRPO diese auf je vier Drafts und vier Refinements. Zur Inferenzzeit entfällt das Self-Conditioning komplett, das trainierte Modell generiert klassisch in einem Durchgang.

Benchmarks und Transfer

Auf sechs Mathematik-Benchmarks vergleicht das Team iGRPO mit Vanilla-GRPO sowie den Self-Improvement-Verfahren Self-Verification und Critique-GRPO. Über die Modellfamilien Nemotron-H-8B, DeepSeek-R1-Distill-Qwen-7B/14B und OpenMath-Nemotron-7B/14B liegt iGRPO durchgängig vorn.

AIME24: 85,62 Prozent mit OpenReasoning-Nemotron-7B auf AceReason-Math

AIME25: 79,64 Prozent in derselben Konfiguration

GPQA und MMLU-Pro: +1,84 beziehungsweise +0,91 Punkte gegenüber dem Basismodell

Die Gewinne beschränken sich also nicht auf Mathematik, sondern übertragen sich auf allgemeine Reasoning-Aufgaben.

Wrapper für andere RL-Verfahren

Laut den Ablationen funktioniert die zweistufige Refinement-Logik auch auf DAPO und GSPO und steigert deren Durchschnittsleistung um jeweils rund 1,1 bis 1,2 Punkte. Zudem lässt sich der regelbasierte Reward durch einen generativen Judge ersetzen. Ein Test mit GPT-5 als Judge brachte zusätzliche 0,94 Punkte im Schnitt.

Rechenaufwand

Die Speichernutzung bleibt mit 54,93 GB identisch zu GRPO (54,93 GB). Der Durchsatz sinkt von 0,41 auf 0,34 Samples pro Sekunde. Über einen kompletten Trainingslauf entspricht das etwa 13 Prozent mehr GPU-Stunden (94,1 statt 83,3). Trainiert wurde auf zwei Knoten mit je acht NVIDIA A100 (7B-Modelle) beziehungsweise fünf Knoten (14B-Modelle), wobei jeweils ein Knoten für die vLLM-Generation reserviert blieb.

Eine Entropie-Analyse zeigt, dass iGRPO den vorzeitigen Mode-Collapse verzögert, der bei GRPO ab etwa zehn Prozent der Trainingsschritte einsetzt. Die Autoren führen die Leistungsgewinne auf diese längere Explorationsphase zurück. Der Ansatz reiht sich ein in eine Linie von Arbeiten, die RL-Reward-Strukturen für Reasoning-Modelle gezielt umgestalten, etwa RLCR mit Kalibrierungs-Reward.

(ID:50849941)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.