Reinforcement Learning für LLM-Reasoning iGRPO: NVIDIA-Modell schlägt eigenen Entwurf

Von Berk Kutsal 2 min Lesedauer

Anbieter zum Thema

NVIDIA Research hat mit iGRPO eine Erweiterung des Reinforcement-Learning-Verfahrens GRPO vorgestellt. Der Ansatz koppelt ein zweistufiges Self-Feedback an das Training: Das Modell erzeugt zunächst Lösungsentwürfe und lernt dann, den besten davon zu übertreffen. Auf den Mathe-Benchmarks AIME24 und AIME25 melden die Autoren neue Bestwerte.

NVIDIA Research stellt mit iGRPO eine GRPO-Erweiterung vor. Das Modell trainiert sich, indem es seinen eigenen besten Entwurf übertrifft.(Bild:  NVIDIA)
NVIDIA Research stellt mit iGRPO eine GRPO-Erweiterung vor. Das Modell trainiert sich, indem es seinen eigenen besten Entwurf übertrifft.
(Bild: NVIDIA)

Wer schon einmal eine knifflige Matheaufgabe gelöst hat, kennt das Muster: Man schreibt einen ersten Ansatz hin, merkt im Schreiben, wo es hakt, und setzt mit dieser Einsicht noch einmal neu an. Für Menschen ist das Refinement ein Standardweg zur Lösung – Reinforcement-Learning-Verfahren für Sprachmodelle dagegen ignorieren ihn weitgehend. Ein Team von NVIDIA Research will diese Lücke schließen und hat dazu Iterative GRPO (iGRPO) entwickelt, eine Erweiterung des inzwischen prominenten RL-Verfahrens GRPO.

Das Paper „iGRPO: Self-Feedback–Driven LLM Reasoning“ liegt als Preprint auf arXiv vor und ist zur ICLR 2026 eingereicht. Es baut auf Group Relative Policy Optimization (GRPO) auf, dem RL-Verfahren, das durch DeepSeek-R1 breite Bekanntheit erlangte.

Zweistufiges Training mit eigenem Entwurf als Kontext

iGRPO ergänzt GRPO um eine Self-Feedback-Schleife. In Stage 1 sampelt das Modell mehrere Lösungsentwürfe zu einem Prompt. Der Entwurf mit dem höchsten Reward wird ausgewählt, erhält aber keine Gradienten. In Stage 2 hängen die Forscher diesen besten Entwurf an den ursprünglichen Prompt an und sampeln darauf konditioniert neue Antworten. Nur diese zweite Stufe fließt in das Policy-Update ein. Das Modell lernt dadurch eine Refinement-Funktion, die seinen jeweils stärksten eigenen Versuch übertreffen soll.

Das Sampling-Budget bleibt identisch zu GRPO. Bei acht Completions pro Prompt verteilt iGRPO diese auf je vier Drafts und vier Refinements. Zur Inferenzzeit entfällt das Self-Conditioning komplett, das trainierte Modell generiert klassisch in einem Durchgang.

Benchmarks und Transfer

Auf sechs Mathematik-Benchmarks vergleicht das Team iGRPO mit Vanilla-GRPO sowie den Self-Improvement-Verfahren Self-Verification und Critique-GRPO. Über die Modellfamilien Nemotron-H-8B, DeepSeek-R1-Distill-Qwen-7B/14B und OpenMath-Nemotron-7B/14B liegt iGRPO durchgängig vorn.

  • AIME24: 85,62 Prozent mit OpenReasoning-Nemotron-7B auf AceReason-Math
  • AIME25: 79,64 Prozent in derselben Konfiguration
  • GPQA und MMLU-Pro: +1,84 beziehungsweise +0,91 Punkte gegenüber dem Basismodell

Die Gewinne beschränken sich also nicht auf Mathematik, sondern übertragen sich auf allgemeine Reasoning-Aufgaben.

Wrapper für andere RL-Verfahren

Laut den Ablationen funktioniert die zweistufige Refinement-Logik auch auf DAPO und GSPO und steigert deren Durchschnittsleistung um jeweils rund 1,1 bis 1,2 Punkte. Zudem lässt sich der regelbasierte Reward durch einen generativen Judge ersetzen. Ein Test mit GPT-5 als Judge brachte zusätzliche 0,94 Punkte im Schnitt.

Rechenaufwand

Die Speichernutzung bleibt mit 54,93 GB identisch zu GRPO (54,93 GB). Der Durchsatz sinkt von 0,41 auf 0,34 Samples pro Sekunde. Über einen kompletten Trainingslauf entspricht das etwa 13 Prozent mehr GPU-Stunden (94,1 statt 83,3). Trainiert wurde auf zwei Knoten mit je acht NVIDIA A100 (7B-Modelle) beziehungsweise fünf Knoten (14B-Modelle), wobei jeweils ein Knoten für die vLLM-Generation reserviert blieb.

Eine Entropie-Analyse zeigt, dass iGRPO den vorzeitigen Mode-Collapse verzögert, der bei GRPO ab etwa zehn Prozent der Trainingsschritte einsetzt. Die Autoren führen die Leistungsgewinne auf diese längere Explorationsphase zurück. Der Ansatz reiht sich ein in eine Linie von Arbeiten, die RL-Reward-Strukturen für Reasoning-Modelle gezielt umgestalten, etwa RLCR mit Kalibrierungs-Reward.

(ID:50849941)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung