Trainingseffizienz MIT-Forscher beschleunigen LLM-Training durch Parallelmodell

Von Berk Kutsal 1 min Lesedauer

Anbieter zum Thema

Ein neues Verfahren soll das Training großer Sprachmodelle deutlich beschleunigen, ohne Genauigkeit einzubüßen. Statt auf zusätzliche Hardware setzt der Ansatz auf eine bessere Auslastung vorhandener Rechenressourcen.

Nicht mehr Hardware, sondern bessere Auslastung. Der Chip selbst „arbeitet effizienter“. Genau das soll Kernaussage der MIT-Arbeit sein.(Bild:  KI-generiert)
Nicht mehr Hardware, sondern bessere Auslastung. Der Chip selbst „arbeitet effizienter“. Genau das soll Kernaussage der MIT-Arbeit sein.
(Bild: KI-generiert)

Forscher am Massachusetts Institute of Technology (MIT) haben eine Methode vorgestellt, mit der sich das Training großer Sprachmodelle (LLMs) erheblich effizienter gestalten lasse. Hintergrund ist ein bekanntes Problem beim Training von Reasoning-Modellen mit Reinforcement Learning: Ein erheblicher Teil der GPU-Zeit bleibt ungenutzt, weil einzelne Prozesse auf langsamere Berechnungsschritte warten müssen. In komplexen Trainingsläufen könne dieser Leerlauf laut den Forschern bis zu 85 Prozent der Zeit ausmachen.

Leerlaufzeiten als Hebel

Der neue Ansatz mit dem Namen „Taming the Long Tail“ (TLT) setzt genau an dieser Stelle an. Während Teile des Systems auf Ergebnisse warten, wird parallel ein kleineres Hilfsmodell trainiert. Dieses sogenannte Drafter-Modell generiert Vorschläge für mögliche Antworten oder Zwischenschritte. Das große Sprachmodell überprüft diese Vorschläge und übernimmt sie, sofern sie plausibel erscheinen.

So soll sich die Wartezeit produktiv nutzen lassen. Statt Rechenkapazität brachliegen zu lassen, entsteht ein zweiter Lernpfad, der das Hauptmodell unterstützt. Nach Angaben des MIT-Teams könne das Training dadurch je nach Szenario um 70 bis über 200 Prozent beschleunigt werden, ohne dass die Modellqualität sinke.

Effizienz statt Skalierung

Das Verfahren greift damit einen zentralen Trend in der KI-Forschung auf: Leistungssteigerung nicht allein durch größere Modelle oder mehr Hardware, sondern durch optimierte Trainingsabläufe. Gerade bei rechenintensiven Reasoning-Modellen, die viele sogenannte Rollouts erzeugen und bewerten müssen, könne die bessere Synchronisation der Prozesse erhebliche Auswirkungen haben.

Neben kürzeren Trainingszeiten verspricht der Ansatz auch geringeren Energieverbrauch. Angesichts steigender Kosten und wachsender regulatorischer Anforderungen an Nachhaltigkeit im KI-Betrieb dürfte dieser Aspekt an Bedeutung gewinnen.

(ID:50767533)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung