Definition Was ist Chinchilla?

Anbieter zum Thema

Chinchilla ist ein sehr leistungsfähiges Sprachmodell von DeepMind. Es umfasst „nur“ 70 Milliarden Parameter, wurde aber mit 1,4 Billionen Token trainiert. Chinchilla übertrifft Sprachmodelle mit wesentlich mehr Parametern wie GPT-3, Gopher oder Megatron-Turing NLG in fast allen NLP-Benchmarks. Das Chinchilla-Sprachmodell geht auf ein 2022 von DeepMind veröffentlichtes Paper zurück, das das optimale Verhältnis der Anzahl von Parametern und Trainings-Token von Sprachmodellen empirisch untersucht.

(Bild: © aga7ta - stock.adobe.com)

Chinchilla ist der Name eines von DeepMind entwickelten und trainierten Sprachmodells. Es hat lediglich 70 Milliarden Parameter und wurde mit 1,4 Billionen Token trainiert. Das Sprachmodell übertrifft andere Sprachmodelle mit deutlich mehr Parametern wie GPT-3 (175 Milliarden Parameter), Gopher (280 Milliarden Parameter) oder Megatron-Turing NLG (530 Milliarden Parameter) in fast allen NLP-Benchmarks.

Chinchilla geht auf ein im Jahr 2022 von DeepMind veröffentlichtes Paper zurück. In diesem wird das optimale Verhältnis der Anzahl von Parametern und Trainings-Token von Sprachmodellen empirisch untersucht. Die Autoren kommen zu dem Schluss, dass die großen derzeit aktuellen Sprachmodelle untertrainiert sind. Mit Chinchilla beweisen die Autoren, dass ein stärker trainiertes Sprachmodell mit lediglich 70 Milliarden Parametern eine wesentlich bessere Leistung in zahlreichen NLP-Aufgaben erzielen kann. Damit stellt sich Chinchilla gegen den Trend, immer größere Sprachmodelle mit immer mehr Parametern zu entwickeln, um die Fähigkeiten der Modelle zu skalieren.

Inhalt und Erkenntnisse des DeepMind-Papers

Das DeepMind-Paper mit dem Titel „Training Compute-Optimal Large Language Models“ wurde im März 2022 veröffentlicht. Zu den Autoren zählen unter anderem Jordan Hoffmann, Sebastian Borgeaud und Arthur Mensch. Die Erkenntnisse des Papers stehen im Widerspruch zu dem gängigen Trend, die Fähigkeiten von Sprachmodellen durch immer mehr Parameter zu steigern. Die Autoren untersuchen empirisch das optimale Verhältnis der Anzahl von Parametern und Trainings-Token für Transformer-basierte Sprachmodelle bei einem gegebenen Computing-Budget. Hierfür trainierten sie 400 verschieden große Sprachmodelle mit unterschiedlich vielen Trainings-Token.

Ergebnis der empirischen Untersuchung ist, dass die derzeitig gängigen großen Sprachmodelle signifikant untertrainiert sind. Werden Sprachmodelle mit mehr Parametern entwickelt, sollte auch die Menge der Trainings-Token proportional zu der Anzahl der Parameter erhöht werden. Um ihre Erkenntnisse praktisch zu stützen, trainierten sie das Sprachmodell Chinchilla mit dem gleichen Computing-Budget wie Gopher (280 Milliarden Parameter, 300 Milliarden Trainings-Token), aber viermal mehr Trainingsdaten. Obwohl Chinchilla mit 70 Milliarden Parametern nur ein Viertel der Parameteranzahl von Gopher besitzt, schlägt es Gopher in fast allen Benchmarks. Ausgehend von den 1,4 Billionen Trainings-Token für Chinchilla und einer proportionalen Erhöhung der Trainingsdaten im Vergleich zu den Parametern, sollte Gopher für eine optimale Leistung mit der vierfachen Menge an Trainings-Token (5,6 Billionen) trainiert werden.

Mit gleichem Ansatz könnte beispielsweise eine kleinere Variante des Google-Sprachmodells PaLM mit nur circa einem Viertel der 540 Milliarden Parameter, aber deutlich mehr Trainings-Token, eine gleiche Leistung wie das große PaLM-Sprachmodell erzielen. Mit noch mehr Training ließe sich die Leistung des großen PaLM-Modells noch weiter skalieren.

Als weiteres Ergebnis halten die Autoren fest, dass die leistungsfähigen, kleineren und stärker trainierten Sprachmodelle wie Chinchilla kostengünstiger zu betreiben sind. Kleinere Modelle arbeiten schneller und verbrauchen weniger Hardware-Ressourcen als größere Sprachmodelle. Sie benötigen weniger Aufwand, um sie für bestimmte Anwendungen zu optimieren und haben deutlich kürzere Inferenzzeiten.

Einige Details zum Sprachmodell Chinchilla

DeepMind reduzierte die Anzahl der Parameter von Chinchilla im Vergleich zu Gopher von 280 Milliarden auf 70 Milliarden. Chinchilla wurde mit gleichem Computing-Budget wie Gopher trainiert. Die Anzahl der Trainings-Token war mit 1,4 Billionen um circa das Vierfache größer. Was die grundsätzliche Architektur des Chinchilla-Sprachmodells angeht, ist es nahezu mit der von Gopher identisch. Chinchilla ist wie Gopher ein Transformer-basiertes Sprachmodell und hat die gleiche Anzahl Layer. Nur in einigen Details, wie dem etwas veränderte SentencePiece-Tokenizer, bestehen Unterschiede. Auch das Trainingsvokabular ist mit circa 94 Prozent gleicher Token sehr ähnlich dem von Gopher.

Ergebnisse des Benchmarkvergleichs

Die Leistungsfähigkeit von Chinchilla wurde mit verschiedenen Sprachbenchmarks gemessen. In fast allen Benchmarks erzielt Chinchilla bessere Ergebnisse als die deutlich größeren aktuellen Sprachmodelle. Verglichen wurde die Leistungsfähigkeit von Chinchilla beispielsweise mit den Sprachmodellen GPT-3 (175 Milliarden Parameter), Gopher (280 Milliarden Parameter) oder Megatron-Turing NLG (530 Milliarden Parameter). Getestet wurde Chinchilla mit Aufgaben wie dem Beantworten von Fragen oder dem Lese- und Sinnverständnis. Zu den verwendeten Benchmarks zählen TriviaQA, HellaSwag, PIQA, Winogrande, BoolQa, LAMBADA, MMLU und weitere.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

(ID:48557982)