Was ist Chinchilla?

Definition Was ist Chinchilla?

05.09.2022 Von Dipl.-Ing. (FH) Stefan Luber

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Chinchilla ist ein sehr leistungsfähiges Sprachmodell von DeepMind. Es umfasst „nur“ 70 Milliarden Parameter, wurde aber mit 1,4 Billionen Token trainiert. Chinchilla übertrifft Sprachmodelle mit wesentlich mehr Parametern wie GPT-3, Gopher oder Megatron-Turing NLG in fast allen NLP-Benchmarks. Das Chinchilla-Sprachmodell geht auf ein 2022 von DeepMind veröffentlichtes Paper zurück, das das optimale Verhältnis der Anzahl von Parametern und Trainings-Token von Sprachmodellen empirisch untersucht.

Chinchilla ist der Name eines von DeepMind entwickelten und trainierten Sprachmodells. Es hat lediglich 70 Milliarden Parameter und wurde mit 1,4 Billionen Token trainiert. Das Sprachmodell übertrifft andere Sprachmodelle mit deutlich mehr Parametern wie GPT-3 (175 Milliarden Parameter), Gopher (280 Milliarden Parameter) oder Megatron-Turing NLG (530 Milliarden Parameter) in fast allen NLP-Benchmarks.

Chinchilla geht auf ein im Jahr 2022 von DeepMind veröffentlichtes Paper zurück. In diesem wird das optimale Verhältnis der Anzahl von Parametern und Trainings-Token von Sprachmodellen empirisch untersucht. Die Autoren kommen zu dem Schluss, dass die großen derzeit aktuellen Sprachmodelle untertrainiert sind. Mit Chinchilla beweisen die Autoren, dass ein stärker trainiertes Sprachmodell mit lediglich 70 Milliarden Parametern eine wesentlich bessere Leistung in zahlreichen NLP-Aufgaben erzielen kann. Damit stellt sich Chinchilla gegen den Trend, immer größere Sprachmodelle mit immer mehr Parametern zu entwickeln, um die Fähigkeiten der Modelle zu skalieren.

Inhalt und Erkenntnisse des DeepMind-Papers

Das DeepMind-Paper mit dem Titel „Training Compute-Optimal Large Language Models“ wurde im März 2022 veröffentlicht. Zu den Autoren zählen unter anderem Jordan Hoffmann, Sebastian Borgeaud und Arthur Mensch. Die Erkenntnisse des Papers stehen im Widerspruch zu dem gängigen Trend, die Fähigkeiten von Sprachmodellen durch immer mehr Parameter zu steigern. Die Autoren untersuchen empirisch das optimale Verhältnis der Anzahl von Parametern und Trainings-Token für Transformer-basierte Sprachmodelle bei einem gegebenen Computing-Budget. Hierfür trainierten sie 400 verschieden große Sprachmodelle mit unterschiedlich vielen Trainings-Token.

Ergebnis der empirischen Untersuchung ist, dass die derzeitig gängigen großen Sprachmodelle signifikant untertrainiert sind. Werden Sprachmodelle mit mehr Parametern entwickelt, sollte auch die Menge der Trainings-Token proportional zu der Anzahl der Parameter erhöht werden. Um ihre Erkenntnisse praktisch zu stützen, trainierten sie das Sprachmodell Chinchilla mit dem gleichen Computing-Budget wie Gopher (280 Milliarden Parameter, 300 Milliarden Trainings-Token), aber viermal mehr Trainingsdaten. Obwohl Chinchilla mit 70 Milliarden Parametern nur ein Viertel der Parameteranzahl von Gopher besitzt, schlägt es Gopher in fast allen Benchmarks. Ausgehend von den 1,4 Billionen Trainings-Token für Chinchilla und einer proportionalen Erhöhung der Trainingsdaten im Vergleich zu den Parametern, sollte Gopher für eine optimale Leistung mit der vierfachen Menge an Trainings-Token (5,6 Billionen) trainiert werden.

Mit gleichem Ansatz könnte beispielsweise eine kleinere Variante des Google-Sprachmodells PaLM mit nur circa einem Viertel der 540 Milliarden Parameter, aber deutlich mehr Trainings-Token, eine gleiche Leistung wie das große PaLM-Sprachmodell erzielen. Mit noch mehr Training ließe sich die Leistung des großen PaLM-Modells noch weiter skalieren.

Als weiteres Ergebnis halten die Autoren fest, dass die leistungsfähigen, kleineren und stärker trainierten Sprachmodelle wie Chinchilla kostengünstiger zu betreiben sind. Kleinere Modelle arbeiten schneller und verbrauchen weniger Hardware-Ressourcen als größere Sprachmodelle. Sie benötigen weniger Aufwand, um sie für bestimmte Anwendungen zu optimieren und haben deutlich kürzere Inferenzzeiten.

Einige Details zum Sprachmodell Chinchilla

DeepMind reduzierte die Anzahl der Parameter von Chinchilla im Vergleich zu Gopher von 280 Milliarden auf 70 Milliarden. Chinchilla wurde mit gleichem Computing-Budget wie Gopher trainiert. Die Anzahl der Trainings-Token war mit 1,4 Billionen um circa das Vierfache größer. Was die grundsätzliche Architektur des Chinchilla-Sprachmodells angeht, ist es nahezu mit der von Gopher identisch. Chinchilla ist wie Gopher ein Transformer-basiertes Sprachmodell und hat die gleiche Anzahl Layer. Nur in einigen Details, wie dem etwas veränderte SentencePiece-Tokenizer, bestehen Unterschiede. Auch das Trainingsvokabular ist mit circa 94 Prozent gleicher Token sehr ähnlich dem von Gopher.

Ergebnisse des Benchmarkvergleichs

Die Leistungsfähigkeit von Chinchilla wurde mit verschiedenen Sprachbenchmarks gemessen. In fast allen Benchmarks erzielt Chinchilla bessere Ergebnisse als die deutlich größeren aktuellen Sprachmodelle. Verglichen wurde die Leistungsfähigkeit von Chinchilla beispielsweise mit den Sprachmodellen GPT-3 (175 Milliarden Parameter), Gopher (280 Milliarden Parameter) oder Megatron-Turing NLG (530 Milliarden Parameter). Getestet wurde Chinchilla mit Aufgaben wie dem Beantworten von Fragen oder dem Lese- und Sinnverständnis. Zu den verwendeten Benchmarks zählen TriviaQA, HellaSwag, PIQA, Winogrande, BoolQa, LAMBADA, MMLU und weitere.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

(ID:48557982)