Chinchilla ist ein sehr leistungsfähiges Sprachmodell von DeepMind. Es umfasst „nur“ 70 Milliarden Parameter, wurde aber mit 1,4 Billionen Token trainiert. Chinchilla übertrifft Sprachmodelle mit wesentlich mehr Parametern wie GPT-3, Gopher oder Megatron-Turing NLG in fast allen NLP-Benchmarks. Das Chinchilla-Sprachmodell geht auf ein 2022 von DeepMind veröffentlichtes Paper zurück, das das optimale Verhältnis der Anzahl von Parametern und Trainings-Token von Sprachmodellen empirisch untersucht.
Weiterlesen