Inspur AI Research Yuan 1.0 Sprachmodell mit 245,7 Milliarden Parametern vorgestellt

Autor / Redakteur: Martin Hensel / Nico Litzel

Das Inspur Artificial Intelligence Research Institute hat sein Sprachmodell Yuan 1.0 vorgestellt. Dabei handelt es sich laut Inspur um das größte Sprachmodell der Welt mit 245,7 Milliarden Parametern und fünf Terabyte an Datensätzen.

Firmen zum Thema

Menschliche Treffsicherheit bei der Erkennung schriftlicher Inhalte, die von Yuan 1.0 erzeugt wurden.
Menschliche Treffsicherheit bei der Erkennung schriftlicher Inhalte, die von Yuan 1.0 erzeugt wurden.
(Bild: Inspur)

Yuan 1.0 soll sich laut Inspur durch hohe Leistung sowohl beim Zero-Shot- als auch beim Little-Shot-Learning auszeichnen. Zudem kann das Modell Sprachinhalte generieren, die in vielen Fällen nicht von menschlich generierten Inhalten zu unterscheiden sind. Ein wissenschaftliches Paper auf arXiv beschreibt Entwicklung und Optimierung von Yuan 1.0 und entsprechende Testergebnisse.

Wie der Name schon vermuten lässt, handelt es sich bei Yuan 1.0 um ein chinesisches Sprachmodell. Dies erforderte im Vergleich zur englischen Sprache einen einzigartigen Entwicklungsprozess mit spezifischen Herausforderungen. Dazu zählen etwa die Bildung von Token in Sätzen ohne Leerzeichen oder das Fehlen eines qualitativ hochwertigen chinesischen Sprachkorpus als Grundlage. Die nötige Rechenleistung liefert ein dezentrales Lernsystem mit 2.128 GPUs.

Leistungsfähiges Modell

Auf dieser Basis gewann Yuan 1.0 sowohl in ZeroCLUE als auch in FewCLUE für den Chinese Language Understanding Benchmark (CLUE) den ersten Platz. In ZeroCLUE konnte Inspur den bisherigen Rekord um 18,3 Prozent übertreffen. Zudem wurde der erste Platz in sechs Aufgaben errungen: Klassifizierung von Themen aus der wissenschaftlichen Literatur sowie von Nachrichten, Produktklassifizierung, natürlichsprachliche Inferenz, Leseverständnis von Redewendungen und Substantiv-Pronomen-Beziehungen. In FewCLUE konnte Yuan 1.0 die Aufgaben Klassifizierung von Themen aus der wissenschaftlichen Literatur, Produktklassifizierung, Erkennung von Abstracts und Schlüsselwörtern aus der wissenschaftlichen Literatur und Substantiv-Pronomen-Beziehungen für sich entscheiden.

Laut Inspur übertraf das Sprachmodell vor allem beim Leseverständnis von Redewendungen menschliche Fähigkeiten. Zudem ist es besonders leistungsfähig bei der Generierung natürlicher Sprache („Natural Language Generating“, NLG). Es kann beispielsweise schriftliche Inhalte erzeugen, die den Turing-Test bestehen. Menschen konnte nur in weniger als der Hälfte aller Fälle von Yuan 1.0 erstellte Dialoge und Texte von nicht maschinell erzeugten Inhalten unterscheiden. Grundlage für diesen Erfolg sind zahlreiche Optimierungen von Modellarchitektur, Ergebniskalibrierung und Datensatzerstellung. So ermöglicht beispielsweise die Architektur die Berechnung von 245,7 Millionen Parametern mit einer Rechenleistung von 4.095 PetaFLOPS bei einem Lernverlust von 1,64.

(ID:47801032)