Sprachmodell Yuan 1.0 für Zero-Shot und Few-Shot Lernen

Kommentar von Liu Jun, Inspur Information Sprachmodell Yuan 1.0 für Zero-Shot und Few-Shot Lernen

17.06.2022 Von Liu Jun

Anbieter zum Thema

Inspur Electronic Information Industry Co., Ltd.

Das Sprachprognosemodell GPT-3 hat bei zahlreichen Aufgaben im Bereich der natürlichen Sprachverarbeitung (NLP) eine hervorragende Leistung des Zero-Shot- und Few-Shot-Lernens gezeigt, und zwar durch Skalierung der Modellgröße, der Datensatzgröße und des Rechenaufwands. Das Training eines Modells wie GPT-3 erfordert jedoch eine große Rechenleistung – für Forschende kein leichtes Unterfangen.

Der Autor: Liu Jun ist Vice President bei Inspur Information und General Manager KI & HPC(Bild: Inspur Information) — Der Autor: Liu Jun ist Vice President bei Inspur Information und General Manager KI & HPC
(Bild: Inspur Information)

Die Rechenleistung, das Datenvolumen und die Anzahl der Parameter nehmen exponentiell zu, was enorme Herausforderungen für das Training und den Einsatz von Modellen mit sich bringt. Inspur Information hat mit Yuan 1.0 das derzeit größte Singleton-Sprachmodell mit 5 Terabyte Datensätzen und 245,7 Milliarden Parametern entwickelt – dabei war das Training die größte Herausforderung bei diesem umfangreichen Modell.

Herausforderungen beim Training

Bisher war es üblich, ein Modell mit unüberwachtem Lernen auf einem großen, unbeschrifteten Datensatz vorzutrainieren und es dann auf eine bestimmte Aufgabe abzustimmen. Da GPT-3 große Fortschritte beim Zero-Shot- und Few-Shot-Lernen verzeichnet, kann es direkt auf eine Reihe von NLP-Aufgaben angewendet werden und zeigt eine gute Leistung – ohne dass es für diese Aufgaben feinabgestimmt werden muss.

GPUs bieten derzeit Gigabytes an Speicher. Das Training eines umfangreichen Modells wie Yuan 1.0 erfordert jedoch Terrabytes an GPU-Speicher. Es liegt auf der Hand, dass eine einzelne GPU oder ein GPU-gesteuerter Server bei weitem nicht ausreichen, um eine solche Aufgabe zu bewältigen. Die Ausbildung eines Modells dieser Größe erfordert daher eine gemeinsame Entwicklung und Optimierung der Modellalgorithmen, ein verteiltes Training und ein groß angelegtes Cluster-Computing, um die Konvergenz der Modellausbildung sicherzustellen.

Wie Yuan 1.0 trainiert wurde

GPT-3 wurde auf einem großen Cluster mit 10.000 GPUs trainiert. Um den Trainingsprozess zu beschleunigen, hat Inspur die wesentlichen Faktoren, die sich auf die Leistung des großangelegten verteilten Trainings auswirken, in das Design der Yuan-1.0-Modellstruktur integriert. Die LM-Parameter, die sowohl die Genauigkeit als auch die Leistung des groß angelegten dezentralen Trainings beeinflussen, umfassen die Anzahl der Schichten, die versteckte Größe, die globale Batch-Größe, die Mikro-Batch-Größe, usw. Dafür hat Inspur eine Strategie gewählt, die Datenparallelität, Pipelineparallelität und Tensorparallelität kombiniert. Das Modell berücksichtigt die Parameter, die optimale Ergebnisse liefern, und priorisiert die Rechenressourcen für diese Parameter, um die Nutzungseffektivität der Rechenressourcen zu maximieren.

Darüber hinaus wurde eine Methode zur Kalibrierung und Label-Erweiterung vorgeschlagen, um die Zero-Shot- und Few-Shot-Leistung zu verbessern. Dabei wurde eine kontinuierliche Verbesserung der Genauigkeit bei verschiedenen Aufgaben beobachtet.

Ein chinesischer Korpus mit 5 Terabyte qualitativ hochwertigem Text wurde auf der Grundlage von 850 Terabyte Rohdaten aus dem Internet erstellt, ausreichend, um das Yuan 245B-Modell zu trainieren, ohne den Datensatz zweimal zu beproben. Der erste Schritt ist die grobe Filterung mit verschiedenen Elementen wie Artikel-Extraktion, Filterung sensibler Wörter und Symbol-Filterung. Für die Extraktion von qualitativ hochwertigen Artikeln auf der Grundlage von Kursfilterungstext trainierte Inspur ein BERT-basiertes Modell zur Klassifizierung von hoher Qualität, niedriger Qualität und Werbung. Das Modell wird anhand von Datensätzen trainiert, die mit hochwertigen Artikeln, Artikeln von geringer Qualität und Werbung gekennzeichnet sind.

Vortrainierte Riesenmodelle

Menschen können mit nur einem oder wenigen Beispielen mühelos neues Wissen aufbauen, wo hingegen Algorithmen für maschinelles Lernen in der Regel Tausende von überwachten Beispielen benötigen, um ihre Generalisierungsfähigkeiten zu erlernen. Da Few-Shot die Fähigkeit hat, von Zero-Shot zu lernen und zu verallgemeinern, ist es ein wichtiges Zeichen für die Entwicklung der KI hin zur menschlichen Intelligenz. Zero-Shot-Lernen ist, vereinfacht ausgedrückt, die Fähigkeit eines trainierten Modells, nicht nur die Datenkategorien zu erkennen, die bereits im Trainingssatz enthalten sind, sondern auch Daten aus unbekannten Kategorien zu unterscheiden.

Beim Few-Shot-Lernen werden weitaus kleinere Datenstichproben verwendet, als für Deep Learning erforderlich sind – so werden Ergebnisse erzielt, die denen von Deep Learning mit Big Data nahekommen oder diese sogar übertreffen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Die Feinabstimmung sehr großer Modelle wie Yuan 1.0 ist schwierig und kostenintensiv. Daher ist es sinnvoll, die Modellparameter festzulegen und dann verschiedene Optimierungsstrategien für unterschiedliche nachgelagerte Aufgaben anzuwenden. Jüngste Forschungen zeigen auch, dass im Bereich des NLP Mega-Modelle durch Vergrößerung der Modellgröße, Ausweitung des Volumens an vortrainierten Daten und Nutzung von mehr Rechenressourcen sehr gute Leistungen beim Few- und sogar beim Zero-Shot Lernen erzielen können. Die vortrainierten Riesenmodelle müssen keinen komplizierten „Feinabstimmungsprozess" durchlaufen und können eine einheitliche und leistungsstarke algorithmische Unterstützung für die Generalisierung vieler Anwendungsaufgaben bieten

Wie Inspur Zero-Shot- und Few-Shot-Lernen implementiert hat

Die wichtigsten Fähigkeiten des Riesenmodells sind Zero-Shot- und Few-Shot-Lernfähigkeiten. Auf der Grundlage von Riesenmodellen kann das jedoch sehr instabil sein: Die Wahl des Formats der Cue-Vorlage, der Trainingsbeispiele und sogar die Reihenfolge der Trainingsbeispiele kann dazu führen, dass die Genauigkeit zwischen dem Zufallswert und dem Stand der Technik abweicht. Diese Instabilität ist auf Verzerrungen bei der Vorhersage bestimmter Antworten durch das Sprachmodell zurückzuführen, z. B. bei Antworten, die nahe am Ende des Cues platziert sind, oder bei Antworten, die in den Pre-Trainingsdaten häufig vorkommen.

Daher schlägt Inspur für Zero-Shot- und Few-Shot-Lernaufgaben ein Kalibrierungs- und Label-Erweiterungsschema vor, um die Leistung des Modells bei nachgelagerten Aufgaben zu verbessern. Umfassende Versuchsergebnisse zeigen, dass dieses Schema die Genauigkeit des Modells bei mehreren NLP-Aufgaben der Sprachverarbeitung nachhaltig verbessern kann.

Nach zahlreichen Versuchen hat Inspur festgestellt, dass die Aufgabe der Ein-Satz-Klassifizierung besser für den wahrscheinlichkeitsbasierten Generierungsansatz geeignet ist. Auf diese Weise wird das Cue Template in Form des auszufüllenden letzten Wortes der Leerstelle gestaltet.

Die Genauigkeit des Megamodells hängt stark von der Auswahl und Ausrichtung der Trainingsbeispiele ab. Daher wählte Inspur manuell drei verschiedene Beispielkategorien (Unterhaltung, Kultur und Sport) aus dem Trainingssatz aus, um die Ausrichtung zu testen.

Hohe Leistung: Parameter

Yuan 1.0 erzielte gute Leistungen bei verschiedenen NLP-Aufgaben im Zero-Shot- und Few-Shot-Lernen. Bei der Entwicklung der Architektur von Yuan 1.0 wurden die Modellstruktur und die Schlüsselfaktoren berücksichtigt, die die Leistung des verteilten Trainings in großem Maßstab beeinflussen. Der Trainingsprozess erreichte eine ausgezeichnete Leistung auf 2.128 GPUs. Die Zero-Shot- und Few-Shot-Leistung wurde durch Kalibrierung und Label-Erweiterung stetig verbessert. Das vortrainierte Yuan 1.0-Modell mit 100 Milliarden Parametern, kombiniert mit nachgelagerten Methoden zur Aufgabenoptimierung, übertraf den Branchenbesten in der Zero-Shot-Lernliste um 18,3 Prozent und führte bei sechs Aufgaben: Dokumentenklassifikation, Nachrichtenklassifikation, Produktklassifikation, muttersprachliches Chinesisch, Idiom-Leseverständnis „Fill-in-the-blank“ und Substantiv-Pronomen-Beziehung.

Yuan-1.0-Modelle erzielten Spitzenwerte bei ZeroCLUE, FewCLUE und Generierungsaufgaben, zeichnen sich durch Sprachintelligenz aus und gewannen die Gesamtwertung des Zero-Shot- und Few-Shot-Benchmarks zum chinesischen Sprachverständnis CLUE. Die von Yuan 1.0 generierten Artikel sind nur schwer von denen zu unterscheiden, die von Menschen verfasst wurden. Die Testergebnisse zeigen, dass die Erfolgsquote der Teilnehmer bei der genauen Unterscheidung zwischen menschlichen und Yuan-1.0-Arbeiten weniger als 50 Prozent beträgt – und in Zukunft auf weitere Sprachen ausgedehnt werden soll.

(ID:48308046)