Kommentar von Liu Jun, Inspur Information Sprachmodell Yuan 1.0 für Zero-Shot und Few-Shot Lernen

Von Liu Jun

Das Sprachprognosemodell GPT-3 hat bei zahlreichen Aufgaben im Bereich der natürlichen Sprachverarbeitung (NLP) eine hervorragende Leistung des Zero-Shot- und Few-Shot-Lernens gezeigt, und zwar durch Skalierung der Modellgröße, der Datensatzgröße und des Rechenaufwands. Das Training eines Modells wie GPT-3 erfordert jedoch eine große Rechenleistung – für Forschende kein leichtes Unterfangen.

Anbieter zum Thema

Der Autor: Liu Jun ist Vice President bei Inspur Information und General Manager KI & HPC
Der Autor: Liu Jun ist Vice President bei Inspur Information und General Manager KI & HPC
(Bild: Inspur Information)

Die Rechenleistung, das Datenvolumen und die Anzahl der Parameter nehmen exponentiell zu, was enorme Herausforderungen für das Training und den Einsatz von Modellen mit sich bringt. Inspur Information hat mit Yuan 1.0 das derzeit größte Singleton-Sprachmodell mit 5 Terabyte Datensätzen und 245,7 Milliarden Parametern entwickelt – dabei war das Training die größte Herausforderung bei diesem umfangreichen Modell.

Herausforderungen beim Training

Bisher war es üblich, ein Modell mit unüberwachtem Lernen auf einem großen, unbeschrifteten Datensatz vorzutrainieren und es dann auf eine bestimmte Aufgabe abzustimmen. Da GPT-3 große Fortschritte beim Zero-Shot- und Few-Shot-Lernen verzeichnet, kann es direkt auf eine Reihe von NLP-Aufgaben angewendet werden und zeigt eine gute Leistung – ohne dass es für diese Aufgaben feinabgestimmt werden muss.

GPUs bieten derzeit Gigabytes an Speicher. Das Training eines umfangreichen Modells wie Yuan 1.0 erfordert jedoch Terrabytes an GPU-Speicher. Es liegt auf der Hand, dass eine einzelne GPU oder ein GPU-gesteuerter Server bei weitem nicht ausreichen, um eine solche Aufgabe zu bewältigen. Die Ausbildung eines Modells dieser Größe erfordert daher eine gemeinsame Entwicklung und Optimierung der Modellalgorithmen, ein verteiltes Training und ein groß angelegtes Cluster-Computing, um die Konvergenz der Modellausbildung sicherzustellen.

Wie Yuan 1.0 trainiert wurde

GPT-3 wurde auf einem großen Cluster mit 10.000 GPUs trainiert. Um den Trainingsprozess zu beschleunigen, hat Inspur die wesentlichen Faktoren, die sich auf die Leistung des großangelegten verteilten Trainings auswirken, in das Design der Yuan-1.0-Modellstruktur integriert. Die LM-Parameter, die sowohl die Genauigkeit als auch die Leistung des groß angelegten dezentralen Trainings beeinflussen, umfassen die Anzahl der Schichten, die versteckte Größe, die globale Batch-Größe, die Mikro-Batch-Größe, usw. Dafür hat Inspur eine Strategie gewählt, die Datenparallelität, Pipelineparallelität und Tensorparallelität kombiniert. Das Modell berücksichtigt die Parameter, die optimale Ergebnisse liefern, und priorisiert die Rechenressourcen für diese Parameter, um die Nutzungseffektivität der Rechenressourcen zu maximieren.

Darüber hinaus wurde eine Methode zur Kalibrierung und Label-Erweiterung vorgeschlagen, um die Zero-Shot- und Few-Shot-Leistung zu verbessern. Dabei wurde eine kontinuierliche Verbesserung der Genauigkeit bei verschiedenen Aufgaben beobachtet.

Ein chinesischer Korpus mit 5 Terabyte qualitativ hochwertigem Text wurde auf der Grundlage von 850 Terabyte Rohdaten aus dem Internet erstellt, ausreichend, um das Yuan 245B-Modell zu trainieren, ohne den Datensatz zweimal zu beproben. Der erste Schritt ist die grobe Filterung mit verschiedenen Elementen wie Artikel-Extraktion, Filterung sensibler Wörter und Symbol-Filterung. Für die Extraktion von qualitativ hochwertigen Artikeln auf der Grundlage von Kursfilterungstext trainierte Inspur ein BERT-basiertes Modell zur Klassifizierung von hoher Qualität, niedriger Qualität und Werbung. Das Modell wird anhand von Datensätzen trainiert, die mit hochwertigen Artikeln, Artikeln von geringer Qualität und Werbung gekennzeichnet sind.

Vortrainierte Riesenmodelle

Menschen können mit nur einem oder wenigen Beispielen mühelos neues Wissen aufbauen, wo hingegen Algorithmen für maschinelles Lernen in der Regel Tausende von überwachten Beispielen benötigen, um ihre Generalisierungsfähigkeiten zu erlernen. Da Few-Shot die Fähigkeit hat, von Zero-Shot zu lernen und zu verallgemeinern, ist es ein wichtiges Zeichen für die Entwicklung der KI hin zur menschlichen Intelligenz. Zero-Shot-Lernen ist, vereinfacht ausgedrückt, die Fähigkeit eines trainierten Modells, nicht nur die Datenkategorien zu erkennen, die bereits im Trainingssatz enthalten sind, sondern auch Daten aus unbekannten Kategorien zu unterscheiden.

Beim Few-Shot-Lernen werden weitaus kleinere Datenstichproben verwendet, als für Deep Learning erforderlich sind – so werden Ergebnisse erzielt, die denen von Deep Learning mit Big Data nahekommen oder diese sogar übertreffen.

Die Feinabstimmung sehr großer Modelle wie Yuan 1.0 ist schwierig und kostenintensiv. Daher ist es sinnvoll, die Modellparameter festzulegen und dann verschiedene Optimierungsstrategien für unterschiedliche nachgelagerte Aufgaben anzuwenden. Jüngste Forschungen zeigen auch, dass im Bereich des NLP Mega-Modelle durch Vergrößerung der Modellgröße, Ausweitung des Volumens an vortrainierten Daten und Nutzung von mehr Rechenressourcen sehr gute Leistungen beim Few- und sogar beim Zero-Shot Lernen erzielen können. Die vortrainierten Riesenmodelle müssen keinen komplizierten „Feinabstimmungsprozess" durchlaufen und können eine einheitliche und leistungsstarke algorithmische Unterstützung für die Generalisierung vieler Anwendungsaufgaben bieten

Wie Inspur Zero-Shot- und Few-Shot-Lernen implementiert hat

Die wichtigsten Fähigkeiten des Riesenmodells sind Zero-Shot- und Few-Shot-Lernfähigkeiten. Auf der Grundlage von Riesenmodellen kann das jedoch sehr instabil sein: Die Wahl des Formats der Cue-Vorlage, der Trainingsbeispiele und sogar die Reihenfolge der Trainingsbeispiele kann dazu führen, dass die Genauigkeit zwischen dem Zufallswert und dem Stand der Technik abweicht. Diese Instabilität ist auf Verzerrungen bei der Vorhersage bestimmter Antworten durch das Sprachmodell zurückzuführen, z. B. bei Antworten, die nahe am Ende des Cues platziert sind, oder bei Antworten, die in den Pre-Trainingsdaten häufig vorkommen.

Daher schlägt Inspur für Zero-Shot- und Few-Shot-Lernaufgaben ein Kalibrierungs- und Label-Erweiterungsschema vor, um die Leistung des Modells bei nachgelagerten Aufgaben zu verbessern. Umfassende Versuchsergebnisse zeigen, dass dieses Schema die Genauigkeit des Modells bei mehreren NLP-Aufgaben der Sprachverarbeitung nachhaltig verbessern kann.

Nach zahlreichen Versuchen hat Inspur festgestellt, dass die Aufgabe der Ein-Satz-Klassifizierung besser für den wahrscheinlichkeitsbasierten Generierungsansatz geeignet ist. Auf diese Weise wird das Cue Template in Form des auszufüllenden letzten Wortes der Leerstelle gestaltet.

Die Genauigkeit des Megamodells hängt stark von der Auswahl und Ausrichtung der Trainingsbeispiele ab. Daher wählte Inspur manuell drei verschiedene Beispielkategorien (Unterhaltung, Kultur und Sport) aus dem Trainingssatz aus, um die Ausrichtung zu testen.

Hohe Leistung: Parameter

Yuan 1.0 erzielte gute Leistungen bei verschiedenen NLP-Aufgaben im Zero-Shot- und Few-Shot-Lernen. Bei der Entwicklung der Architektur von Yuan 1.0 wurden die Modellstruktur und die Schlüsselfaktoren berücksichtigt, die die Leistung des verteilten Trainings in großem Maßstab beeinflussen. Der Trainingsprozess erreichte eine ausgezeichnete Leistung auf 2.128 GPUs. Die Zero-Shot- und Few-Shot-Leistung wurde durch Kalibrierung und Label-Erweiterung stetig verbessert. Das vortrainierte Yuan 1.0-Modell mit 100 Milliarden Parametern, kombiniert mit nachgelagerten Methoden zur Aufgabenoptimierung, übertraf den Branchenbesten in der Zero-Shot-Lernliste um 18,3 Prozent und führte bei sechs Aufgaben: Dokumentenklassifikation, Nachrichtenklassifikation, Produktklassifikation, muttersprachliches Chinesisch, Idiom-Leseverständnis „Fill-in-the-blank“ und Substantiv-Pronomen-Beziehung.

Yuan-1.0-Modelle erzielten Spitzenwerte bei ZeroCLUE, FewCLUE und Generierungsaufgaben, zeichnen sich durch Sprachintelligenz aus und gewannen die Gesamtwertung des Zero-Shot- und Few-Shot-Benchmarks zum chinesischen Sprachverständnis CLUE. Die von Yuan 1.0 generierten Artikel sind nur schwer von denen zu unterscheiden, die von Menschen verfasst wurden. Die Testergebnisse zeigen, dass die Erfolgsquote der Teilnehmer bei der genauen Unterscheidung zwischen menschlichen und Yuan-1.0-Arbeiten weniger als 50 Prozent beträgt – und in Zukunft auf weitere Sprachen ausgedehnt werden soll.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

(ID:48308046)