Was ist das Megatron-Turing Natural Language Generation Model (MT-NLG)?

Definition Was ist das Megatron-Turing Natural Language Generation Model (MT-NLG)?

17.01.2022Von Dipl.-Ing. (FH) Stefan Luber

Das Megatron-Turing Natural Language Generation Model (MT-NLG) ist ein von den Unternehmen Microsoft und Nvidia entwickeltes und trainiertes generatives Sprachmodell. Es ist mit circa 530 Milliarden Parametern dreimal größer als das GPT-3-Sprachmodell. Für das Training des MT-NLG kamen Nvidia Selene Supercomputer und ein spezieller Software-Stack für verteiltes maschinelles Lernen zum Einsatz.

Anbieter zum Thema

QUNIS GmbH

MT-NLG ist das Akronym für Megatron-Turing Natural Language Generation Model. Es handelt sich um ein generatives Sprachmodell, das von den beiden Unternehmen Microsoft und Nvidia entwickelt wurde. Es gehört zu den weltweit größten und leistungsstärksten generativen Sprachmodellen. Mit 530 Milliarden Parametern ist es beispielsweise dreimal größer als das GPT-3-Sprachmodell.

Das Sprachmodell basiert auf DeepSpeed und Megatron. Es ist Nachfolger des Turing NLG 17B Sprachmodells von Microsoft und des Megatron-LM 8.3B Sprachmodells von Nvidia und baut auf Technologien und Erfahrungen dieser beiden Sprachmodelle auf. Die enge Kooperation zwischen Nvidia und Microsoft in der Entwicklung des Sprachmodells verfolgt laut eigenen Aussagen vorrangig zunächst keine kommerziellen Absichten, sondern ist als Forschungsprojekt zu sehen. Ziel des Projekts ist es, das Training von sehr großen Modellen der Künstlichen Intelligenz zu optimieren und zu parallelisieren.

Für das Training des MT-NLG kamen Nvidia Selene Supercomputer und ein spezieller Software-Stack für verteiltes maschinelles Lernen zum Einsatz. Das Megatron-Turing Natural Language Generation Model ist in der Lage, zahlreiche Aufgaben des Natural Language Processings (NLP) und der NLP-Unterkategorien Natural Language Understanding (NLU) und Natural Language Generation (NLG) mit hoher Qualität zu erledigen. Dazu gehören zum Beispiel das Vervollständigen von Texten, das Lesen und Verstehen von Texten, das Antworten auf Fragen, das Argumentieren, das Schlussfolgern oder die Klärung des Sinns von Wörtern in einem bestimmten Kontext.

Die wichtigsten Merkmale des MT-NLG

Die wichtigsten Merkmale des Megatron-Turing Natural Language Generation Model sind:

in Kooperation von Microsoft und Nvidia entwickelt

basiert auf Technologien und Erfahrungen des Turing NLG 17B Sprachmodells von Microsoft und des Megatron-LM 8.3B Sprachmodells von Nvidia und führt diese zusammen

mit circa 530 Milliarden Parametern dreimal größer als das GPT-3-Sprachmodell

nach Aussagen von Nvidia und Microsoft aktuell das größte und leistungsfähigste trainierte, monolithische Transformer-Sprachmodell

führt zahlreiche Aufgaben des Natural Language Processings (NLP) mit hoher Qualität aus

Training des Megatron-Turing Natural Language Generation Model

Große generative Sprachmodelle zu trainieren, stellt aus mehreren Gründen eine Herausforderung dar. Zum einen ist es kaum noch möglich, alle Parameter in den Arbeitsspeicher selbst größter Graphics Processing Units (GPUs) zu laden, zum anderen kann das Training aufgrund der vielen rechenintensiven Operationen sehr lange dauern. Für das Training des Megatron-Turing Natural Language Generation Model wurden daher sowohl die verwendete Hardware-Infrastruktur als auch die Software und die Algorithmen angepasst und optimiert. Zahlreiche von Microsoft und Nvidia entwickelte Innovationen kamen zum Einsatz. Das Training wurde auf Nvidia Selene Supercomputer bestehend aus 560 DGX-A100-Servern ausgeführt. Die verwendeten A100 GPUs mit jeweils 80 Gigabyte VRAM waren über NVLink und NVSwitch verbunden. Pro GPU erreicht das System eine Rechenleistung von etwa 120 Teraflops. Ein spezieller Software-Stack ermöglicht ein effizientes verteiltes Lernen. Die Bibliothek DeepSpeed reduziert den Speicherverbrauch und die Rechnerlast. Die Skalierung des Modells innerhalb eines Knotens leistet der Transformer Megatron-LM.

Als Dataset wurde für das Training The Pile verwendet. The Pile hat eine Größe von circa 825 Gigabyte und setzt sich aus verschiedenen Textquellen des Internets zusammen wie Wikis, Nachrichten oder wissenschaftliche Artikel. Neben Wikipedia sind das beispielsweise Books3, OpenWebText2, Gutenberg (PG-19), BookCorpus2, GitHub, ArXiv, Common Crawl, RealNews, CC-Stories und andere.

Ausführbare NLP-Aufgaben des Megatron-Turing Natural Language Generation Model

Das Megatron-Turing Natural Language Generation Model ist in der Lage, zahlreiche Aufgaben des Natural Language Processings (NLP) und der NLP-Unterkategorien Natural Language Understanding (NLU) und Natural Language Generation (NLG) mit hoher Qualität auszuführen. Es übertrifft die Leistung von Vorgängermodellen in vielen natürlichsprachlichen Aufgaben. Das MT-NLG ist beispielsweise für Aufgaben in diesen Bereichen des Natural Language Processings anwendbar:

das Vervollständigen von Text

das Verstehen von Text und Beantworten von zugehörigen Fragen

das Argumentieren mit „gesundem Menschenverstand“ (Common Sense)

die Klärung des Sinns von Wörtern in einem bestimmten Kontext (Word Sense Disambiguation – WSD)

Das Megatron-Turing Natural Language Generation Model beherrscht auch das sogenannte Low-Shot-Lernen und das Zero-Shot-Lernen. Beim Low-Shot- und Zero-Shot-Lernen werden ähnliche NLP-Aufgaben komplett ohne vorherige Abstimmung oder mit nur geringer Feinabstimmung erledigt.

(ID:47931463)