Definition Was ist das Generalist Language Model (GLaM)?

Anbieter zum Thema

Das Generalist Language Model ist ein riesiges KI-Sprachmodell von Google. Es wurde 2021 vorgestellt und hat 1,2 Billionen Parameter. GLaM zeichnet sich durch einen geringen Energieverbrauch und eine hohe NLP-Leistung aus. Im Vergleich zu GPT-3 ist es siebenmal größer, verbraucht aber beim Training nur rund ein Drittel der Energie von GPT-3. Das Sprachmodell hat eine Mixture-of-Experts-Architektur (MoE) mit 32 MoE-Schichten und jeweils 64 Experten-Netzen.

(Bild: © aga7ta - stock.adobe.com)

GLaM ist das Akronym für Generalist Language Model. Es handelt sich um ein riesiges, Ende 2021 von Google vorgestelltes KI-Sprachmodell. Es ist mit 1,2 Billionen Parametern circa siebenmal größer als GPT-3 mit seinen 175 Milliarden Parametern. Das Sprachmodell zeichnet sich durch einen geringen Energieverbrauch und eine hohe NLP-Leistung aus. Training und Inferenz sind energieeffizient durchführbar. Im Vergleich zu GPT-3 wird für das Training von GLaM nur rund ein Drittel an Energie verbraucht.

Hinsichtlich der Rechenleistung bei der Inferenz sind nur rund die Hälfte an Gleitkommaoperationen pro Sekunde (FLOPS – Floating Point Operations Per Second) notwendig. Das Generalist Language Model hat eine Mixture-of-Experts-Architektur (MoE) mit 32 MoE-Schichten und jeweils 64 Experten-Netzen. Trainiert wurde es mit einem Datensatz mit circa 1,6 Billionen Token.

Motivation für die Entwicklung des Generalist Language Model

Die Größe eines Sprachmodells hat starken Einfluss auf dessen Leistung in den verschiedenen Aufgabenbereichen des Natural Language Processing (NLP). In den letzten Jahren wurden die KI-Sprachmodelle mit Transformer-Architektur immer größer. Diese Sprachmodelle mit der großen Anzahl an Parametern zu trainieren und für die Inferenz zu betreiben, benötigt eine hohe Rechenleistung und viel Energie. Zahlreiche KI-Forscher und KI-Experten beschäftigen sich daher damit, effizientere Modelle zu entwickeln.

Auch Google forscht intensiv in diesem Bereich. Ein Ansatz für energieeffizientere Sprachmodelle ist die sogenannte Mixture-of-Experts-Architektur (MoE), bei der für unterschiedlichen Input eigene Netzschichten mit Experten-Netzen angelegt sind. Das Generalist Language Model ist ein Ergebnis dieser Forschung und besitzt 32 MoE-Schichten mit jeweils 64 Experten-Netzen.

Die Architektur und die prinzipielle Funktionsweise von GLaM

GLaM hat eine Mixture-of-Experts-Architektur (MoE-Architektur). Bei KI-Modellen mit dieser Architektur werden für bestimmten Input untergeordnete Netzschichten mit speziellen Experten trainiert. Im Vergleich zu einem einfachen Transformer-Netz ist das Feedforward-Netzwerk durch MoE-Schichten mit mehreren Experten-Netzen ersetzt. Für einen Input-Token werden beim Training die jeweils zwei am besten geeigneten Experten-Netze aktiviert. Diese beiden Experten kommen dann auch in der Inferenz zum Einsatz. Obwohl GLaM deutlich mehr Parameter besitzt, arbeitet es effizienter, da die Experten-Netze sehr sparsam aktiviert werden. Ein Experten-Netz kann sich über mehrere Rechengeräte erstrecken. Insgesamt besitzt GLaM 32 MoE-Schichten mit jeweils 64 Experten-Netzen. Durch die MoE-Architektur werden während der Inferenz nur rund acht Prozent der 1,2 Billionen Parameter aktiviert.

Das Training des Generalist Language Model

Das Generalist Language Model wurde mit einem von Google aufbereiteten Textdatensatz mit rund 1,6 Billionen Token trainiert. Im Vergleich dazu war der Trainingsdatensatz von GPT-3 nur 499 Milliarden Token groß. Einen Teil des Trainingsdatensatzes für GLaM bilden Webseiten. Aufgrund der sehr unterschiedlichen Qualität des Web-Contents von professionellen Texten bis zu einfachen Kommentaren entwickelte Google einen Qualitätsfilter, der mit Texten aus Büchern und Wikipedia-Texten trainiert wurde. Dieser Filter wurde auf den Web-Content angewandt. Zusammen mit Büchertexten, Wikipedia-Artikeln und weiteren Texten bilden die gefilterten Inhalte der Webseiten den Trainingsdatensatz.

Der Trainingsdatensatz setzt sich im Detail aus diesen Texten zusammen: gefilterte Webseiten (143 Milliarden Token), Wikipedia (3 Milliarden Token), Konversationen (174 Milliarden Token), Foren (247 Milliarden Token), Bücher (390 Milliarden Token) und Nachrichten (650 Milliarden Token). Während des Trainings wurde jeder Input-Token dynamisch zu zwei von 64 möglichen Experten-Netzwerken geroutet. Zwar benötigte GLaM beim Training mehr Rechenleistung pro Token als GPT-3, aufgrund der effizienten Software und Hardware-Architektur wurde aber nur rund ein Drittel an Energie verbraucht. Für die Inferenz wird nur rund die Hälfte an Rechenleistung (FLOPS) benötigt.

Die Leistung des Generalist Language Model für verschiedene Sprachaufgaben

Die Leistung des Generalist Language Model für verschiedene Sprachaufgaben wurde in mehreren Benchmarks gemessen. GLaM erreicht oder übertrifft die Leistung von GPT-3 in einer Vielzahl an Kategorien von Zero-Shot- und One-Shot-Aufgaben (fast 80 Prozent der Zero-Shot-Tasks und fast 90 Prozent der One-Shot-Tasks). Zu den Sprachaufgaben zählen zum Beispiel das Vervollständigen von Text oder das Beantworten von Fragen. Die NLP-Leistung ist bei einem deutlich geringerem Energieverbrauch in sieben Benchmarks vergleichbar mit dem Megatron-Turing Natural Language Generation Model (MT-NLG) von Nvidia mit seinen 530 Milliarden Parametern.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

(ID:48787106)