Definition Was ist PaLM (Pathways Language Model)?

Anbieter zum Thema

Das Pathways Language Model (PaLM) ist ein von Google 2022 vorgestelltes Sprachmodell. Es hat 540 Milliarden Parameter und erzielt in verschiedenen NLP-Benchmarks beeindruckende Ergebnisse. In einigen Bereichen soll es mit menschlichen Leistungen vergleichbar sein. PaLM nutzt die multitaskingfähige Pathways-KI-Architektur. Trainiert wurde das Sprachmodell per Few-Shot Learning auf dem Pathways-System mit 6.144 TPU-v4-Chips.

(Bild: © aga7ta - stock.adobe.com)

Das Pathways Language Model, abgekürzt PaLM, ist ein im Jahr 2022 von Google vorgestelltes Sprachmodell für NLP-Aufgaben (Natural Language Processing). Es basiert auf Pathways, einer im Jahr zuvor vorgestellten multitaskingfähigen KI-Architektur. Mit 540 Milliarden Parametern hat das Sprachmodell deutlich mehr Parameter als andere aktuelle Sprachmodelle wie das Megatron-Turing Natural Language Generation Model (MT-NLG). In verschiedenen NLP-Benchmarks erzielt das Pathways Language Model beeindruckende Ergebnisse. In bestimmten Bereichen erreicht das Modell menschliche Sprach- und Logikleistungen. PaLM erkennt beispielsweise den Sinn von Witzen, übersetzt Texte, unterscheidet zwischen Ursache und Wirkung, löst logische Aufgaben und erstellt Programmcode. Trainiert wurde das Sprachmodell mithilfe von Few-Shot Learning auf dem Pathways-System, bestehend aus 6.144 TPU-v4-Chips.

Grundkonzept von PaLM

Durch einfaches Skalieren der Sprachmodelle ist deren Leistung nicht unbegrenzt steigerbar. Die Anzahl an Parametern lässt daher nicht zwingend Rückschlüsse auf die Leistungsfähigkeit eines Sprachmodells zu. Beim Pathways Language Model setzt Google nicht nur auf die Größe des Sprachmodells, sondern führt eine neue Form von Multitasking-KI-Architektur ein. Diese nennt Google Pathways. Mit PaLM wurde der Pathways-Ansatz zum ersten Mal auf ein Sprachmodell angewandt.

Der Pathways-Ansatz selbst wurde im Oktober 2021, ein Jahr vor dem Pathways Language Model, vorgestellt. Die Grundidee bei Pathways ist, dass ein einzelnes KI-Modell in die Lage versetzt wird, viele verschiedene Aufgaben auszuführen und unterschiedliche Datentypen zu verstehen. Die Modelle sind nicht mehr nur für eine einzelne Aufgabe konzipiert, sondern dank eines tieferen Verständnisses der Zusammenhänge anpassungs- und multitaskingfähig.

Während herkömmliche KI-Modelle für das Erledigen einer bestimmten Aufgabe trainiert werden, erlaubt die Pathways-Architektur ein Modell für viele verschiedene Aufgaben gleichzeitig zu trainieren. Dadurch ist PaLM dem menschlichen Lernen ähnlicher. Die erlernte Fähigkeit, eine bestimmte Aufgabe zu lösen, ist auch für das Lösen anderer Aufgaben einsetzbar. Pathways macht multimodale Modelle möglich, die Sprache, Text, Audioinformationen und Bilder gleichzeitig verarbeiten und verstehen.

Darüber hinaus ist Pathways, ähnlich wie das menschliche Gehirn, in der Lage, nur die Bereiche eines Modells zu aktivieren, die für eine bestimmte Aufgabe tatsächlich benötigt werden. Pathways lernt, wie bestimmte Aufgaben durch die relevanten Bereiche eines Modells zu routen sind. Das Modell arbeitet dadurch schneller und effizienter.

Training des Pathways Language Model

Das Pathways Language Model nutzt sogenanntes Few-Shot-Lernen, bei dem Modelle mit vergleichsweise wenig Daten trainiert werden. Das Modell benötigt relativ wenig Trainingsbeispiele, um eine bestimmte Aufgabe zu erlernen. Es kann bereits erworbenes Wissen kombinieren und auf andere und neue Aufgaben transferieren.

Als Trainingsdaten für PaLM kamen verschiedene englischsprachige und mehrsprachige Datensets aus Quellen wie Wikipedia, GitHub, Büchern, Web-Dokumenten und anderen zum Einsatz. Trainiert wurde PaLM auf einem Pathways-System bestehend aus 6.144 TPU-v4-Chips. Das ist die größte bisher für das Training von KI-Modellen eingesetzte TPU-basierte System. Laut Angaben des PaLM-Teams erzielte das Modell beim Training eine Effizienz von circa 58 Prozent der theoretisch maximal erreichbaren Flops. Für das Training wurde sowohl die Daten- als auch Modellparallelisierung genutzt.

Fähigkeiten von PaLM

In zahlreichen Tests und Benchmarks erzielt PaLM Topergebnisse und lässt andere Sprachmodelle wie GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla oder LaMDA deutlich hinter sich. Laut des PaLM-Teams sollen die Fähigkeiten in einzelnen Bereichen mit dem Sprachverständnis von 9- bis 12-Jährigen vergleichbar sein. PaLM zeigt nicht nur in englischsprachigen Tests, sondern auch in mehrsprachigen NLP-Aufgaben starke Ergebnisse. Und das, obwohl nur rund 22 Prozent der Trainingsdaten nicht in englischer Sprache vorlagen.

Das Pathways Language Model ist in der Lage, Texte zu übersetzen, Fragen zu beantworten, Lückentexte und Sätze zu vervollständigen, Aufgaben mit logischem Denken zu lösen, Ursache und Wirkung zu unterscheiden oder sogar den Sinn von Witzen, die neu und noch nicht im Web zu finden sind, zu verstehen und zu erklären. Weitere Fähigkeiten sind das Erkennen der Bedeutung kombinierter Emojis, das Erkennen sinnvoller Sätze oder das Auswählen passender Synonyme und Wortdefinitionen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

PaLM kann darüber hinaus Programmcode erstellen. Zur Erzeugung des Codes genügt es, dem Modell eine Aufgabe in natürlicher Sprache zu stellen. Neben Text-to-Code-Aufgaben übersetzt das Modell Programmcode in verschiedene Sprachen oder behebt Kompilierungsfehler. Diese Coding-Fähigkeiten sind erstaunlich, da der Anteil an Programmcode der Trainingsdaten lediglich rund fünf Prozent betrug.

(ID:48496202)