Kommentar von Dr. Philipp Bongartz & David Goebel, Exxeta Wird die Skalierung von Deep-Learning-Modellen zu starker KI führen?
Anbieter zum Thema
Deep Learning hat das Zeitalter der massiven Modell-Skalierung erreicht. Immer größere künstliche neuronale Netze werden mit immer mehr Rechenkraft auf enorme Datenmengen trainiert. Während vor zwei, drei Jahren Netze mit 100 Millionen Parametern als sehr groß galten, haben inzwischen OpenAI, Google Brain, Deepmind und zahlreiche andere Firmen tausendfach größere Modelle trainiert. Diese Modelle, wie etwa GPT-3, weisen Fähigkeiten auf, die vor wenigen Jahren für KI-Systeme noch undenkbar waren. Das wirft Fragen zur sogenannten „starken KI“ auf. Werden sich diese Modelle bis zu menschenähnlicher Intelligenz skalieren lassen?

Aber warum sollte das überhaupt möglich sein? Ist das menschliche Gehirn nicht viel komplexer als heutige künstliche neuronale Netze? KI-Forscher Joscha Bach definiert Intelligenz als die Fähigkeit, zu modellieren. Denn ein präzises Modell einer Sache zu haben, bedeutet, sie zu verstehen. Ein akkurates Modell der Welt liefert Vorhersagen möglicher Konsequenzen verschiedener Handlungen. Erst dadurch wird es möglich, verschiedene Handlungsoptionen zu durchdenken.
Unsere Intelligenz basiert zum größten Teil auf einem äußerst detaillierten Weltmodell, das wir durch jahrelanges Lernen aufgebaut haben: Wenn es regnet, wird man nass. Falls man sich im Freien aufhält. Außer man steht unter einem Baum. Falls der Baum belaubt ist. Aber wenn es zu lange regnet, dann tropft der Regen auch durch die Blätter.
Die Fähigkeit diese Aussagen nachzuvollziehen oder selbst zu generieren, basiert auf der Integration gigantischer Datenmengen in ein konsistentes multi-modales Modell der Welt. Ein solch akkurates Weltmodell fehlt aktuellen Deep-Learning-Modellen noch. Die neuen, sehr großen Sprachmodelle zeigen aber Ansätze, sich ein detailliertes Weltmodell aneignen zu können.
Die Bedeutung von Sprachmodellen
Diese Sprachmodelle sind Deep-Learning-Modelle, die in der Lage sind, aus gigantischen Datenmengen zu lernen, wie man Texte sinnvoll fortsetzt. Da die sinnvollste Fortsetzung einer Frage, eine Antwort ist, kann man sich interaktiv vergewissern, dass diese Modelle umso mehr Szenarien korrekt verstehen, je größer sie sind und auf desto mehr Daten sie trainiert worden sind.
Alle großen IT-Firmen haben das Potenzial von Sprachmodellen erkannt, wie ein Blick auf aktuelle Forschungsprojekte zeigt.
- Google hat gerade PaLM veröffentlicht, das mit 540 Milliarden Parametern größte aller Sprachmodelle.
- Microsofts Megatron-Turing-Modell liegt mit 530 Milliarden Parametern nur knapp dahinter.
- Die Google Tochter Deepmind forscht an Gopher und neuerdings Chinchilla.
Auch Europa und die Open Source Community machen zumindest erste Schritte. Die französische Transformer-Software-Firma Hugging Face trainiert ein GPT-3-ähnliches multilinguales Modell auf Englisch, Französisch, Spanisch, Arabisch, Chinesisch und den Bantu-Sprachen. Die Open-Source-Initiative Eleuther AI verfügt über Cloud-Compute-Zusagen, die zu einer Open-Source-GPT-3-Replizierung führen sollen.
Auch in Deutschland gibt es jetzt mit Aleph Alpha ein Start-up, das auf gigantische Sprachmodelle setzt. Gleichzeitig soll hierzulande ein „Open GPT-X“ über ein Gaia-X-Leuchtturmprojekt entwickelt werden.
Das sich gerade jetzt diese enorme Dynamik entfaltet ist kein Zufall.
Skalierung – der Schlüssel zu starker KI?
Warum sind die größeren Sprachmodelle so viel leistungsstärker als ihre kleineren Vorgänger? Aus der Biologie ist bekannt, dass die Neuronenanzahl ein wichtiger Faktor bei tierischer Intelligenz ist. Übertragen auf neuronale Netze heißt das: Erhöht man die Anzahl der lernbaren Parameter des Modells, so erhöht sich auch die Kapazität des Modells, aus Daten zu lernen, falls die dafür notwendige Rechenkraft zur Verfügung steht.
Diese Beobachtungen stärken die sogenannte Skalierungshypothese: Nicht so sehr die zugrundeliegende Architektur bestimmt die Leistung eines KI-Systems, sondern Daten und Rechenkraft. KI-Forscher Rich Sutton fasst diese Erkenntnisse in seinem vielzitierten Essay „The bitter lesson“ wie folgt zusammen:
„Die größte Lehre aus 70 Jahren KI-Forschung ist, dass allgemeine Methoden, die Rechenkraft ausnutzen, letztendlich am effektivsten sind, und das mit großem Abstand. Der Grund dafür ist letztendlich das Mooresche Gesetz bzw. dessen Verallgemeinerung der exponentiell fallenden Kosten pro Recheneinheit. […]. Um kurzfristig eine Verbesserung zu erzielen, versuchen Forscher menschliches Fachwissen einzusetzen, aber das Einzige, was langfristig eine Rolle spielt, ist das Ausnutzen von Rechenkraft.“
Skalierungsgesetze
Dieser Zusammenhang ist also keine neue Erkenntnis. Trotzdem war es bis vor Kurzem schwer möglich, Deep-Learning-Modelle massiv zu skalieren. Denn: Modelle zu skalieren, bedeutet unter anderem, sie mit immer größeren Datenmengen zu füttern. Das war aber lange Zeit nur mit menschlicher Zuarbeit möglich. In den letzten drei Jahren jedoch gelangen große Fortschritte im Unsupervised Learning, das heißt, dem Lernen ohne von Menschen klassifizierten Daten.
Nun werden moderne Sprachmodelle mit sehr großen Textmengen trainiert. Das Prinzip: Das Modell sagt basierend auf dem bisher Gelernten das jeweils nächste Wort vorher. Dadurch erwirbt es ein allgemeines Textverständnis, welches im Anschluss für verschiedenste Anwendungen angepasst werden kann.
Dass diese Methode gut funktioniert, zeigen Forscherinnen und Forscher des Unternehmens OpenAI, das an Artificial General Intelligence (AGI), also sogenannter starker KI, forscht. Sie verwendeten die sogenannte Transformer-Architektur, mit der sie das Training parallel auf vielen Grafikprozessoren (GPUs) durchführen konnten. In einem viel beachteten Paper zeigten sie, dass diese neue Textverarbeitungsarchitektur Texte immer menschenähnlicher fortsetzen konnte, je mehr Daten, Parameter und Rechenaufwand für das Training zur Verfügung standen. Diese Performance-Verbesserung war anhand der abgeleiteten Skalierungsgesetze präzise vorhersagbar, und zwar über viele Größenordnungen von Daten, Rechenaufwand und Modellgröße hinweg.
Dieses Paper legte die Grundlagen für den Sprung zu extrem großen Modellen, wie beispielsweise den oben genannten. Zuvor hatte im Frühjahr 2019 das textgenerierende Transformermodell GPT-2 für Furore gesorgt. Mit 1,5 Milliarden Parametern generierte es automatisch Texte, die teilweise über mehrere Absätze konsistent blieben – ein Novum in der Textgenerierung.
Mittlerweile wurde GPT-2 auf Basis der Skalierungsgesetze um mehr als das 100-Fache auf 175 Milliarden Parameter skaliert. Das resultierende Modell GPT-3 ist so groß, dass es auf einem GPU-Cluster läuft und Nutzern außerhalb von OpenAI bisher nur über eine Programmierschnittstelle zugänglich ist.
Im Vergleich zu GPT-2 hat es ein Verständnis für Zahlen entwickelt, kann also beispielsweise addieren und multiplizieren. Außerdem ist es fähig, Texte in verschiedenste Sprachen zu übersetzen, auf Anweisung Code zu schreiben, viele Fragen über die Welt korrekt zu beantworten und noch einiges mehr. Trainiert wurde es nur darauf, den nächsten „Token“ vorherzusagen (in den meisten Fällen einfach ein Wort).
Limitationen
Sprachmodelle sind unimodale Modelle, sie werden allein auf Text trainiert. Ihnen fehlt folglich der Bezug zur Wirklichkeit, zur Situation oder zur nonverbalen Kommunikation. So ist auch GPT-3 nicht perfekt. Genau diesen Umstand kritisierte Douglas Hofstadter an Google Translate. Seine Aussagen lassen sich aber auf alle Sprachmodelle übertragen.
„Das [...] Programm liest nicht – nicht in der normalen menschlichen Bedeutung des Verbs „lesen“. Es verarbeitet Text. Die Symbole, die es verarbeitet, sind losgelöst von Erfahrungen in der Welt. Es hat keine Erinnerungen, auf die es sich beziehen kann, keine Bilder, kein Verständnis, keine Bedeutung hinter den Wörtern, die es so rasant hervorschleudert.“
Hofstadter bezweifelt deswegen, dass Skalierung von Deep-Learning-Modellen der Schlüssel zu starker KI ist.
Trotzdem ist aber natürlich nicht ausgeschlossen, dass GPT-4, 5 oder 6 unter Anwendung der Skalierungsgesetze ein menschliches Niveau an Intelligenz erreichen kann. Vorausgesetzt, dass es mit weiteren Parametern und auf sehr viel mehr Daten trainiert wird.
Viel wahrscheinlicher ist aber, dass man über uni-modale Sprachmodelle hinausgehen muss, um Deep-Learning-Systemen Intelligenz einzuhauchen. Tatsächlich geht die Entwicklung längst auch in Richtung multi-modaler Modelle. Das sind Modelle, die mit verschiedenen Datentypen trainiert werden, beispielsweise mit Text aber auch mit Bildern. Dadurch haben sie das Potenzial ein Verständnis der Welt zu erwerben, das über statistische Zusammenhänge von Wörtern hinausgeht.
Die neue Phase der massiven Skalierung
Es ist offensichtlich, dass eine neue Phase der massiven Skalierung von Deep-Learning-Modellen begonnen hat. In den nächsten Jahren erwerben multi-modale Modelle ein neues Verständnis der Welt. Anhand von Videos, Text und zahlreichen komplementären Daten trainiert, modellieren sie sehr viele Aspekte der Welt akkurat. Neben OpenAI oder Google treten mit großer Wahrscheinlichkeit neue Player auf den Markt ein: Vor allem chinesische Organisationen haben auf die Fähigkeiten von GPT-3 bemerkenswert schnell mit eigenen Entwicklungen reagiert.
Nun ist ein Weltmodell allein noch nicht intelligent. Dafür muss es vermutlich in eine kognitive Architektur integriert werden. Es mag sein, dass sich nach einer Lösung des Weltmodellproblems neue Hürden zeigen. Welche das sein könnten? Diesbezüglich gibt es auch bei den Kritikern der Skalierungshypothese keinen Konsensus. Wir wissen also nicht, wie schwierig der Sprung von einem Modell, das in der Lage ist, die Welt mit ähnlicher Präzision wie der Mensch zu modellieren, hin zu AGI ist.
Jedoch hat die Skalierungshypothese durch die Skalierung der Transformer-Modelle deutlich an Plausibilität gewonnen. Wir leben in einer spannenden Zeit, in der echte Fortschritte in Richtung einer der bedeutendsten technischen Innovation aller Zeiten gemacht werden.
Es ist sicherlich auch denkbar, dass der Nutzen weiterer Skalierung heutiger Modelle die Kosten nicht wert ist und die Skalierungswut nach ein, zwei weiteren Jahren abebbt.
Aber falls das Training immer größerer Modelle wirtschaftlich ist, oder ein chinesisch-amerikanischer Skalierungswettlauf entbrennt – steht dann am Ende der Skalierungsphase womöglich AGI?
* Dr. Philipp Bongartz ist Senior Data Scientist bei Exxeta. David Goebel ist Data Scientist und Manager bei Exxeta.
Artikelfiles und Artikellinks
Link: Webseite der Exxeta AG
(ID:48203963)