Definition Was ist ein Large Language Model?

Von Dipl.-Ing. (FH) Stefan Luber Lesedauer: 5 min |

Anbieter zum Thema

Large Language Models sind große generative Sprachmodelle mit Künstlicher Intelligenz, die mit riesigen Mengen an Textdaten vortrainiert sind. Sie basieren auf neuronalen Netzen, in der Regel in Transformer-Architektur, und besitzen viele Milliarden Parameter. LLMs können natürliche Sprache verarbeiten, verstehen und generieren. Große Sprachmodelle eignen sich für zahlreiche Anwendungen und sind beispielsweise die Grundlage für KI-Chatbots wie ChatGPT oder Google Bard.

(Bild: © aga7ta - stock.adobe.com)

Das Akronym für Large Language Model ist LLM. Die deutsche Übersetzung lautet „großes Sprachmodell“. Bei LLMs handelt es sich um große generative Sprachmodelle für textbasierte Inhalte. Sie verwenden Künstliche Intelligenz (KI), künstliche neuronale Netzwerke (KNN) und Deep Learning, um natürliche Sprache zu verarbeiten, zu verstehen und zu generieren.

LLMs sind mit riesigen Mengen an Textdaten vortrainiert und anschließend für bestimmte Aufgaben feinabgestimmt. Die Anzahl der Parameter moderner großer Sprachmodelle beträgt teilweise mehrere hundert Milliarden. Große Sprachmodelle können komplexe Texte, Fragen und Anweisungen verstehen. Sie sind beispielsweise zum Zusammenfassen, Übersetzen oder Vervollständigen von Texten einsetzbar. Die Modelle stellen zudem die Funktionsgrundlage für KI-Chatbots wie ChatGPT oder Google Bard zur Verfügung. Die von den Modellen erzeugten Textausgaben sind in der Regel grammatikalisch und orthografisch einwandfrei und schlüssig. Sie lassen sich kaum von Texten unterscheiden, die von Menschen geschrieben wurden. Einige der großen Sprachmodelle sind multimodal und verarbeiten neben Text auch Bilder, Videos oder Audiodaten.

Architektur und Funktionsweise großer Sprachmodelle

Die großen Sprachmodelle, wie sie heute zum Einsatz kommen, basieren auf künstlichen neuronalen Netzwerken mit sogenannter Transformer-Architektur. Diese Architektur hat sich seit einiger Zeit als eine Art Standard für maschinelles, tiefes Lernen (Deep Learning) im Bereich sequenzieller Daten wie Text durchgesetzt. Die neuronalen Netze bestehen aus mehreren Neuronenschichten und verschiedenen Funktionskomponenten. Im Kern arbeiten die LLMs mit Vorhersagen und Wahrscheinlichkeiten. Sie verbessern im Training ihre Vorhersagegenauigkeit und ermitteln Wort für Wort die wahrscheinlichste Fortsetzung eines Textes.

Netze mit Transformer-Architektur besitzen Encoder und Decoder, die nacheinander durchlaufen werden. Zudem haben sie einem sogenannten Selbstaufmerksamkeitsmechanismus (Self-Attention-Mechanismus), der Eingangsinformationen (Wörter beziehungsweise Token) mit weiteren Teilen der Eingangsinformationen wie einem Satz, einem Absatz oder einem ganzen Textabschnitt in Bezug setzen und sich auf bestimmte Teile konzentrieren kann. Etwas vereinfacht ausgedrückt, erhält das LLM dadurch ein besseres Gesamtverständnis für die Texte.

Training eines LLM

Seine grundlegenden Fähigkeiten erwirbt ein LLM während des Trainings. Es wird mit riesigen Mengen an Textdaten vortrainiert. Das Sprachmodell lernt im Training unüberwacht (Unsupervised Learning). Bei den Trainingsdaten handelt es sich um hunderte Gigabyte Texte in verschiedenen Sprachen. Viele dieser Texte sind öffentlich zugänglich. Es sind beispielsweise Artikel aus Wikipedia, Bücher, Texte auf Nachrichtenseiten, Forenbeiträge und Online-Kommentare oder Texte aus sozialen Netzwerken.

Im Training analysiert das LLM die Textsequenzen. Es erkennt Muster und lernt Bedeutungen, Beziehungen und Abhängigkeiten der Wörter eines Textes. Das Sprachmodell stellt Parameter des neuronalen Netzes wie Gewichtungen oder Schwellwerte der Neuronen und Neuronenverbindungen so ein, dass es Wahrscheinlichkeiten für Wörter und Wortfolgen bestmöglich vorhersagen kann. Das Training wird so lange fortgesetzt und die Parameter werden so lange optimiert, bis die bestmögliche Genauigkeit erreicht ist. Ihr eigentliches „Wissen“ und „Können“ speichern die LLMs somit in den vielen Milliarden Parametern, die während des Trainings eingestellt werden. Die eigentlichen Inhalte der Trainingstexte speichert ein LLM nicht. Es kann deshalb nachträglich auch nicht in den Trainingsdaten recherchieren. Das Training eines Sprachmodells erfordert großen Aufwand und viel Zeit. Je mehr Trainingsdaten und Parameter vorhanden sind, desto aufwendiger ist es. Für das Training ist ein Verbund hochleistungsfähiger Rechner und viel Speicherkapazität notwendig.

Feinabstimmung eines LLMs

Nach dem grundlegenden Training eines LLM mit großen Textkorpora findet die Feinabstimmung (Finetuning) des Modells statt. Mit dem Finetuning lässt sich das LLM für bestimmte Aufgaben und spezifische Anwendungsfälle trainieren und einstellen. Es kann beispielsweise in Form von überwachtem Lernen mit gelabelten Trainingsdaten oder als bestärkendes Lernen mit positiven und negativen Rückmeldungen stattfinden. Beispielsweise werden den großen Sprachmodellen die zugehörigen Lösungen für bestimmte Aufgabenstellungen präsentiert. Das Modell passt während der Feinabstimmung einige seiner Parameter entsprechend den spezifischen Aufgaben und ihren Lösungen an.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Welche Fähigkeiten haben LLMs und welche Einsatzmöglichkeiten gibt es?

Große Sprachmodelle haben viele Fähigkeiten und sind für zahlreiche Anwendungen einsetzbar. Sie lösen auch Aufgaben, für die sie nur mit wenigen Beispielen oder gar nicht trainiert wurden. Die Modelle zeigen erstaunliche Fähigkeiten beim Beantworten von Fragen und scheinen eine Art „allgemeines Weltwissen“ zu besitzen. Ihre Antworten sind oft nicht von menschlichen Antworten zu unterscheiden. Unter bestimmten Umständen können die Modelle allerdings dazu neigen, Fakten zu erfinden und zu „halluzinieren“.

LLMs können Texte zusammenfassen, ergänzen, übersetzen, umschreiben, klassifizieren, neue Texte erzeugen, Stimmungen in Texten erkennen, Fragen beantworten oder interaktiv mit Menschen kommunizieren. Da sich Programmiersprachen für die LLMs prinzipiell wie natürliche Sprachen verhalten, sind die Sprachmodelle darüber hinaus in der Lage, zu programmieren und Programmcode zu erzeugen. Andere sequenzielle Daten können sie ebenfalls verarbeiten. Das macht LLMs in abgewandelter Form prinzipiell auch für wissenschaftliche Anwendungen wie beispielsweise für die Vorhersage der Struktur und Eigenschaften von Proteinen auf Basis von Aminosäuresequenzen einsetzbar.

Gemäß ihren grundlegenden Fähigkeiten lassen sich die Modelle in verschiedene Kategorien wie Zero-Shot-Modelle, Finetuned-Modelle, Domain-Specific-Modelle, multimodale Modell und andere einteilen. Beispiele für Anwendungsmöglichkeiten großer Sprachmodelle sind:

  • Chatbots
  • Erzeugen von Produktbeschreibungen, Blogbeiträgen und Nachrichtentexten
  • Beantwortung von Kundenanfragen
  • Analyse von Kundenfeedback
  • Übersetzung von Texten und Online-Content in verschiedene Sprachen
  • Klassifizieren, Kategorisierung und Zusammenfassung großer Textmengen beispielsweise für wissenschaftliche Auswertungen
  • Unterstützung beim Programmieren
  • Erstellen und Kommentieren von Programmcode
  • und vieles mehr

Beispiele einiger bekannter LLMs

Large Language Models mit den beschriebenen Fähigkeiten gibt es erst seit wenigen Jahren. Zu den bekanntesten Vertretern zählen die großen Sprachmodelle von OpenAI aus der GPT-Familie (Generative Pretrained Transformer) wie GPT-2 (1,5 Milliarden Parameter), GPT-3 (175 Milliarden Parameter) oder GPT-4 (vermutlich über eine Billion Parameter), auf denen auch der Chatbot ChatGPT aufsetzt. Weitere bekannte LLMs sind:

  • BERT (Bidirectional Encoder Representations from Transformers) von Google mit 340 Millionen Parametern
  • T5 (Text-To-Text-Transfer-Transformer) von Google mit bis zu 11 Milliarden Parametern
  • MT-NLG (Megatron-Turing Natural Language Generation) von Microsoft und Nvidia mit 530 Milliarden Parametern
  • LaMDA (Language Models for Dialog Applications) von Google mit 137 Milliarden Parametern
  • PaLM (Pathways Language Model) von Google mit 540 Milliarden Parametern
  • Gopher von DeepMind mit 280 Milliarden Parametern
  • LLaMA-Modellfamilie (Large Language Model Meta AI) von Meta mit unterschiedlichen Parameteranzahlen
  • BLOOM - ein offenes multilinguales Language Model mit 176 Milliarden Parametern

(ID:49694062)