Definition Was ist ein Foundation Model?

Von Dipl.-Ing. (FH) Stefan Luber 4 min Lesedauer

Ein Foundation Model ist ein großes, mit riesigen Datenmengen trainiertes KI-Basismodell. Es ist universell einsetzbar und eignet sich durch entsprechende Anpassung und Feinabstimmung für verschiedene spezialisierte Aufgaben. Technisch basieren Grundlagenmodelle auf Deep-Learning-fähigen neuronalen Netzwerken.

(Bild:  © aga7ta - stock.adobe.com)
(Bild: © aga7ta - stock.adobe.com)

Alternative deutsche Begriffe für Foundation Model, abgekürzt FM, sind Grundlagenmodell oder Basismodell. Bei einem Foundation Model handelt es sich um ein großes KI-Basismodell, das mit riesigen Datenmengen trainiert wurde und universell einsetzbar ist. Ein Foundation Model besitzt ein breites Spektrum an Fähigkeiten und ist durch entsprechende Anpassung und Feinabstimmung für zahlreiche verschiedene Aufgaben und Anwendungsfälle einsetzbar. Die Modelle können mit verschiedenen Arten von Daten umgehen, sind multimodal und verstehen und generieren beispielsweise Text, Bilder, Sprache, Video und andere Daten sowie Kombinationen von diesen.

Historisch ist der Begriff Foundation Model aus dem Begriff Large Language Model (LLM – großes Sprachmodell) entstanden. Das Center for Research on Foundation Models (CRFM) des Stanford Institute for Human-Centered Artificial Intelligence (HAI) prägte den Begriff, da aus Sicht der Experten der Begriff LLM zu eng gefasst ist und sich zu stark auf das Verarbeiten, Verstehen und Generieren von menschlicher Sprache und Text bezieht. Auch verschiedene staatliche Institutionen wie das Parlament der EU haben mittlerweile das Foundation Model als eigenständigen Begriff definiert, beispielsweise für KI-Verordnungen wie den AI Act.

Das Entwickeln, Erstellen, Trainieren und Betreiben eines Foundation Model ist ressourcenintensiv und mit großem technischem und finanziellem Aufwand verbunden. Es werden enorme Rechenleistungen und riesige Mengen von Trainingsdaten benötigt. Allerdings lassen sich mit einem Foundation Model auch Entwicklungszeit und -aufwand sparen, da nicht für jeden Anwendungszweck ein neues spezialisiertes Modell entwickelt und trainiert werden muss.

Das Foundation Model wird manchmal auch als ein Beispiel oder ein Entwicklungsschritt hin zu einer Artificial General Intelligence (AGI – Künstliche Allgemeine Intelligenz) betrachtet.

Abgrenzung zum Begriff Large Language Model (LLM)

Foundation Model und Large Language Model sind verwandte Begriffe. In der Vergangenheit wurden die beiden Begriffe oft synonym verwendet. Mittlerweile hat sich ihre Verwendung aber auseinander entwickelt und differenziert, weshalb das Foundation Modell nicht mit dem Large Language Model gleichgesetzt werden sollte.

Ein Large Language Modell ist mit großen Textmengen trainiert und besitzt umfassende Fähigkeiten zum Verarbeiten, Verstehen und Generieren von Text und natürlicher Sprache. Allerdings ist der Anwendungsbereich eines LLM auf Text und natürliche Sprache beschränkt.

Ein Foundation Model hingegen kann neben Text und natürlicher Sprache auch mit verschiedenen anderen Arten von Daten wie Bilder, Video, Audio, Zeitreihendaten und anderen sowie Kombinationen von diesen umgehen. Es besitzt multimodale Fähigkeiten. Das Large Language Model kann als eine Untergruppe des Foundation Model betrachtet werden, das für Aufgaben rund um das Verarbeiten und Generieren von menschlicher Sprache und Text entwickelt wurde.

Viele der aktuellen LLMs wurden mittlerweile durch Anpassungen und durch Training mit anderen Datentypen um multimodale Fähigkeiten erweitert. Der Begriff großes Sprachmodell ist bei diesen erweiterten KI-Modellen eigentlich zu eng gefasst. Sie sind mehr Foundation Model als Large Language Model oder können auch als multimodale Sprachmodelle bezeichnet werden.

Typische Merkmale und Eigenschaften des Foundation Model

Ein Foundation Model ist durch mehrere typische Merkmale und Eigenschaften gekennzeichnet. Es ist mit domänenübergreifenden Daten trainiert und dadurch domänenunspezifisch einsetzbar. Durch Anpassung oder Feinabstimmung lässt es sich flexibel für spezifische Aufgaben und Anwendungen nutzen. Das Training ist in der Regel selbstüberwacht und benötigt keine manuell gekennzeichneten oder durch Menschen speziell aufbereitete Trainingsdaten. Im Training erworbenes Wissen kann auf andere Anwendungsfälle übertragen werden (Transfer Learning). Eine weitere grundlegende Eigenschaft eines Foundation Model ist die Multimodalität. Sie besagt, dass das Modell mit verschiedenen Datenarten wie Text, Bild und Audio umgehen und diese auch kombinieren kann.

Technologisch basiert ein Foundation Model auf einem Deep-Learning-fähigen künstlichen neuronalen Netzwerk. Aktuell dominiert die sogenannte Transformer-Architektur die für Grundlagenmodelle verwendete Deep-Learning-Architektur. Im Textbereich arbeiten die Modelle mit Token-basierten Repräsentation und Vorhersagen, im Bildbereich kommen häufig Diffusionsmodelle zum Einsatz. Die Größe der Modelle umfasst meist viele (hundert) Milliarden Parameter. Für das Training und die Inferenz solcher großer Modelle sind hochleistungsfähige, in großem Umfang skalierbare Rechen-Cluster mit spezialisierter KI-GPU-Hardware notwendig.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Anwendungsbereiche und Anwendungsbeispiele für das Foundation Model

Aufgrund der universellen Einsetzbarkeit eines Foundation Model sind den möglichen Anwendungsbereichen kaum Grenzen gesetzt. Beispiele für Anwendungen und Anwendungsbereiche sind:

  • Robotik
  • Wissenschaft
  • Marketing
  • Kundenservice
  • Gesundheitswesen
  • autonomes Fahren
  • Generieren von Texten, Bildern, Audio und Video
  • Übersetzungen (auch multimodaler Inhalte)
  • Erstellen von Produktbeschreibungen
  • Chatbots
  • Programmieren von Anwendungen
  • Computer Vision (maschinelles Sehen und Objekterkennung)
  • Entscheidungsunterstützungssysteme
  • und vieles mehr

Beispiele für Foundation Models

Bei ersten Foundation Models handelte es sich in der Regel um große Sprach- oder Bildmodelle mit universellen Fähigkeiten in ihren jeweiligen Bereichen. Viele dieser Modelle wurden um multimodale Fähigkeiten erweitert, weshalb sie nicht mehr nur im Bereich von Bild, Text und menschlicher Sprache einsetzbar sind. Beispiele für KI- oder Sprachmodelle, die auch als Grundlagenmodelle bezeichnet werden, sind die Modelle der GPT-Familie von OpenAI wie GPT-3 oder GPT-4, BERT von Google, LLaMA von Meta, SeamlessM4T von Meta, DALL-E von OpenAI, Flamingo von DeepMind, Amazon Titan FMs, Modelle der Claude-Familie von Anthropic, Gemini von Google und andere.

(ID:50284914)