Ein Foundation Model ist ein großes, mit riesigen Datenmengen trainiertes KI-Basismodell. Es ist universell einsetzbar und eignet sich durch entsprechende Anpassung und Feinabstimmung für verschiedene spezialisierte Aufgaben. Technisch basieren Grundlagenmodelle auf Deep-Learning-fähigen neuronalen Netzwerken.
Alternative deutsche Begriffe für Foundation Model, abgekürzt FM, sind Grundlagenmodell oder Basismodell. Bei einem Foundation Model handelt es sich um ein großes KI-Basismodell, das mit riesigen Datenmengen trainiert wurde und universell einsetzbar ist. Ein Foundation Model besitzt ein breites Spektrum an Fähigkeiten und ist durch entsprechende Anpassung und Feinabstimmung für zahlreiche verschiedene Aufgaben und Anwendungsfälle einsetzbar. Die Modelle können mit verschiedenen Arten von Daten umgehen, sind multimodal und verstehen und generieren beispielsweise Text, Bilder, Sprache, Video und andere Daten sowie Kombinationen von diesen.
Historisch ist der Begriff Foundation Model aus dem Begriff Large Language Model (LLM – großes Sprachmodell) entstanden. Das Center for Research on Foundation Models (CRFM) des Stanford Institute for Human-Centered Artificial Intelligence (HAI) prägte den Begriff, da aus Sicht der Experten der Begriff LLM zu eng gefasst ist und sich zu stark auf das Verarbeiten, Verstehen und Generieren von menschlicher Sprache und Text bezieht. Auch verschiedene staatliche Institutionen wie das Parlament der EU haben mittlerweile das Foundation Model als eigenständigen Begriff definiert, beispielsweise für KI-Verordnungen wie den AI Act.
Das Entwickeln, Erstellen, Trainieren und Betreiben eines Foundation Model ist ressourcenintensiv und mit großem technischem und finanziellem Aufwand verbunden. Es werden enorme Rechenleistungen und riesige Mengen von Trainingsdaten benötigt. Allerdings lassen sich mit einem Foundation Model auch Entwicklungszeit und -aufwand sparen, da nicht für jeden Anwendungszweck ein neues spezialisiertes Modell entwickelt und trainiert werden muss.
Das Foundation Model wird manchmal auch als ein Beispiel oder ein Entwicklungsschritt hin zu einer Artificial General Intelligence (AGI – Künstliche Allgemeine Intelligenz) betrachtet.
Abgrenzung zum Begriff Large Language Model (LLM)
Foundation Model und Large Language Model sind verwandte Begriffe. In der Vergangenheit wurden die beiden Begriffe oft synonym verwendet. Mittlerweile hat sich ihre Verwendung aber auseinander entwickelt und differenziert, weshalb das Foundation Modell nicht mit dem Large Language Model gleichgesetzt werden sollte.
Ein Large Language Modell ist mit großen Textmengen trainiert und besitzt umfassende Fähigkeiten zum Verarbeiten, Verstehen und Generieren von Text und natürlicher Sprache. Allerdings ist der Anwendungsbereich eines LLM auf Text und natürliche Sprache beschränkt.
Ein Foundation Model hingegen kann neben Text und natürlicher Sprache auch mit verschiedenen anderen Arten von Daten wie Bilder, Video, Audio, Zeitreihendaten und anderen sowie Kombinationen von diesen umgehen. Es besitzt multimodale Fähigkeiten. Das Large Language Model kann als eine Untergruppe des Foundation Model betrachtet werden, das für Aufgaben rund um das Verarbeiten und Generieren von menschlicher Sprache und Text entwickelt wurde.
Viele der aktuellen LLMs wurden mittlerweile durch Anpassungen und durch Training mit anderen Datentypen um multimodale Fähigkeiten erweitert. Der Begriff großes Sprachmodell ist bei diesen erweiterten KI-Modellen eigentlich zu eng gefasst. Sie sind mehr Foundation Model als Large Language Model oder können auch als multimodale Sprachmodelle bezeichnet werden.
Typische Merkmale und Eigenschaften des Foundation Model
Ein Foundation Model ist durch mehrere typische Merkmale und Eigenschaften gekennzeichnet. Es ist mit domänenübergreifenden Daten trainiert und dadurch domänenunspezifisch einsetzbar. Durch Anpassung oder Feinabstimmung lässt es sich flexibel für spezifische Aufgaben und Anwendungen nutzen. Das Training ist in der Regel selbstüberwacht und benötigt keine manuell gekennzeichneten oder durch Menschen speziell aufbereitete Trainingsdaten. Im Training erworbenes Wissen kann auf andere Anwendungsfälle übertragen werden (Transfer Learning). Eine weitere grundlegende Eigenschaft eines Foundation Model ist die Multimodalität. Sie besagt, dass das Modell mit verschiedenen Datenarten wie Text, Bild und Audio umgehen und diese auch kombinieren kann.
Technologisch basiert ein Foundation Model auf einem Deep-Learning-fähigen künstlichen neuronalen Netzwerk. Aktuell dominiert die sogenannte Transformer-Architektur die für Grundlagenmodelle verwendete Deep-Learning-Architektur. Im Textbereich arbeiten die Modelle mit Token-basierten Repräsentation und Vorhersagen, im Bildbereich kommen häufig Diffusionsmodelle zum Einsatz. Die Größe der Modelle umfasst meist viele (hundert) Milliarden Parameter. Für das Training und die Inferenz solcher großer Modelle sind hochleistungsfähige, in großem Umfang skalierbare Rechen-Cluster mit spezialisierter KI-GPU-Hardware notwendig.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Anwendungsbereiche und Anwendungsbeispiele für das Foundation Model
Aufgrund der universellen Einsetzbarkeit eines Foundation Model sind den möglichen Anwendungsbereichen kaum Grenzen gesetzt. Beispiele für Anwendungen und Anwendungsbereiche sind:
Robotik
Wissenschaft
Marketing
Kundenservice
Gesundheitswesen
autonomes Fahren
Generieren von Texten, Bildern, Audio und Video
Übersetzungen (auch multimodaler Inhalte)
Erstellen von Produktbeschreibungen
Chatbots
Programmieren von Anwendungen
Computer Vision (maschinelles Sehen und Objekterkennung)
Entscheidungsunterstützungssysteme
und vieles mehr
Beispiele für Foundation Models
Bei ersten Foundation Models handelte es sich in der Regel um große Sprach- oder Bildmodelle mit universellen Fähigkeiten in ihren jeweiligen Bereichen. Viele dieser Modelle wurden um multimodale Fähigkeiten erweitert, weshalb sie nicht mehr nur im Bereich von Bild, Text und menschlicher Sprache einsetzbar sind. Beispiele für KI- oder Sprachmodelle, die auch als Grundlagenmodelle bezeichnet werden, sind die Modelle der GPT-Familie von OpenAI wie GPT-3 oder GPT-4, BERT von Google, LLaMA von Meta, SeamlessM4T von Meta, DALL-E von OpenAI, Flamingo von DeepMind, Amazon Titan FMs, Modelle der Claude-Familie von Anthropic, Gemini von Google und andere.