Das Large Action Model (LAM) ist eine nächste Stufe in der KI-Entwicklung. Es basiert auf großen Sprachmodellen, die mit der Fähigkeit ausgestattet sind, Anweisungen in Aktionen umzusetzen und diese auszuführen. LAMs interagieren mit Anwendungen oder Systemen, indem sie lernen, GUIs zu bedienen, Eingaben zu tätigen und Output zu verstehen.
Der Begriff Large Action Model, abgekürzt LAM, ist noch ein rechter junger Begriff aus dem Bereich der Künstlichen Intelligenz. Er wurde unter anderem vom Unternehmen Rabbit Inc. geprägt. Angelehnt ist er an den Begriff des Large Language Model, abgekürzt LLM. Bei einem Large Action Model handelt es sich um ein KI-Modell, das menschliche Interaktionen und natürlichsprachige Anweisungen eines Anwenders versteht und sie in echte Aktionen auf Systemen oder in Anwendungen umsetzt. Es lernt, Software oder Systeme über Benutzeroberflächen zu bedienen und deren Ausgaben entgegenzunehmen und zu interpretieren.
LAMs lassen sich einsetzen, um Prozesse zu automatisieren und intelligent mit der Umwelt zu interagieren. Beispielsweise bucht ein LAM nach Vorgabe eines Anwenders eine Reise oder bestellt ein Produkt. Damit verbindet das LAM die sprachlichen Fähigkeiten eines großen Sprachmodells mit der Fähigkeit zur autonomen Ausführung von Aktionen.
Das LAM stellt eine nächste Stufe in der KI-Entwicklung dar und schafft einen Übergang von generativer zu exekutiver Künstlicher Intelligenz. LAMs können auch als eine weitere Entwicklungsstufe hin zu einer Künstlichen Allgemeinen Intelligenz (Artificial General Intelligence – AGI) betrachtet werden.
Merkmale und Eigenschaften eines LAM
Ein Large Action Model ist durch folgende typische Eigenschaften und Merkmale gekennzeichnet:
es versteht komplexe natürlichsprachige Anweisungen
es kann aus den Anweisungen Aktionen in digitalen oder physischen Umgebungen ableiten, sie ausführen und in Echtzeit darauf reagieren
es interagiert über Schnittstellen intelligent mit seiner Umwelt und versteht den Kontext einer Situation
es lernt selbstständig Systeme, Anwendungen und Benutzeroberflächen zu bedienen, Eingaben zu tätigen und Ausgaben zu verarbeiten
es ist mit einer Vielzahl verschiedener Daten trainierbar
Abgrenzung zum Large Language Model
Sowohl Large Language Models als auch Large Action Models sind KI-Modelle. Das LAM basiert im Kern auf einem Large Language Model und kann als eine Weiterentwicklung dessen betrachtet werden. Allerdings sind LAMs und LLMs für verschiedene Zwecke und Anwendungen vorgesehen und unterscheiden sich in einigen ihrer grundlegenden Fähigkeiten. LLMs sind darauf spezialisiert, menschliche Sprache und Text zu verstehen und zu generieren. Sie sind mit Textdaten trainiert und im Text- und Sprachbereich für eine Vielzahl verschiedener Aufgaben einsetzbar. Die Interaktion mit einem LLM findet per Text beziehungsweise Sprache statt. LLMs übersetzen beispielsweise Texte, beantworten Fragen, erstellen Zusammenfassungen oder generieren Texte auf Anweisung. LAMs hingegen gehen einen Schritt weiter. Sie sind auf Anweisung eines Anwenders zur Interaktion mit der digitalen oder physischen Umwelt fähig.
Funktionsweise eines Large Action Model
Der Begriff LAM ist teils vom Marketing geprägt und nicht unbedingt auf die technische Sicht eines KI-Modells ausgerichtet. Was die prinzipielle Funktionsweise eines Large Action Model angeht, gibt es keine scharfe Abgrenzung zu einem Large Language Model mit KI-Agenten. Denn die Idee, große Sprachmodelle mit exekutiven Eigenschaften auszustatten, ist grundsätzlich nicht neu. Allerdings steht der Begriff des LAM für eine mehr ganzheitliche Betrachtungsweise eines aktionsfähigen KI-Modells. Die Funktionskomponenten eines LAM lassen sich folgendermaßen beschreiben:
Die Grundlage eines LAM bildet ein großes Sprachmodell, das natürlichsprachige Anweisungen versteht und daraus die Absichten eines Anwenders ableiten kann. Darüber hinaus kann das LAM aber nicht nur mit textbasierten, sondern auch mit multimodalen Daten umgehen. Es versteht beispielsweise Benutzeroberflächen inklusive grafischer Komponenten wie Menüleisten oder Bedientasten und lässt sich für die Bedienung dieser Oberflächen und die Interaktion mit externen Systemen mit GUI-Interaktionsdaten trainieren. Es lernt im Training die Ausführung von Aktionen und optimiert die Bedienung und Interaktion.
Für die Interaktion mit externen Systemen können unterschiedliche Arten von Schnittstellen oder Agenten zum Einsatz kommen. Damit ein LAM die beschriebenen Fähigkeiten erhält, ist das zugrundeliegende große Sprachmodell architektonisch gesehen mit weiteren Funktionsebenen und symbolischen Netzwerkfunktionen erweitert beziehungsweise kombiniert. Das symbolische Netzwerk übernimmt bestimmte Aufgaben der Interpretation und Ausführung von Aktionen. Es arbeitet nicht wie das LLM rein mit Wahrscheinlichkeiten, sondern nutzt darüber hinaus Regeln und andere logische Operationen. Durch die Nutzung zusätzlicher Funktionsebenen und komplexer KI-Algorithmen wird aus dem textbasierten LLM und der reaktiven Interaktion eine Art von kognitiver Interaktion.
Anwendungsmöglichkeiten eines Large Action Model
Hauptzweck des Large Action Model ist die Automation von Aufgaben. Ein LAM soll auf Anweisung eines Anwenders Aufgaben selbstständig und mit möglichst wenig menschlichem Eingriff automatisiert ausführen. Aufgrund der Vielzahl möglicher Schnittstellen und Agenten für die Interaktion mit externen physischen, virtuellen oder digitalen Systemen sind die Anwendungsmöglichkeiten vielfältig. Typische Anwendungsmöglichkeiten sind:
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
intelligente, persönliche Assistenten
Kundenservice und Kundendienst
Robotik
Automatisierung von Workflows
Optimierung von Produktionsprozessen
Anwendungen im Gesundheitswesen beispielsweise zur Automatisierung von Diagnostik und Prozessen
Beratung, Risikomanagement und Betrugserkennung im Finanzbereich
personalisiertes Marketing
autonomes Fahren und Fahrzeugsicherheitssysteme
Beispiele für Large Action Models
Auch wenn der Begriff des Large Action Model noch jung ist, gibt es bereits einige Beispiele für diese Art von KI-Modellen. Eines, das den Begriff LAM mit geprägt hat, ist das LAM-Produkt Rabbit R1. Es handelt sich um ein eigenständiges Gerät in Smartphonegröße mit Touchscreen, Bedienrad, Kamera und Sprachschnittstelle, das menschliche Aktionen mit Webservices über Schnittstellen erkennt und nachahmt. Rabbit R1 bedient über Sprachbefehle Benutzeroberflächen und führt über diese GUIs Aufgaben selbstständig aus.
Auch die Telekom-Konzeptstudie des KI-Phones kann als ein Beispiel für ein angewandtes LAM verstanden werden. Es handelt sich um ein Smartphone, das dank LAM-fähigem digitalem KI-Assistenten weitgehend ohne Apps auskommen soll. Weitere Beispiele aus dem Umfeld von aktionsfähigen LAM-Modellen sind die xLAM-Modellfamilie von Salesforce oder das visuelle Sprachmodell für GUI-Agenten CogAgent.