Definition Was ist ein Large Action Model (LAM)?

Von Dipl.-Ing. (FH) Stefan Luber 4 min Lesedauer

Anbieter zum Thema

Das Large Action Model (LAM) ist eine nächste Stufe in der KI-Entwicklung. Es basiert auf großen Sprachmodellen, die mit der Fähigkeit ausgestattet sind, Anweisungen in Aktionen umzusetzen und diese auszuführen. LAMs interagieren mit Anwendungen oder Systemen, indem sie lernen, GUIs zu bedienen, Eingaben zu tätigen und Output zu verstehen.

(Bild:  © aga7ta - stock.adobe.com)
(Bild: © aga7ta - stock.adobe.com)

Der Begriff Large Action Model, abgekürzt LAM, ist noch ein rechter junger Begriff aus dem Bereich der Künstlichen Intelligenz. Er wurde unter anderem vom Unternehmen Rabbit Inc. geprägt. Angelehnt ist er an den Begriff des Large Language Model, abgekürzt LLM. Bei einem Large Action Model handelt es sich um ein KI-Modell, das menschliche Interaktionen und natürlichsprachige Anweisungen eines Anwenders versteht und sie in echte Aktionen auf Systemen oder in Anwendungen umsetzt. Es lernt, Software oder Systeme über Benutzeroberflächen zu bedienen und deren Ausgaben entgegenzunehmen und zu interpretieren.

LAMs lassen sich einsetzen, um Prozesse zu automatisieren und intelligent mit der Umwelt zu interagieren. Beispielsweise bucht ein LAM nach Vorgabe eines Anwenders eine Reise oder bestellt ein Produkt. Damit verbindet das LAM die sprachlichen Fähigkeiten eines großen Sprachmodells mit der Fähigkeit zur autonomen Ausführung von Aktionen.

Das LAM stellt eine nächste Stufe in der KI-Entwicklung dar und schafft einen Übergang von generativer zu exekutiver Künstlicher Intelligenz. LAMs können auch als eine weitere Entwicklungsstufe hin zu einer Künstlichen Allgemeinen Intelligenz (Artificial General Intelligence – AGI) betrachtet werden.

Merkmale und Eigenschaften eines LAM

Ein Large Action Model ist durch folgende typische Eigenschaften und Merkmale gekennzeichnet:

  • es versteht komplexe natürlichsprachige Anweisungen
  • es kann aus den Anweisungen Aktionen in digitalen oder physischen Umgebungen ableiten, sie ausführen und in Echtzeit darauf reagieren
  • es interagiert über Schnittstellen intelligent mit seiner Umwelt und versteht den Kontext einer Situation
  • es lernt selbstständig Systeme, Anwendungen und Benutzeroberflächen zu bedienen, Eingaben zu tätigen und Ausgaben zu verarbeiten
  • es ist mit einer Vielzahl verschiedener Daten trainierbar

Abgrenzung zum Large Language Model

Sowohl Large Language Models als auch Large Action Models sind KI-Modelle. Das LAM basiert im Kern auf einem Large Language Model und kann als eine Weiterentwicklung dessen betrachtet werden. Allerdings sind LAMs und LLMs für verschiedene Zwecke und Anwendungen vorgesehen und unterscheiden sich in einigen ihrer grundlegenden Fähigkeiten. LLMs sind darauf spezialisiert, menschliche Sprache und Text zu verstehen und zu generieren. Sie sind mit Textdaten trainiert und im Text- und Sprachbereich für eine Vielzahl verschiedener Aufgaben einsetzbar. Die Interaktion mit einem LLM findet per Text beziehungsweise Sprache statt. LLMs übersetzen beispielsweise Texte, beantworten Fragen, erstellen Zusammenfassungen oder generieren Texte auf Anweisung. LAMs hingegen gehen einen Schritt weiter. Sie sind auf Anweisung eines Anwenders zur Interaktion mit der digitalen oder physischen Umwelt fähig.

Funktionsweise eines Large Action Model

Der Begriff LAM ist teils vom Marketing geprägt und nicht unbedingt auf die technische Sicht eines KI-Modells ausgerichtet. Was die prinzipielle Funktionsweise eines Large Action Model angeht, gibt es keine scharfe Abgrenzung zu einem Large Language Model mit KI-Agenten. Denn die Idee, große Sprachmodelle mit exekutiven Eigenschaften auszustatten, ist grundsätzlich nicht neu. Allerdings steht der Begriff des LAM für eine mehr ganzheitliche Betrachtungsweise eines aktionsfähigen KI-Modells. Die Funktionskomponenten eines LAM lassen sich folgendermaßen beschreiben:

Die Grundlage eines LAM bildet ein großes Sprachmodell, das natürlichsprachige Anweisungen versteht und daraus die Absichten eines Anwenders ableiten kann. Darüber hinaus kann das LAM aber nicht nur mit textbasierten, sondern auch mit multimodalen Daten umgehen. Es versteht beispielsweise Benutzeroberflächen inklusive grafischer Komponenten wie Menüleisten oder Bedientasten und lässt sich für die Bedienung dieser Oberflächen und die Interaktion mit externen Systemen mit GUI-Interaktionsdaten trainieren. Es lernt im Training die Ausführung von Aktionen und optimiert die Bedienung und Interaktion.

Für die Interaktion mit externen Systemen können unterschiedliche Arten von Schnittstellen oder Agenten zum Einsatz kommen. Damit ein LAM die beschriebenen Fähigkeiten erhält, ist das zugrundeliegende große Sprachmodell architektonisch gesehen mit weiteren Funktionsebenen und symbolischen Netzwerkfunktionen erweitert beziehungsweise kombiniert. Das symbolische Netzwerk übernimmt bestimmte Aufgaben der Interpretation und Ausführung von Aktionen. Es arbeitet nicht wie das LLM rein mit Wahrscheinlichkeiten, sondern nutzt darüber hinaus Regeln und andere logische Operationen. Durch die Nutzung zusätzlicher Funktionsebenen und komplexer KI-Algorithmen wird aus dem textbasierten LLM und der reaktiven Interaktion eine Art von kognitiver Interaktion.

Anwendungsmöglichkeiten eines Large Action Model

Hauptzweck des Large Action Model ist die Automation von Aufgaben. Ein LAM soll auf Anweisung eines Anwenders Aufgaben selbstständig und mit möglichst wenig menschlichem Eingriff automatisiert ausführen. Aufgrund der Vielzahl möglicher Schnittstellen und Agenten für die Interaktion mit externen physischen, virtuellen oder digitalen Systemen sind die Anwendungsmöglichkeiten vielfältig. Typische Anwendungsmöglichkeiten sind:

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung
  • intelligente, persönliche Assistenten
  • Kundenservice und Kundendienst
  • Robotik
  • Automatisierung von Workflows
  • Optimierung von Produktionsprozessen
  • Anwendungen im Gesundheitswesen beispielsweise zur Automatisierung von Diagnostik und Prozessen
  • Beratung, Risikomanagement und Betrugserkennung im Finanzbereich
  • personalisiertes Marketing
  • autonomes Fahren und Fahrzeugsicherheitssysteme

Beispiele für Large Action Models

Auch wenn der Begriff des Large Action Model noch jung ist, gibt es bereits einige Beispiele für diese Art von KI-Modellen. Eines, das den Begriff LAM mit geprägt hat, ist das LAM-Produkt Rabbit R1. Es handelt sich um ein eigenständiges Gerät in Smartphonegröße mit Touchscreen, Bedienrad, Kamera und Sprachschnittstelle, das menschliche Aktionen mit Webservices über Schnittstellen erkennt und nachahmt. Rabbit R1 bedient über Sprachbefehle Benutzeroberflächen und führt über diese GUIs Aufgaben selbstständig aus.

Auch die Telekom-Konzeptstudie des KI-Phones kann als ein Beispiel für ein angewandtes LAM verstanden werden. Es handelt sich um ein Smartphone, das dank LAM-fähigem digitalem KI-Assistenten weitgehend ohne Apps auskommen soll. Weitere Beispiele aus dem Umfeld von aktionsfähigen LAM-Modellen sind die xLAM-Modellfamilie von Salesforce oder das visuelle Sprachmodell für GUI-Agenten CogAgent.

(ID:50289918)