KI-Forschung Fei-Fei Li: „Spatial Intelligence“ als nächste KI-Grenze

Von Berk Kutsal 2 min Lesedauer

Anbieter zum Thema

Die KI-Pionierin Fei-Fei Li fordert einen Paradigmenwechsel: Nach dem Siegeszug der Sprachmodelle müsse Künstliche Intelligenz lernen, in Räumen zu denken und zu handeln. Nur so könne sie die physische Welt wirklich verstehen.

Fei-Fei Li sieht räumliche Intelligenz als nächste Entwicklungsstufe der KI – über Sprachmodelle hinaus hin zu echten Weltmodellen.(Bild:  Stanford University)
Fei-Fei Li sieht räumliche Intelligenz als nächste Entwicklungsstufe der KI – über Sprachmodelle hinaus hin zu echten Weltmodellen.
(Bild: Stanford University)

Die Künstliche Intelligenz (KI) hat sich in den vergangenen Jahren rasant vom Sprachassistenten zum universellen Problemlöser entwickelt. Doch wenn es nach Fei-Fei Li geht, Mitbegründerin und CEO von World Labs und Professorin an der Stanford University, steht der entscheidende Schritt erst bevor. In einem aktuellen Essay mit dem Titel „From Words to Worlds: Spatial Intelligence is AI’s Next Frontier“ beschreibt sie räumliche Intelligenz als die kommende Entwicklungsstufe von KI-Systemen.

Während heutige Large Language Models (LLMs) auf textuelle Muster trainiert sind, fehle ihnen ein tiefes Verständnis für die physische Welt. Li argumentiert, dass Sprache allein nicht ausreiche, um Handlungen, Bewegungen oder physikalische Zusammenhänge zu erfassen. Die Zukunft liege daher in sogenannten „World Models“ – KI-Systemen, die ein mentales Abbild von Räumen, Objekten und Kräften entwickeln und daraus Handlungslogik ableiten.

Der Begriff „Spatial Intelligence“ beschreibt in Lis Verständnis die Fähigkeit, räumliche Beziehungen zu erkennen, Bewegung zu antizipieren und Interaktionen zu verstehen – ähnlich wie Menschen, die intuitiv wissen, wie ein Ball fliegt oder wie viel Platz ein Auto beim Einparken benötigt. KI-Systeme mit solcher Kompetenz könnten nicht nur Sprache verstehen, sondern auch handeln, planen und in dynamischen Umgebungen agieren.

Li verweist auf Einsatzfelder in Robotik, autonomer Mobilität und 3D-Simulationen. Auch für digitale Zwillinge und das industrielle Metaverse spielt räumliche Wahrnehmung eine zentrale Rolle: Nur wer physische Zusammenhänge begreift, kann reale Prozesse digital präzise abbilden. Damit verschiebt sich der Fokus der Forschung von Textverständnis zu Weltverständnis – von semantischer zu physikalischer Semantik.

Technisch ist der Weg dahin jedoch steinig. Bisherige Modelle verarbeiten multimodale Daten, verfügen aber nur eingeschränkt über konsistentes Raumverständnis. Trainingsdaten für echte physische Szenarien sind rar, und die Modellierung physikalischer Gesetzmäßigkeiten stellt enorme Anforderungen an Rechenleistung und Datenqualität.

Dennoch wächst das Interesse. Forschungsgruppen bei Google DeepMind, Meta, OpenAI und Nvidia arbeiten an ersten Implementierungen sogenannter „World Models“. Sie sollen nicht nur sehen und beschreiben, sondern auch denken im Sinne eines kausalen, dreidimensionalen Verständnisses der Welt.

Li schließt ihren Essay mit einem Appell: KI müsse lernen, nicht nur Wörter, sondern die Welt zu begreifen. Erst wenn Maschinen räumlich denken, könnten sie sinnvoll mit Menschen in einer gemeinsamen Realität interagieren – ob im Labor, in der Fabrik oder im Haushalt.

(ID:50625282)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung