Definition Was ist I-JEPA?
Anbieter zum Thema
I-JEPA ist ein von Meta mitentwickeltes KI-Modell aus dem Bereich des maschinellen Sehens. Es arbeitet bei der Bilderkennung nicht wie bisherige Modelle mit Analysen auf Pixelebene, sondern mit abstrakten Repräsentationen von Objekten. Die Lernvorgänge des Modells sind dem menschlichen Lernen ähnlicher. I-JEPA kann Details nicht sichtbarer Bildteile vorhersagen. Das Modell soll ein erster Schritt zu einer allgemeinen Künstlichen Intelligenz mit Common Sense sein.

I-JEPA ist das Akronym für Image Joint Embedding Predictive Architecture. Es handelt sich um ein Mitte 2023 veröffentlichtes KI-Modell aus dem Bereich des maschinellen Sehens (Computer Vision). Entwickelt wurde es von Meta und KI-Forschern der McGill University, der New York University und dem Mila – Quebec AI Institute. Details zum KI-Modell sind im Paper mit dem Titel „Self-supervised learning from images with a joint-embedding predictive architecture“ veröffentlicht. Einer der beteiligten Autoren und Forscher ist Yann LeCun, Chief AI Scientist von Meta.
Im Vergleich zu herkömmlichen KI-Modellen sollen die Lernvorgänge von I-JEPA dem menschlichen Lernen ähnlicher sein. Die Image Joint Embedding Predictive Architecture arbeitet nicht mit Analysen auf Pixelebene, sondern mit abstrakten Repräsentationen von Objekten. Das Modell erkennt Objekte auf Bildern und kann Details nicht sichtbarer Bildteile vorhersagen. In Computer-Vision-Benchmarks hat sich I-JEPA als sehr effizient und leistungsstark erwiesen.
Geht es nach den Entwicklern, könnte I-JEPA ein erster Schritt zu einer Künstlichen Intelligenz mit Common Sense („gesundem Menschenverstand“) sein, indem das Modell ein allgemeines Modell der Welt erlernt. Dafür soll die KI-Architektur auch auf andere Bereiche wie Bild-Text-Paare, Audiodaten und Videodaten angewandt werden. Der Code von I-JEPA ist auf GitHub veröffentlicht und frei zugänglich.
Motivation für die Entwicklung von I-JEPA
KI-Modelle haben in den vergangenen Jahren enorme Fortschritte erzielt. Vor allem generative Modelle aus dem Text- und Bildbereich wie die GPT-Modelle oder Midjourney, DALL-E und Stable Diffusion und andere zeigen inzwischen erstaunliche Fähigkeiten beim Generieren von Bildern und Texten. Die Modelle lernen und arbeiten auf Basis von Analysen auf Pixel- und Tokenebene und mit Vorhersagen von Wahrscheinlichkeiten zum Beispiel für Wortfolgen.
Ein tatsächliches Verständnis für die Welt und ihre Objekte, Beziehungen und Eigenschaften entwickeln die generativen KI-Modelle allerdings nicht. Hier wird gerne das Beispiel der menschlichen Hand bei generativen Text-zu-Bildmodellen angeführt. Oft haben die von einer Bild-KI erzeugten Hände zu wenige oder zu viele Finger. Das liegt daran, dass das Modell das Konzept der menschlichen Hand nicht wirklich kennt und verstanden hat. Es weiß nicht, dass es einen Daumen und vier Finger an der rechten und an der linken menschlichen Hand gibt, sondern lernt einfach nur aus den Trainingsbildern und auf Pixelebene, wie eine Hand mit hoher Wahrscheinlichkeit auszusehen hat. Erst wenn die KI eine Hand als Objekt abstrahiert und das Konzept und Modell der Hand wirklich verstanden hat, kann es Hände in verschiedenen Stellungen und unterschiedlichen Bildszenen immer korrekt darstellen.
An dieser Stelle setzen die KI-Forscher mit I-JEPA an. Sie möchten die Grenzen herkömmlicher KI-Modelle überwinden, indem sie KI-Systeme entwickeln, die auf Basis der ihnen bereitgestellten Trainingsdaten selbstständig Objekte abstrahieren und Modelle erlernen, entwickeln und anpassen. Eines der erklärten Ziele der Entwickler ist es, den I-JEPA-Ansatz auf andere Bereiche auszudehnen. Durch die Anwendung des Konzepts auf Bild-Text-Paare, Audiodaten und Videodaten und hierarchisches Stapeln von I-JEPA könnte eine KI mit einem umfassenden Weltmodell entstehen. Diese Künstliche Intelligenz soll eine Art allgemeines Modell der Welt erlernen und anwenden können.
Prinzipielle Funktionsweise und Komponenten von I-JEPA
I-JEPA arbeitet nicht wie herkömmliche generative Modelle mit Analysen und Vorhersagen im Pixel- oder Tokenraum. Die grundsätzliche Aufgabe von I-JEPA ist es, fehlende Teile eines Bildes zu ergänzen beziehungsweise vorherzusagen, indem es zuvor abstrahiertes Hintergrundwissen anwendet. Hierzu verwendet I-JEPA abstrakte Vorhersageziele und eliminiert dadurch unnötige Details auf Pixelebene. Diese Konzentration auf abstrahierte Objekte und das Wesentliche eines Bildes ist der menschlichen Bildverarbeitung ähnlicher.
Die Image Joint Embedding Predictive Architecture wird auf die Vorhersage von Details nicht sichtbarer Bildteile trainiert. Größere Blöcke in Trainingsbildern werden maskiert. Die Inhalte der maskierten Bereiche soll I-JEPA auf der Ebene abstrakter Repräsentationen lernen vorherzusagen.
Im Wesentlichen besteht die Image Joint Embedding Predictive Architecture aus den drei Funktionsblöcken Kontext-Encoder, Target-Encoder und Predictor. Das genaue Zusammenwirken der drei Funktionsblöcke ist in der Veröffentlichung „Self-supervised learning from images with a joint-embedding predictive architecture“ beschrieben.
Vorteile und Benchmarkergebnisse von I-JEPA
In verschiedenen Aufgaben von Computer-Vision-Benchmarks hat I-JEPA besser abgeschnitten als herkömmliche Modelle. Trotz besserer Ergebnisse benötigt I-JEPA deutlich weniger Training. Nach Angaben der Entwickler verbrauchte das Modell bei gleicher Datenmenge und besseren Ergebnissen nur einen Bruchteil an GPU-Stunden. I-JEPA konvergiert in wenigen Iterationen und skaliert in großem Umfang. Anstatt sich auf irrelevante Details zu konzentrieren, erfasst I-JEPA übergeordnete Konzepte.
(ID:49754924)