I-JEPA ist ein von Meta mitentwickeltes KI-Modell aus dem Bereich des maschinellen Sehens. Es arbeitet bei der Bilderkennung nicht wie bisherige Modelle mit Analysen auf Pixelebene, sondern mit abstrakten Repräsentationen von Objekten. Die Lernvorgänge des Modells sind dem menschlichen Lernen ähnlicher. I-JEPA kann Details nicht sichtbarer Bildteile vorhersagen. Das Modell soll ein erster Schritt zu einer allgemeinen Künstlichen Intelligenz mit Common Sense sein.
I-JEPA ist das Akronym für Image Joint Embedding Predictive Architecture. Es handelt sich um ein Mitte 2023 veröffentlichtes KI-Modell aus dem Bereich des maschinellen Sehens (Computer Vision). Entwickelt wurde es von Meta und KI-Forschern der McGill University, der New York University und dem Mila – Quebec AI Institute. Details zum KI-Modell sind im Paper mit dem Titel „Self-supervised learning from images with a joint-embedding predictive architecture“ veröffentlicht. Einer der beteiligten Autoren und Forscher ist Yann LeCun, Chief AI Scientist von Meta.
Im Vergleich zu herkömmlichen KI-Modellen sollen die Lernvorgänge von I-JEPA dem menschlichen Lernen ähnlicher sein. Die Image Joint Embedding Predictive Architecture arbeitet nicht mit Analysen auf Pixelebene, sondern mit abstrakten Repräsentationen von Objekten. Das Modell erkennt Objekte auf Bildern und kann Details nicht sichtbarer Bildteile vorhersagen. In Computer-Vision-Benchmarks hat sich I-JEPA als sehr effizient und leistungsstark erwiesen.
Geht es nach den Entwicklern, könnte I-JEPA ein erster Schritt zu einer Künstlichen Intelligenz mit Common Sense („gesundem Menschenverstand“) sein, indem das Modell ein allgemeines Modell der Welt erlernt. Dafür soll die KI-Architektur auch auf andere Bereiche wie Bild-Text-Paare, Audiodaten und Videodaten angewandt werden. Der Code von I-JEPA ist auf GitHub veröffentlicht und frei zugänglich.
Motivation für die Entwicklung von I-JEPA
KI-Modelle haben in den vergangenen Jahren enorme Fortschritte erzielt. Vor allem generative Modelle aus dem Text- und Bildbereich wie die GPT-Modelle oder Midjourney, DALL-E und Stable Diffusion und andere zeigen inzwischen erstaunliche Fähigkeiten beim Generieren von Bildern und Texten. Die Modelle lernen und arbeiten auf Basis von Analysen auf Pixel- und Tokenebene und mit Vorhersagen von Wahrscheinlichkeiten zum Beispiel für Wortfolgen.
Ein tatsächliches Verständnis für die Welt und ihre Objekte, Beziehungen und Eigenschaften entwickeln die generativen KI-Modelle allerdings nicht. Hier wird gerne das Beispiel der menschlichen Hand bei generativen Text-zu-Bildmodellen angeführt. Oft haben die von einer Bild-KI erzeugten Hände zu wenige oder zu viele Finger. Das liegt daran, dass das Modell das Konzept der menschlichen Hand nicht wirklich kennt und verstanden hat. Es weiß nicht, dass es einen Daumen und vier Finger an der rechten und an der linken menschlichen Hand gibt, sondern lernt einfach nur aus den Trainingsbildern und auf Pixelebene, wie eine Hand mit hoher Wahrscheinlichkeit auszusehen hat. Erst wenn die KI eine Hand als Objekt abstrahiert und das Konzept und Modell der Hand wirklich verstanden hat, kann es Hände in verschiedenen Stellungen und unterschiedlichen Bildszenen immer korrekt darstellen.
An dieser Stelle setzen die KI-Forscher mit I-JEPA an. Sie möchten die Grenzen herkömmlicher KI-Modelle überwinden, indem sie KI-Systeme entwickeln, die auf Basis der ihnen bereitgestellten Trainingsdaten selbstständig Objekte abstrahieren und Modelle erlernen, entwickeln und anpassen. Eines der erklärten Ziele der Entwickler ist es, den I-JEPA-Ansatz auf andere Bereiche auszudehnen. Durch die Anwendung des Konzepts auf Bild-Text-Paare, Audiodaten und Videodaten und hierarchisches Stapeln von I-JEPA könnte eine KI mit einem umfassenden Weltmodell entstehen. Diese Künstliche Intelligenz soll eine Art allgemeines Modell der Welt erlernen und anwenden können.
Prinzipielle Funktionsweise und Komponenten von I-JEPA
I-JEPA arbeitet nicht wie herkömmliche generative Modelle mit Analysen und Vorhersagen im Pixel- oder Tokenraum. Die grundsätzliche Aufgabe von I-JEPA ist es, fehlende Teile eines Bildes zu ergänzen beziehungsweise vorherzusagen, indem es zuvor abstrahiertes Hintergrundwissen anwendet. Hierzu verwendet I-JEPA abstrakte Vorhersageziele und eliminiert dadurch unnötige Details auf Pixelebene. Diese Konzentration auf abstrahierte Objekte und das Wesentliche eines Bildes ist der menschlichen Bildverarbeitung ähnlicher.
Die Image Joint Embedding Predictive Architecture wird auf die Vorhersage von Details nicht sichtbarer Bildteile trainiert. Größere Blöcke in Trainingsbildern werden maskiert. Die Inhalte der maskierten Bereiche soll I-JEPA auf der Ebene abstrakter Repräsentationen lernen vorherzusagen.
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Vorteile und Benchmarkergebnisse von I-JEPA
In verschiedenen Aufgaben von Computer-Vision-Benchmarks hat I-JEPA besser abgeschnitten als herkömmliche Modelle. Trotz besserer Ergebnisse benötigt I-JEPA deutlich weniger Training. Nach Angaben der Entwickler verbrauchte das Modell bei gleicher Datenmenge und besseren Ergebnissen nur einen Bruchteil an GPU-Stunden. I-JEPA konvergiert in wenigen Iterationen und skaliert in großem Umfang. Anstatt sich auf irrelevante Details zu konzentrieren, erfasst I-JEPA übergeordnete Konzepte.