Definition Was ist Jarvis?

Von Dipl.-Ing. (FH) Stefan Luber Lesedauer: 4 min |

Anbieter zum Thema

Jarvis ist ein KI-Projekt von Microsoft. Es ermöglicht die Nutzung mehrerer verschiedener KI-Modelle für eine bestimmte Aufgabenstellung. Mit Jarvis lassen sich komplexe Aufgabenstellungen an eine Künstliche Intelligenz (KI) lösen, indem die Aufgaben zerlegt, an jeweils geeignete KI-Modelle übergeben und deren Antworten zusammengeführt werden. Jarvis steht unter Open-Source-Lizenz und ist frei verfügbar.

(Bild: © aga7ta - stock.adobe.com)

Jarvis ist ein von Microsoft Research Asia initiiertes KI-Projekt. Der Name Jarvis leitet sich vom persönlichen KI-Assistenten J.A.R.V.I.S. (Just A Rather Very Intelligent System – „nur ein eher sehr intelligentes System“) des Iron Man aus den Marvel-Comics, -Serien und -Filmen ab. Jarvis führt verschiedene KI-Modelle zusammen und ist in der Lage, komplexe Aufgabenstellungen an die Künstliche Intelligenz zu lösen. Aufgaben werden in Teilaufgaben zerlegt, an geeignete Modelle übergeben und deren Antworten zusammengeführt.

Mit Jarvis lassen sich sowohl Texte und Bilder als auch Audio- und Videodateien nach Vorgabe generieren. Jarvis ist eng mit dem von drei Franzosen gegründeten US-amerikanischen Unternehmen Hugging Face verknüpft und über die KI-Hosting-Plattform von Hugging Face verfügbar. Durch die Zusammenführung mehrerer Modelle mit Künstlicher Intelligenz stellt Jarvis einen Ansatz und ersten Schritt auf dem Weg zu einer Künstlichen Allgemeinen Intelligenz (Artificial General Intelligence – AGI) dar. Jarvis ist Open Source und unter MIT-Lizenz auf GitHub frei verfügbar. Auch über Hugging Face kann Jarvis genutzt werden. Es wird dort HuggingGPT genannt.

Funktionsweise von Jarvis

Jarvis besteht im Wesentlichen aus zwei Funktionskomponenten: einem großen Sprachmodell (LLM – Large Language Modell) und der Hugging-Face-Plattform. Das LLM agiert als eine Art Controller und zentrale Verwaltungskomponente für die gestellten Aufgaben und generierten Ergebnisse. Es zerlegt Aufgaben in Teilaufgaben, findet geeignete KI-Modelle und führt die einzelnen Antworten der Modelle zu einer Gesamtlösung zusammen. Jarvis verwendet als Controller ChatGPT. Über die Hugging-Face-Plattform erhält Jarvis Zugang zu einer Vielzahl an spezialisierten KI-Modellen.

Der Workflow für die Bearbeitung einer Aufgabenstellung an die Künstliche Intelligenz lässt sich in vier Schritten darstellen:

  • Schritt 1: Analyse und Verstehen der Aufgabe und Zerlegung in lösbare Teilaufgaben
  • Schritt 2: Auswahl der für die jeweiligen Teilaufgaben geeigneten KI-Modelle anhand der Modellbeschreibungen auf Hugging Face
  • Schritt 3: Übergabe der Teilaufgaben an die Modelle und Entgegennahme der Ergebnisse
  • Schritt 4: Generieren und Darstellen einer Gesamtantwort durch intelligentes Zusammenführen der Einzelergebnisse

Von Jarvis abgedeckte Aufgabenbereiche

Jarvis ist multimodal und kann mit einer einzigen Anfrage komplexe Aufgaben erledigen. Es lassen sich Texte, Bilder, Audio- und Videodateien interpretieren und generieren, indem Jarvis auf KI-Modelle beispielsweise zur Text-, Bild-, Video- und Audioerzeugung, Sprachsynthese oder Bildklassifizierung zugreift. Dadurch deckt Jarvis Aufgabenbereiche wie die Objekt- und Bilderkennung, Textklassifizierung, Text-zu-Sprache, Text-zu-Video, Text-zu-Bild, Bild-zu-Text, Fragenbeantwortung, Text-, Bild, Video- und Audioerzeugung, semantische Segmentierung, Bildklassifizierung, Bilduntertitelung und Vieles mehr ab.

Nutzung von Jarvis

Jarvis ist aktuell auf zwei verschiedene Arten nutzbar: lokal installiert auf einem Linux-Rechner oder über Hugging Face.

Der größtenteils in Python geschriebene Code lässt sich von GitHub herunterladen, auf einem lokalen Linux-Rechner installieren und dort ausführen. Als Betriebssystem wird Ubuntu empfohlen. Für den Zugang zu ChatGPT und Hugging Face werden eine Online-Verbindung, OpenAI und Hugging Face Accounts sowie OpenAI API Key und Hugging Face Token benötigt. Bei lokalen Installationen von Jarvis lassen sich auch lokal ausgeführte KI-Modelle einbinden.

Bei der Nutzung von Jarvis (HuggingGPT) auf Hugging Face ist keine lokale Jarvis-Installation notwendig. Benötigt werden ein Account bei OpenAI und Hugging Face, Hugging Face Token und OpenAI API Key. Hugging Face Token und OpenAI API Key müssen auf der HuggingGPT-Seite von Hugging Face eingetragen werden. Anschließend lassen sich direkt online über die Eingabemaske Aufgabenstellungen eingeben und Lösungen entgegennehmen.

Ein Beispiel für eine Aufgabenstellung an Jarvis

Um die Möglichkeiten und Fähigkeiten von Jarvis besser zu verstehen, geben die Entwickler selbst Beispiele, wie von der KI zu lösende Aufgabenstellungen aussehen können. Sie gehen in dem 2023 veröffentlichten Paper zu HuggingGPT mit dem Titel „HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face“ unter anderem auf folgendes Beispiel näher ein:

Der Anwender stellt der KI die Aufgabe, ein Bild zu erzeugen, auf dem ein Mädchen ein Buch liest und eine vergleichbare Körperhaltung einnimmt wie ein Junge mit einem Tretroller auf einem vorgegebenen Bild. Anschließend soll das neu erstellte Bild per Sprachausgabe beschrieben werden. Zur Lösung der Aufgabe übergibt Jarvis das vorgegebene Bild des Jungen an ein KI-Modell, dass das Bild analysieren und die Körperhaltung des Jungen erkennen kann. Anschließend fordert es ein anderes Modell auf, ein Bild mit einem Mädchen in der erkannten Körperhaltung zu generieren. Das generierte Bild wird anschließend von Objekterkennungs-, Bildklassifizierungs- und Image-to-Text-Modellen analysiert. Die in Textform gelieferte Bildbeschreibung wird einem Text-to-Speech-Modell übergeben und von diesem in gesprochenen Text verwandelt. Die Ergebnisse fügt Jarvis zusammen und stellt sie dar.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

(ID:49690029)