Kommentar von Sanjay Sarathy, Cloudinary Multimodale LLMs für visuelle Inhalte nutzen

Von Sanjay Sarathy 4 min Lesedauer

Anbieter zum Thema

Large Language Models (LLMs) bewähren sich häufig als Schreib- und Programmierwerkzeuge. Im Gegensatz zur Arbeit mit Text werden für visuelle Inhalte multimodale LLMs benötigt, die nicht nur mit Textdateien, sondern auch mit anderen Quellen wie Bildern, Videos oder Audiodateien trainiert wurden.

Der Autor: Sanjay Sarathy ist VP of Developer Experience und Self Service bei Cloudinary(Bild:  Hands ON 2017)
Der Autor: Sanjay Sarathy ist VP of Developer Experience und Self Service bei Cloudinary
(Bild: Hands ON 2017)

Durch die Erweiterung und Integration eines breiteren Spektrums von Datenquellen ist die generative KI in der Lage, genau zu analysieren und zu „verstehen“, wie wir Menschen die Welt erleben: durch unsere Sinne. Oder, wie es die Microsoft-Forscher in ihrer Einführung zum multimodalen LLM Kosmos-1 beschreiben: „Das Ziel ist es, die Wahrnehmung mit LLMs in Einklang zu bringen, sodass die Modelle sehen und sprechen können.“

Wenn multimodale LLMs mit großen und vielfältigen Datensätzen trainiert werden, verbessern sie ihre Fähigkeit, Nuancen und Kontext wahrzunehmen. Eine Phase des multimodalen LLM-Trainings konzentriert sich beispielsweise auf die Beschreibung von Bildern und insbesondere der Beziehungen zwischen Objekten in natürlicher Sprache. In einer weiteren Phase wird das Modell so verfeinert, dass es menschlichen Anweisungen zur Transformation oder Korrektur eines Bildes genau folgt.

Anwendungsbeispiel Generierung von Bildbeschreibungen

Zum Beispiel kann ein multimodales LLM verwendet werden, um den Inhalt eines Bildes zu erkennen und eine Beschreibung zu generieren. Anstelle von unzusammenhängenden Tags wie „Katze“, „Stuhl“, „Pflanze“ und „Raum“ gibt es eine zusammenhängende Beschreibung wie „Im Raum sitzt eine große weiße Katze auf einem Stuhl neben einer Pflanze“. Dieses Anwendungsszenario nutzen wir etwa für unsere Lösung. Die Bildbeschreibung wird während des Uploads generiert und als Metadaten des Bildes gespeichert und kann so später von Screenreadern oder Suchmaschinen abgerufen werden. Auch andere Unternehmen wie asticaVision, Pallyy oder CaptionIt bieten solche KI-basierten Bildbeschreibungs-Tools an.

Die Optimierung von Bildern zur Verbesserung der Sichtbarkeit in Suchmaschinen und der Barrierefreiheit ist ein guter Anwendungsfall für multimodale LLM. Sie trägt dazu bei, die Produktivität der Entwickler zu verbessern, im Gegensatz zum manuellen Hinzufügen von Bildbeschreibungen oder Alt-Tags, was zeitaufwendig und fehleranfällig ist.

Es ist nicht alles Gold, was glänzt

Viele kennen KI-generierte Bilder und haben bereits mit KI-Bildgeneratoren wie Dall-E und Midjourney gearbeitet. Gerade für ein solches Anwendungsszenario ist menschliche Kontrolle unerlässlich. Es gibt unzählige Beispiele, in denen LLMs Bilder erzeugt haben, die beleidigend, verzerrt, unnatürlich oder aus dem Zusammenhang gerissen waren. Tatsächlich besteht eine der größten Herausforderungen bei der Arbeit mit Maschinen darin, das Konzept, das der Benutzer im Kopf hat, in etwas zu „übersetzen“, das die Maschine verstehen kann.

Multimodale LLMs haben diesen Prozess zwar verbessert (Clip von OpenAI ist beispielsweise in der Lage, die Korrelationen zwischen dem, was in den Bildern geschieht, und den entsprechenden Textanweisungen zu analysieren und zu lernen), allerdings ist es immer noch ein Glücksspiel, die Modelle dazu zu bringen, das zu tun, was der Benutzer wirklich will.

Anwendungsbeispiel Outpainting

Nehmen wir zum Beispiel Outpainting. Dabei handelt es sich um eine Technik zur Erweiterung von Bildern durch Hinzufügen von Inhalten, die sich nahtlos in das bestehende Bild einfügen, während Stil und Details des Originals erhalten bleiben, sodass ein kohärentes und erweitertes Bild entsteht.

Beim Outpainting ist es wichtig, genaue Anweisungen zu geben und die bearbeitete Bildausgabe zu moderieren, um Bildgenauigkeit und Markenkonsistenz sicherzustellen. Wenn etwa eine Person im Bild ist, könnte das LLM ohne Anweisungen logischerweise entscheiden, eine weitere Person in den erweiterten Hintergrund einzufügen. Ein Mensch muss also genau definieren, was im Bild sein soll und was nicht.

Outpainting ist zwar sehr effizient, da nicht jeder Transformationsschritt für jedes Bild direkt ausgeführt werden muss, erfordert aber aufgrund der oben beschriebenen Probleme eine gewisse Kontrolle. Hier ermöglichen einige Werkzeuge bereits, bestimmte Bilder beim Hochladen als „zu moderieren“ zu kennzeichnen. Moderatoren können diese Bilder dann stapelweise prüfen und die Erweiterungen entsprechend akzeptieren oder ablehnen.

Andere Herausforderungen

Natürlich gibt es weitere Herausforderungen, wenn es um LLMs und visuelle Inhalte geht. Erstens unterstützen die meisten Open Source LLMs noch keine multimodale Eingabe oder Ausgabe, sodass man auf proprietäre Modelle zurückgreifen muss. Zweitens sind viele LLMs noch eingeschränkt, wenn es um andere Sprachen als Englisch geht. Drittens haben die Regulierungsbehörden gerade erst begonnen, sich mit dieser neuen Technologie vertraut zu machen, und die Umsetzung der neuen Gesetze ist noch unklar.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Zweifellos ist die KI-gestützte Bildproduktion der Weg in die Zukunft. Zum jetzigen Zeitpunkt wäre es jedoch riskant, multimodale LLMs zur Generierung visueller Inhalte ohne menschliche Kontrolle einzusetzen. Einfacher ist es, KI zu nutzen, um die Produktivität von Entwicklern bei der Arbeit mit visuellen Inhalten zu verbessern. Die Verwaltung visueller Inhalte umfasst viele mühsame, sich wiederholende Aufgaben wie automatisches Tagging, intelligentes Zuschneiden, Austauschen von Bildhintergründen, Größenänderungen oder Bildtransformationen. Hier lohnt sich der Einsatz von KI.

Artikelfiles und Artikellinks

(ID:49988611)