Large Language Models (LLMs) bewähren sich häufig als Schreib- und Programmierwerkzeuge. Im Gegensatz zur Arbeit mit Text werden für visuelle Inhalte multimodale LLMs benötigt, die nicht nur mit Textdateien, sondern auch mit anderen Quellen wie Bildern, Videos oder Audiodateien trainiert wurden.
Der Autor: Sanjay Sarathy ist VP of Developer Experience und Self Service bei Cloudinary
(Bild: Hands ON 2017)
Durch die Erweiterung und Integration eines breiteren Spektrums von Datenquellen ist die generative KI in der Lage, genau zu analysieren und zu „verstehen“, wie wir Menschen die Welt erleben: durch unsere Sinne. Oder, wie es die Microsoft-Forscher in ihrer Einführung zum multimodalen LLM Kosmos-1 beschreiben: „Das Ziel ist es, die Wahrnehmung mit LLMs in Einklang zu bringen, sodass die Modelle sehen und sprechen können.“
Wenn multimodale LLMs mit großen und vielfältigen Datensätzen trainiert werden, verbessern sie ihre Fähigkeit, Nuancen und Kontext wahrzunehmen. Eine Phase des multimodalen LLM-Trainings konzentriert sich beispielsweise auf die Beschreibung von Bildern und insbesondere der Beziehungen zwischen Objekten in natürlicher Sprache. In einer weiteren Phase wird das Modell so verfeinert, dass es menschlichen Anweisungen zur Transformation oder Korrektur eines Bildes genau folgt.
Anwendungsbeispiel Generierung von Bildbeschreibungen
Zum Beispiel kann ein multimodales LLM verwendet werden, um den Inhalt eines Bildes zu erkennen und eine Beschreibung zu generieren. Anstelle von unzusammenhängenden Tags wie „Katze“, „Stuhl“, „Pflanze“ und „Raum“ gibt es eine zusammenhängende Beschreibung wie „Im Raum sitzt eine große weiße Katze auf einem Stuhl neben einer Pflanze“. Dieses Anwendungsszenario nutzen wir etwa für unsere Lösung. Die Bildbeschreibung wird während des Uploads generiert und als Metadaten des Bildes gespeichert und kann so später von Screenreadern oder Suchmaschinen abgerufen werden. Auch andere Unternehmen wie asticaVision, Pallyy oder CaptionIt bieten solche KI-basierten Bildbeschreibungs-Tools an.
Die Optimierung von Bildern zur Verbesserung der Sichtbarkeit in Suchmaschinen und der Barrierefreiheit ist ein guter Anwendungsfall für multimodale LLM. Sie trägt dazu bei, die Produktivität der Entwickler zu verbessern, im Gegensatz zum manuellen Hinzufügen von Bildbeschreibungen oder Alt-Tags, was zeitaufwendig und fehleranfällig ist.
Es ist nicht alles Gold, was glänzt
Viele kennen KI-generierte Bilder und haben bereits mit KI-Bildgeneratoren wie Dall-E und Midjourney gearbeitet. Gerade für ein solches Anwendungsszenario ist menschliche Kontrolle unerlässlich. Es gibt unzählige Beispiele, in denen LLMs Bilder erzeugt haben, die beleidigend, verzerrt, unnatürlich oder aus dem Zusammenhang gerissen waren. Tatsächlich besteht eine der größten Herausforderungen bei der Arbeit mit Maschinen darin, das Konzept, das der Benutzer im Kopf hat, in etwas zu „übersetzen“, das die Maschine verstehen kann.
Multimodale LLMs haben diesen Prozess zwar verbessert (Clip von OpenAI ist beispielsweise in der Lage, die Korrelationen zwischen dem, was in den Bildern geschieht, und den entsprechenden Textanweisungen zu analysieren und zu lernen), allerdings ist es immer noch ein Glücksspiel, die Modelle dazu zu bringen, das zu tun, was der Benutzer wirklich will.
Anwendungsbeispiel Outpainting
Nehmen wir zum Beispiel Outpainting. Dabei handelt es sich um eine Technik zur Erweiterung von Bildern durch Hinzufügen von Inhalten, die sich nahtlos in das bestehende Bild einfügen, während Stil und Details des Originals erhalten bleiben, sodass ein kohärentes und erweitertes Bild entsteht.
Beim Outpainting ist es wichtig, genaue Anweisungen zu geben und die bearbeitete Bildausgabe zu moderieren, um Bildgenauigkeit und Markenkonsistenz sicherzustellen. Wenn etwa eine Person im Bild ist, könnte das LLM ohne Anweisungen logischerweise entscheiden, eine weitere Person in den erweiterten Hintergrund einzufügen. Ein Mensch muss also genau definieren, was im Bild sein soll und was nicht.
Outpainting ist zwar sehr effizient, da nicht jeder Transformationsschritt für jedes Bild direkt ausgeführt werden muss, erfordert aber aufgrund der oben beschriebenen Probleme eine gewisse Kontrolle. Hier ermöglichen einige Werkzeuge bereits, bestimmte Bilder beim Hochladen als „zu moderieren“ zu kennzeichnen. Moderatoren können diese Bilder dann stapelweise prüfen und die Erweiterungen entsprechend akzeptieren oder ablehnen.
Andere Herausforderungen
Natürlich gibt es weitere Herausforderungen, wenn es um LLMs und visuelle Inhalte geht. Erstens unterstützen die meisten Open Source LLMs noch keine multimodale Eingabe oder Ausgabe, sodass man auf proprietäre Modelle zurückgreifen muss. Zweitens sind viele LLMs noch eingeschränkt, wenn es um andere Sprachen als Englisch geht. Drittens haben die Regulierungsbehörden gerade erst begonnen, sich mit dieser neuen Technologie vertraut zu machen, und die Umsetzung der neuen Gesetze ist noch unklar.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Zweifellos ist die KI-gestützte Bildproduktion der Weg in die Zukunft. Zum jetzigen Zeitpunkt wäre es jedoch riskant, multimodale LLMs zur Generierung visueller Inhalte ohne menschliche Kontrolle einzusetzen. Einfacher ist es, KI zu nutzen, um die Produktivität von Entwicklern bei der Arbeit mit visuellen Inhalten zu verbessern. Die Verwaltung visueller Inhalte umfasst viele mühsame, sich wiederholende Aufgaben wie automatisches Tagging, intelligentes Zuschneiden, Austauschen von Bildhintergründen, Größenänderungen oder Bildtransformationen. Hier lohnt sich der Einsatz von KI.