OpenAI GPT-4o soll Bildgenerierung neu definieren

Von Berk Kutsal 2 min Lesedauer

Anbieter zum Thema

OpenAI integriert die Bildgenerierung direkt in das Sprachmodell GPT-4o. Die Funktion soll textbasierte Prompts, Dateien und Dialogkontexte nutzen, um hochwertige Bilder zu erstellen – und wirft damit Fragen zur Kontrolle, zum Urheberrecht und zur Rolle generativer KI im Designprozess auf.

OpenAI integiert eine Bildgenerierung in das Sprachmodell GPT-4o.(Bild:  KI-generiert)
OpenAI integiert eine Bildgenerierung in das Sprachmodell GPT-4o.
(Bild: KI-generiert)

Mit der Integration von Bildgenerierung in das Sprachmodell GPT-4o treibt OpenAI die Verschmelzung von multimodalen KI-Fähigkeiten weiter voran. Das Unternehmen kündigte an, die Funktion stufenweise für Nutzer der Plus-, Pro-, Team- und Free-Tarife von ChatGPT bereitzustellen. Enterprise- und Edu-Konten sollen „in Kürze“ folgen. Die Funktion werde auch in das Video-Modell Sora eingebunden. Ziel sei es, professionelle Bilder auf Grundlage von Prompts, Konversationen und hochgeladenen Dateien zu generieren. Dabei verspricht OpenAI eine Kombination aus Bildsynthese und -transformation – alles innerhalb eines einzigen Modells.

Technologisch basiert die neue Funktion auf dem autoregressiven Ansatz von GPT-4o, der sich bereits bei Text- und Codeverarbeitung bewährt habe. Im Unterschied zu bisherigen Bildgeneratoren wie DALL-E sei keine separate Verarbeitungseinheit nötig. Vielmehr nutze GPT-4o sein „Weltwissen“, um visuelle Inhalte im Kontext der Unterhaltung zu erzeugen. Der Fokus liege auf einem intuitiven und anwendungsnahen Workflow, der laut OpenAI unter anderem die Darstellung von Text innerhalb von Bildern, die Umsetzung komplexer Prompts und die visuelle Kohärenz verbessern soll.

Als mögliche Anwendungsbereiche nennt das Unternehmen unter anderem die Erstellung von Diagrammen, Infografiken, Logos, Social-Media-Grafiken mit Farbwerten, aber auch von individuellen Stockfotos und Wortmarken. Besonders hervorgehoben werden Bilder, die stark auf Textinhalte angewiesen sind – etwa Lernposter, Anleitungen oder Visitenkarten. Ebenso sollen sich Szenen mit hohem Anpassungsbedarf realisieren lassen, wie etwa präsentationsfertige Renderings mit transparentem Hintergrund.

Die im New Yorker Central Park beheimateten Vogelarten, generiert durch ChatGPT.(Bild:  KI-generiert)
Die im New Yorker Central Park beheimateten Vogelarten, generiert durch ChatGPT.
(Bild: KI-generiert)

Hinzu kommt die Möglichkeit, ein bestehendes Bild als Ausgangspunkt zu nutzen: Ob individuelles Gemälde, Porträtfoto oder Interior-Inspiration – Bildveränderung und -erweiterung gehören zu den vorgesehenen Fähigkeiten. Dabei soll der Kontext der Unterhaltung eine zentrale Rolle spielen: Wer über den Central Park spricht, könne im nächsten Schritt ein Poster mit den dort beheimateten Vogelarten generieren lassen. Auch die Verknüpfungen mit historischem, geografischem oder technischem Wissen seien denkbar.

Der technologische Sprung bringt nicht nur neue Werkzeuge, sondern auch alte Debatten zurück. Denn die Kombination aus KI-generierter Grafik, Text und Kontextwissen könnte Designprozesse grundlegend verändern. Wer bestimmt den kreativen Output, wenn die Eingabe nur noch aus einem Satz besteht? Welche Rolle spielt der Mensch, wenn Bildkonzepte algorithmisch erweitert oder „verbessert“ werden? Und wie lässt sich die Herkunft solcher Werke transparent machen?

OpenAI verweist auf Sicherheitsmechanismen, die problematische Inhalte blockieren sollen. Zudem sollen alle generierten Bilder mit Metadaten nach dem C2PA-Standard gekennzeichnet werden. Dieser Ansatz diene der Transparenz und solle dabei helfen, Deepfakes und Missbrauch vorzubeugen. Dennoch bleiben Fragen offen – etwa zur rechtlichen Einordnung von KI-generierten Bildern oder zu den Konsequenzen für Berufe im Grafik- und Medienbereich.

Fakt ist: Die Verfügbarkeit eines integrierten, promptbasierten Bildgenerators könnte den Zugang zu visuellem Content für eine breite Masse erleichtern. Was einst professionelle Software, Schulung und Erfahrung erforderte, ist nun in wenigen Sätzen zugänglich. Ob das ein Werkzeug für Kreativität oder ein Brandbeschleuniger für mediale Beliebigkeit ist, wird sich zeigen müssen.

(ID:50367851)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung