GLIDE ist ein von OpenAI entwickeltes, textgeführtes Diffusionsmodell zum Erzeugen und Bearbeiten von Bildern auf Basis natürlichsprachiger Textanweisungen. Das Diffusionsmodell erzielt trotz deutlich niedrigere Parameteranzahl bessere Ergebnisse als die erste Version des Text-zu-Bild-Generators DALL-E von OpenAI. In DALL-E2 nutzt OpenAI GLIDE mit weiteren KI-Verfahren wie CLIP für noch bessere Ergebnisse beim Erzeugen und Bearbeiten von Bildern.
Das Akronym GLIDE steht für „Guided Language to Image Diffusion for Generation and Editing“. Es handelt sich um ein von OpenAI entwickeltes und 2021 veröffentlichtes, textgeführtes Diffusionsmodell zum Erzeugen und Bearbeiten von Bildern auf Basis natürlichsprachiger Textanweisungen. Details zur Funktionsweise und zu den von GLIDE erzielten Ergebnissen sind im Paper mit dem Titel „GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models“ veröffentlicht.
GLIDE erzielt hervorragende Ergebnisse in der Bilderzeugung und übertrifft die Leistung der bis dahin häufig für Text-zu-Bildgeneratoren verwendeten GANs (Generative Adversarial Networks) deutlich. Auch im Vergleich zu der Anfang 2021 veröffentlichten ersten Version des Text-zu-Bildgenerators DALL-E von OpenAI mit rund 12 Milliarden Parametern werden die von GLIDE (Parameteranzahl circa 3,5 Milliarden) erzeugten Bilder in Bereichen wie Fotorealismus von Menschen besser bewertet.
Das große GLIDE-Modell, mit seinen 3,5 Milliarden Parametern, wurde aus Sicherheitsgründen von OpenAI zurückgehalten. Lediglich eine kleinere Version mit „nur“ 300 Millionen Parametern, die mit einem stark gefilterten Datensatz trainiert wurde, ist frei verfügbar. Das textgeführte Diffusionsmodell GLIDE hat in einer modifizierten Form in der 2022 veröffentlichten zweiten Version des Text-zu-Bildgenerators DALL-E2 Einzug gehalten und trägt wesentlich zu einer höheren Leistungsfähigkeit des neuen KI-Modells bei.
Die Fähigkeiten von GLIDE
GLIDE kann auf Basis von Textanweisungen fotorealistische Bilder und Bilder in weiteren Stilen erstellen. Darüber hinaus ist GLIDE in der Lage, bereits existierende Bilder detailliert auf Anweisung zu bearbeiten. Stellen, die geändert werden sollen, lassen sich markieren und die dort gewünschten Veränderungen per Text beschreiben. Es können beispielsweise Personen oder Gegenstände eingefügt oder Schatten und Lichtreflexionen ergänzt werden. Eine weitere Fähigkeit von GLIDE ist das Transformieren von Zeichnungen oder Skizzen in fotorealistische Bilder.
Funktionsweise eines Diffusionsmodells und Besonderheit von GLIDE
Diffusionsmodelle haben sich beim Einsatz in Text-zu-Bildgeneratoren mit Künstlicher Intelligenz als sehr leistungsfähig erwiesen. Die prinzipielle Funktionsweise eines Diffusionsmodells lässt sich, vereinfacht dargestellt, folgendermaßen beschreiben:
Diffusionsmodelle generieren Daten (im Fall eines Bildgenerators Bilder), indem sie lernen, einen stufenweise ausgeführten „Verrauschungsprozess“ wieder rückgängig zu machen. Für das Training der Modelle wird Trainingsbildern stufenweise ein immer größeres Rauschen hinzugefügt. Das Diffusionsmodell wird darauf trainiert, das Rauschen zu entfernen und das ursprüngliche Bild wiederherzustellen. Nach dem Training ist das Diffusionsmodell in der Lage, aus Gaußschem Rauschen durch Entrauschen Bilder zu erzeugen.
GLIDE erweitert das Grundkonzept des Diffusionsmodells. Der Trainingsprozess ist mit Textinformationen zu den Bildern angereichert. Dadurch wird das Modell nach dem Training in die Lage versetzt, Bilder durch Entrauschen und unter Berücksichtigung von Texteinbettungen zu erzeugen. Während des Bilderzeugungsprozesses stellt eine sogenannte „Guidance“ (Führung) sicher, dass das generierte Bild auch zur vorgegebenen Beschreibung passt. Die Führung gibt, einfach ausgedrückt, die Richtung vor, in die sich das Bild während des Entrauschungsprozesses entwickeln soll.
Die Entwickler von GLIDE haben zwei verschiedene Führungstechniken verglichen: CLIP-Guidance und Classifier-free-Guidance. Classifier-free-Guidance ist eine klassifikatorfreie Führung des Diffusionsmodells, die kein Training eines separaten Klassifikatormodells erfordert. Die GLIDE-Entwickler kamen zu dem Ergebnis, dass eine Classifier-free-Guidance Bilder von höherer Qualität liefert.
Für ihre Untersuchungen trainierten die Entwickler ihr Modell mit den gleichen Daten wie DALL-E. Die Bilder wurden von einem Modell mit 3,5 Milliarden Parametern in einer Auflösung von 64 x 64 Pixel generiert und anschließend von einem weiteren Modell auf 256 x 256 Pixel hochgerechnet.
Ergebnisse der Bilderzeugung mit GLIDE
Eines der Ergebnisse des von den GLIDE-Entwicklern veröffentlichten Papers ist, dass menschliche Tester die Ergebnisse von GLIDE als deutlich besser bewerten als die von DALL-E oder anderen Modellen. Bilder, die mit Classifier-free-Guidance und GLIDE erzeugt wurden, werden von Menschen als fotorealistischer eingeschätzt. Gegenüber den von DALL-E erzeugten Bildern wurden sie zu deutlich über 80 Prozent bevorzugt. Auch hinsichtlich Bildunterschriftenähnlichkeit (Caption Similarity) wird GLIDE gegenüber DALL-E zu fast 70 Prozent bevorzugt. Das ist insbesondere bemerkenswert, da GLIDE mit 3,5 Milliarden Parametern nur einen Bruchteil der Parameteranzahl von DALL-E mit seinen 12 Milliarden Parametern besitzt.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.