Definition Was ist GLIDE?

Von Dipl.-Ing. (FH) Stefan Luber Lesedauer: 3 min |

Anbieter zum Thema

GLIDE ist ein von OpenAI entwickeltes, textgeführtes Diffusionsmodell zum Erzeugen und Bearbeiten von Bildern auf Basis natürlichsprachiger Textanweisungen. Das Diffusionsmodell erzielt trotz deutlich niedrigere Parameteranzahl bessere Ergebnisse als die erste Version des Text-zu-Bild-Generators DALL-E von OpenAI. In DALL-E2 nutzt OpenAI GLIDE mit weiteren KI-Verfahren wie CLIP für noch bessere Ergebnisse beim Erzeugen und Bearbeiten von Bildern.

(Bild: © aga7ta - stock.adobe.com)

Das Akronym GLIDE steht für „Guided Language to Image Diffusion for Generation and Editing“. Es handelt sich um ein von OpenAI entwickeltes und 2021 veröffentlichtes, textgeführtes Diffusionsmodell zum Erzeugen und Bearbeiten von Bildern auf Basis natürlichsprachiger Textanweisungen. Details zur Funktionsweise und zu den von GLIDE erzielten Ergebnissen sind im Paper mit dem Titel „GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models“ veröffentlicht.

GLIDE erzielt hervorragende Ergebnisse in der Bilderzeugung und übertrifft die Leistung der bis dahin häufig für Text-zu-Bildgeneratoren verwendeten GANs (Generative Adversarial Networks) deutlich. Auch im Vergleich zu der Anfang 2021 veröffentlichten ersten Version des Text-zu-Bildgenerators DALL-E von OpenAI mit rund 12 Milliarden Parametern werden die von GLIDE (Parameteranzahl circa 3,5 Milliarden) erzeugten Bilder in Bereichen wie Fotorealismus von Menschen besser bewertet.

Das große GLIDE-Modell, mit seinen 3,5 Milliarden Parametern, wurde aus Sicherheitsgründen von OpenAI zurückgehalten. Lediglich eine kleinere Version mit „nur“ 300 Millionen Parametern, die mit einem stark gefilterten Datensatz trainiert wurde, ist frei verfügbar. Das textgeführte Diffusionsmodell GLIDE hat in einer modifizierten Form in der 2022 veröffentlichten zweiten Version des Text-zu-Bildgenerators DALL-E2 Einzug gehalten und trägt wesentlich zu einer höheren Leistungsfähigkeit des neuen KI-Modells bei.

Die Fähigkeiten von GLIDE

GLIDE kann auf Basis von Textanweisungen fotorealistische Bilder und Bilder in weiteren Stilen erstellen. Darüber hinaus ist GLIDE in der Lage, bereits existierende Bilder detailliert auf Anweisung zu bearbeiten. Stellen, die geändert werden sollen, lassen sich markieren und die dort gewünschten Veränderungen per Text beschreiben. Es können beispielsweise Personen oder Gegenstände eingefügt oder Schatten und Lichtreflexionen ergänzt werden. Eine weitere Fähigkeit von GLIDE ist das Transformieren von Zeichnungen oder Skizzen in fotorealistische Bilder.

Funktionsweise eines Diffusionsmodells und Besonderheit von GLIDE

Diffusionsmodelle haben sich beim Einsatz in Text-zu-Bildgeneratoren mit Künstlicher Intelligenz als sehr leistungsfähig erwiesen. Die prinzipielle Funktionsweise eines Diffusionsmodells lässt sich, vereinfacht dargestellt, folgendermaßen beschreiben:

Diffusionsmodelle generieren Daten (im Fall eines Bildgenerators Bilder), indem sie lernen, einen stufenweise ausgeführten „Verrauschungsprozess“ wieder rückgängig zu machen. Für das Training der Modelle wird Trainingsbildern stufenweise ein immer größeres Rauschen hinzugefügt. Das Diffusionsmodell wird darauf trainiert, das Rauschen zu entfernen und das ursprüngliche Bild wiederherzustellen. Nach dem Training ist das Diffusionsmodell in der Lage, aus Gaußschem Rauschen durch Entrauschen Bilder zu erzeugen.

GLIDE erweitert das Grundkonzept des Diffusionsmodells. Der Trainingsprozess ist mit Textinformationen zu den Bildern angereichert. Dadurch wird das Modell nach dem Training in die Lage versetzt, Bilder durch Entrauschen und unter Berücksichtigung von Texteinbettungen zu erzeugen. Während des Bilderzeugungsprozesses stellt eine sogenannte „Guidance“ (Führung) sicher, dass das generierte Bild auch zur vorgegebenen Beschreibung passt. Die Führung gibt, einfach ausgedrückt, die Richtung vor, in die sich das Bild während des Entrauschungsprozesses entwickeln soll.

Die Entwickler von GLIDE haben zwei verschiedene Führungstechniken verglichen: CLIP-Guidance und Classifier-free-Guidance. Classifier-free-Guidance ist eine klassifikatorfreie Führung des Diffusionsmodells, die kein Training eines separaten Klassifikatormodells erfordert. Die GLIDE-Entwickler kamen zu dem Ergebnis, dass eine Classifier-free-Guidance Bilder von höherer Qualität liefert.

Für ihre Untersuchungen trainierten die Entwickler ihr Modell mit den gleichen Daten wie DALL-E. Die Bilder wurden von einem Modell mit 3,5 Milliarden Parametern in einer Auflösung von 64 x 64 Pixel generiert und anschließend von einem weiteren Modell auf 256 x 256 Pixel hochgerechnet.

Ergebnisse der Bilderzeugung mit GLIDE

Eines der Ergebnisse des von den GLIDE-Entwicklern veröffentlichten Papers ist, dass menschliche Tester die Ergebnisse von GLIDE als deutlich besser bewerten als die von DALL-E oder anderen Modellen. Bilder, die mit Classifier-free-Guidance und GLIDE erzeugt wurden, werden von Menschen als fotorealistischer eingeschätzt. Gegenüber den von DALL-E erzeugten Bildern wurden sie zu deutlich über 80 Prozent bevorzugt. Auch hinsichtlich Bildunterschriftenähnlichkeit (Caption Similarity) wird GLIDE gegenüber DALL-E zu fast 70 Prozent bevorzugt. Das ist insbesondere bemerkenswert, da GLIDE mit 3,5 Milliarden Parametern nur einen Bruchteil der Parameteranzahl von DALL-E mit seinen 12 Milliarden Parametern besitzt.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

(ID:49740229)