Definition Was ist DALL-E?
Anbieter zum Thema
DALL-E ist ein Text-zu-Bild-Generator von OpenAI. Er gehört zur Kategorie generativer KI (Generative AI) und ist in der Lage, auf Basis von natürlichsprachigen Textanweisungen digitale Bilder zu erstellen. Ein Jahr nach Veröffentlichung von DALL-E im Jahr 2021 erschien 2022 mit DALL-E 2 eine verbesserte Version des Text-zu-Bild-Generators. DALL-E kann prinzipiell von jedem über eine Weboberfläche genutzt werden. Die Abrechnung erfolgt über ein Credit-System.

DALL-E ist der Name einer Künstlichen Intelligenz des Unternehmens OpenAI aus der Kategorie Generative AI (generative Künstliche Intelligenz). Es handelt sich um einen Text-zu-Bild-Generator, der auf Basis einer Textanweisung in natürlicher Sprache ein digitales Bild erstellt. Der Name DALL-E setzt sich aus den Namen des Künstlers Salvador Dalí und des Roboters WALL-E aus dem Animations-Kinofilm der Pixar Animation Studios „WALL-E – Der Letzte räumt die Erde auf“ zusammen.
Die Veröffentlichung von DALL-E im Jahr 2021 sorgte aufgrund der beeindruckenden Fähigkeiten der Künstlichen Intelligenz für großes Aufsehen. DALL-E kann fotorealistische Bilder, Zeichnungen und Gemälde in verschiedenen künstlerischen Stilrichtungen und einiges mehr erstellen oder variieren. Der Text-zu-Bild-Generator basiert auf dem ebenfalls von OpenAI entwickelten Textgenerator Generative Pretrained Transformer 3 (GPT-3) und ist über eine Weboberfläche prinzipiell von jedem nutzbar.
Im Jahr 2022 erschien eine verbesserte Version DALL-E 2, die noch realistischere und höher aufgelöst Bilder erstellt. Zu den besonderen Fähigkeiten von DALL-E 2 zählen zum Beispiel eine schnellere Bildverarbeitung, realistischere Lichtreflexionen und Lichtverhältnisse, komplexere Hintergründe, die Funktion des Inpaintings (Editieren eines spezifischen Bildbereichs), das Erstellen verschiedener Bildvariationen in unterschiedlichen Stilrichtungen oder das Hinzufügen und Kombinieren mehrerer Bilder.
Abgeleitet von DALL-E existiert eine ursprünglich als DALL-E mini und heute als Craiyon benannte Version des Text-zu-Bild-Generators. Sie basiert auf dem Quellcode von DALL-E, ist aber weniger leistungsfähig. Neben DALL-E gibt es mittlerweile zahlreiche weitere KI-Text-zu-Bild-Generatoren wie Stable Diffusion oder Midjourney.
Grundlegende Fähigkeiten von DALL-E
DALL-E versteht natürlichsprachige Eingaben und erstellt auf Basis der Textbeschreibungen und Anweisungen völlig neue Bilder in verschiedenen Stilrichtungen, angefangen von fotorealistischen Bildern über Zeichnungen und Gemälde bis zu Abbildungen von dreidimensionalen Modellen und Objekten. Zu den Fähigkeiten von DALL-E zählen unter anderem:
- das Erstellen neuer Bilder
- das Erweitern von Bildern
- das Verändern von Hintergründen
- das Hinzufügen und Entfernen von Elementen
- das Berücksichtigen von Schatten, Reflexionen und Texturen
- das Erstellen von Bildvariationen
- das Erstellen von Abbildungen aus verschiedenen Blickwinkeln
Prinzipielle Funktionsweise und zugrundeliegende KI-Modelle
Auf die genaue Funktionsweise von DALL-E einzugehen, würde den Rahmen dieser Definition sprengen. Im Folgenden daher eine sehr vereinfachte Darstellung der prinzipiellen Funktionsweise.
DALL-E ist in der Lage, Texteingaben in eine Anordnung von Pixeln umzuwandeln und so digitale Bilder gemäß den Anweisungen eines Anwenders zu erstellen. Hierfür nutzt der Bildgenerator verschiedene KI-Modelle und -Algorithmen. Eine wichtige Funktionsgrundlage von DALL-E ist der Textgenerator GPT-3 (Generative Pretrained Transformer 3) von OpenAI. Eine multimodale Implementierung des Sprachmodells GPT-3 mit zwölf Milliarden Parametern (bei DALL-E 2 nur 3,5 Milliarden Parameter) wird genutzt, um die Texteingaben zu verstehen und daraus die passenden Bilder wiederzugeben.
Weitere KI-Technologien von DALL-E sind CLIP (Contrastive Language-Image Pretraining) und GLIDE (Guided Language to Image Diffusion for Generation and Editing). CLIP ist ein mit mehreren hundert Millionen Text-Bild-Paaren aus dem Internet trainiertes künstliches neuronales Netzwerk. Es kann die passenden Verbindungen zwischen Textbeschreibung und Bildern herstellen. Zum Editieren und Generieren von Bildern verwendet DALL-E ein generatives Diffusion-Modell mit der Bezeichnung GLIDE. Über das stufenweise Hinzufügen von Rauschen zu einem vorhandenen Bild und das anschließende Wiederherstellen des Bildes, lernt das Modell unter Berücksichtigung von Texteinbettungen Bilder zu editieren. Die von DALL-E erstellten Bilder haben zunächst eine niedrige Auflösung. Über einen Up-Sampling-Mechanismus wird anschließend eine Version des Bildes mit höherer Auflösung erzeugt.
Nutzung von DALL-E
DALL-E ist prinzipiell von jedem nutzbar. Voraussetzung ist ein DALL-E-Account bei OpenAI. Zum Erstellen eines Accounts reichen wenige Angaben. Mit einem gültigen Account lässt sich der Bildgenerator über eine Weboberfläche online ansprechen. Nutzer können über einen Prompt (Befehlszeile) die Bildbeschreibung für ein zu erstellende Bild eingeben oder sich über die Option „Surprise me“ ein Bild von DALL-E ohne spezielle Anweisung erzeugen lassen. Bei der Nutzung der Befehlszeile ist das Ergebnis wesentlich von der detaillierten textlichen Beschreibung des gewünschten Bildes abhängig. Es lassen sich Motive, Hintergründe, Umgebungen, Stilrichtungen, Stimmungen und vieles mehr beschreiben. DALL-E erstellt mehrere Versionen eines Bildes, die sich anschließend vergrößern und herunterladen lassen.
Für die Nutzung von DALL-E hat OpenAI ein Credit-System eingeführt. Die Anzahl der initialen und monatlich zugeteilten Gratis-Credits ist beschränkt und hängt unter anderem davon ab, wann der Account erstellt wurde. Credits können kostenpflichtig erworben werden. Derzeit kosten 115 Credits rund 15 US-Dollar. Für einen Bildgenerierungsbefehl wird ein Credit abgezogen.
Schwächen, Risiken und Gefahren von DALL-E
DALL-E hat beeindruckende Fähigkeiten, zeigt aber auch Schwächen. Die Nutzung des Bildgenerators ist zudem mit einigen Risiken und Gefahren verbunden. Nach wie vor fehlt es dem Text-zu-Bild-Generator an einem generellen Verständnis für Objekte der physischen Welt, was zu gravierenden Fehlern in der Bilderstellung führen kann. Das Training des Bildgenerators mit Bildern und Inhalten aus dem Internet ist zudem mit einem gewissen Bias verbunden, das die Bilderzeugung beeinflusst. So stammt das Bildmaterial zu einem großen Teil aus dem westlichen Kulturkreis und enthält Stereotype.
Generative KI wie DALL-E kann trotz entsprechender Schutzmaßnahmen der Entwickler unter Umständen missbräuchlich für Deepfakes und Desinformationskampagnen eingesetzt werden. Darüber hinaus übt die KI Einfluss auf den Arbeitsmarkt aus, was dazu führen kann, dass Arbeitsplätze in bestimmten Berufsgruppen wie im Grafikdesign, in der Fotografie oder in künstlerischen Bereichen verloren gehen.
Die Verwendung von DALL-E wirft viele rechtliche Fragestellungen auf. So sind derzeit viele Fragen im Bereich des Urheberrechts und der Nutzungsrechte von KI-generierten Bildern ungeklärt. Rechtsunsicherheiten existieren auch im Zusammenhang mit der Verwendung von urheberrechtlich geschützten Bildern für das Training der Modelle. Das Training und der Betrieb von DALL-E ist mit großem technischen Aufwand verbunden und benötigt viel Energie.
(ID:49438840)