Definition Was ist Stable Diffusion?

Von Dipl.-Ing. (FH) Stefan Luber Lesedauer: 4 min |

Anbieter zum Thema

Stable Diffusion ist ein Text-zu-Bild-Generator von Stability AI. Er gehört zur Kategorie generative Künstlicher Intelligenz und erzeugt digitale Bilder auf Basis natürlichsprachiger Textanweisungen. Stable Diffusion ist Open Source und in Zusammenarbeit von Stability AI mit anderen Institutionen entstanden. Der Bildgenerator wurde 2022 veröffentlicht und verwendet ein Diffusionsmodell wie vergleichbare Text-zu-Bild-KI-Lösungen. Stable Diffusion kann online über Weboberflächen oder lokal auf einem Rechner genutzt werden.

(Bild: © aga7ta - stock.adobe.com)

Stable Diffusion ist der Name eines im Jahr 2022 veröffentlichten Text-zu-Bild-Generators. Er wurde vom 2020 in London gegründeten Start-up-Unternehmen Stability AI in Zusammenarbeit mit anderen Institutionen wie einer Forschungsgruppe der LMU München, LAION, RunwayML und EleutherAI entwickelt. Die Version 1 von Stable Diffusion erschien im August 2022. Bereits im Dezember 2022 folgte die Version 2 des Bildgenerators.

Stable Diffusion gehört zur Kategorie generative Künstlicher Intelligenz (Generative AI). Das KI-Modell ist in der Lage, auf Basis natürlichsprachiger Textanweisungen (Prompts) digitale Bilder zu erzeugen. Um neue Inhalte zu erstellen, nutzt es ein zuvor mit existierenden Bildern und zugehörigen Textbeschreibungen trainiertes künstliches neuronales Netzwerk und verschiedene KI-Algorithmen. Wie vergleichbare Text-zu-Bild-Generatoren, zum Beispiel DALL-E von OpenAI oder Midjourney, verwendet Stable Diffusion ein Diffusionsmodell.

Im Gegensatz zu Midjourney oder DALL-E handelt es sich bei Stable Diffusion um Open-Source-Software, die prinzipiell für jeden verfügbar und kostenfrei nutzbar ist. Die Software steht unter der Lizenz „Creative ML OpenRAIL-M“ und kann unter Einhaltung der Lizenzbedingungen sowohl kommerziell als auch für private Zwecke verwendet werden. Die Lizenz gibt unter anderem vor, dass Stable Diffusion nicht für das Erstellen diskriminierender, beleidigender oder Gesetze verletzender Inhalte oder für die Verbreitung von Fake News eingesetzt werden darf.

Stable Diffusion beherrscht verschiedene Bildstile wie fotorealistische Darstellungen und unterschiedliche Zeichen- und Malstile. Der Generator kann nicht nur Bilder erzeugen, sondern ist auch in der Lage, Inpainting und Outpainting durchzuführen oder Variationen existierender Bilder zu erzeugen. Nutzbar ist der Bildgenerator online per Browser über GUIs wie DreamStudio von Stability AI oder lokal auf einem Rechner.

Funktionsweise von Stable Diffusion

Stable Diffusion verwendet eine Deep-Learning-fähige, neuronale Netzwerkarchitektur. Das künstliche neuronale Netzwerk wird mit großen Mengen existierender Bilder und zugehöriger Textbeschreibungen trainiert und ist anschließend in der Lage, auf Basis der im Training erlernten Daten und Fähigkeiten neue Bildinhalte auf Anweisung zu erstellen. Die genaue Funktionsweise von Stable Diffusion zu erklären, würde den Rahmen dieser Definition sprengen. Im Folgenden ein stark vereinfachter Überblick über die prinzipielle Funktionsweise des Bildgenerators.

Texteingaben eines Anwenders werden mithilfe eines KI-Sprachmodells analysiert, um im internen Wissen des KI-Modells nach relevanten Mustern und Strukturen zu suchen und daraus die gewünschten digitalen Bilder zu generieren. Die Textbefehle zur Erzeugung von Bildern werden als Prompts bezeichnet. Sie enthalten Anweisungen und Stichwörter zu den gewünschten Inhalten und Bildstilen. Über negative Prompts lassen sich nicht gewünschte Bildinhalte ausschließen. Zusätzlich können Bilder hochgeladen werden, an denen sich die KI bei der Bilderstellung orientiert.

Eine wichtige Funktionsgrundlage von Stable Diffusion ist das sogenannte latente Diffusionsmodell. Das Modell fügt Bildern Rauschen hinzu und macht Details unkenntlich, bis ein Bild zu reinem Rauschen wird. Anschließend lernt das Modell das Rauschen rückgängig zu machen und stellt das Bild in mehreren Iterationen wieder her, bis kein Rauschen mehr enthalten ist. Um Bilder nach Textanweisungen zu generieren, werden zusätzlich die über ein Sprachmodell konvertierten Bildbeschreibungen im Diffusionsmodell berücksichtigt. Sie dienen im „Entrauschungsprozess“ als zusätzlicher Input.

Training von Stable Diffusion

Erst nach einem ausgiebigen Training sind generative KI-Modelle wie Stable Diffusion in der Lage, Bildinhalte nach Textanweisungen zu erstellen. Stable Diffusion wurde mit Datensätzen der Non-Profit-Organisation LAION trainiert. Die Bilddaten stammen von der frei zugänglichen LAION-5B-Datenbank, die insgesamt fast sechs Milliarden Bild-Text-Paare enthält und mit dem CLIP-Verfahren (Contrastive Language-Image Pretraining) gefiltert wurde. Die Datensätze bestehen aus den URLs zu den Originalbildern und den verknüpften Bildbeschreibungen in Form von ALT-Texten. Das Training von Stable Diffusion erfolgte mit einer Teilmenge von Bild-Text-Paaren des LAION-5B-Datensatzes. Die Bild-Text-Paare selbst stammen ursprünglich aus Quellen wie Wikimedia, Pinterest, Blogspot, WordPress.com, Flickr und anderen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Nutzung von Stable Diffusion

Stable Diffusion ist Open Source und lässt sich auf verschiedene Arten nutzen. Eine Variante ist beispielsweise die Online-Nutzung direkt im Browser über das DreamStudio-Tool von Stability AI. Nach Registrierung erhält man einige Credits, mit denen sich eine bestimmte Anzahl Bilder kostenlos generieren lässt. Anschließend können weitere Credits kostenpflichtig erworben werden.

Neben der DreamStudio-GUI von Stability AI existieren zahlreiche weitere Online-GUIs für Stable Diffusion wie ClipDrop von Stability AI. Auch über den Hugging Face Hub kann Stable Diffusion genutzt werden. Eine weitere Möglichkeit, den Text-zu-Bild-Generator zu verwenden, ist der Download des trainierten Modells auf ein eigenes Endgerät und die lokale Ausführung. Die lokale Ausführung erfordert gewisse Computer- und Programmierkenntnisse und stellt einige Anforderungen an die Hardwareausstattung wie eine Nvidia GPU und ausreichend VRAM.

Mittlerweile ist es möglich, den Bildgenerator Stable Diffusion per Plug-in auch in Software von Drittherstellern zu integrieren. So lässt sich Stable Diffusion beispielsweise in Photoshop von Adobe nutzen.

Risiken und Herausforderungen beim Einsatz von Stable Diffusion

Der Einsatz generativer KI wie Stable Diffusion ist mit einigen Risiken und Herausforderungen verbunden. Dazu zählen zum Beispiel:

  • missbräuchliche Nutzung (Diffamierung, politische Propaganda, sexualisierte Darstellungen, Desinformationskampagnen, Deepfakes etc.) des KI-Bildgenerators
  • Entwertung künstlerischer Arbeit von Grafikern, Zeichnern und Malern und der damit einhergehende Verlust von Arbeitsplätzen in verschiedenen Berufsgruppen
  • zahlreiche noch offene rechtliche Fragestellungen zu Urheberrechten und Nutzungsrechten der generierten Bilder und des verwendeten Trainingsmaterials
  • Beeinflussung der Bilderstellung durch im Trainingsmaterial enthaltenen Bias
  • hoher Energiebedarf und technischer Aufwand für das Training und die Ausführung des KI-Modells

(ID:49532796)