Stable Diffusion ist ein Text-zu-Bild-Generator von Stability AI. Er gehört zur Kategorie generative Künstlicher Intelligenz und erzeugt digitale Bilder auf Basis natürlichsprachiger Textanweisungen. Stable Diffusion ist Open Source und in Zusammenarbeit von Stability AI mit anderen Institutionen entstanden. Der Bildgenerator wurde 2022 veröffentlicht und verwendet ein Diffusionsmodell wie vergleichbare Text-zu-Bild-KI-Lösungen. Stable Diffusion kann online über Weboberflächen oder lokal auf einem Rechner genutzt werden.
Stable Diffusion ist der Name eines im Jahr 2022 veröffentlichten Text-zu-Bild-Generators. Er wurde vom 2020 in London gegründeten Start-up-Unternehmen Stability AI in Zusammenarbeit mit anderen Institutionen wie einer Forschungsgruppe der LMU München, LAION, RunwayML und EleutherAI entwickelt. Die Version 1 von Stable Diffusion erschien im August 2022. Bereits im Dezember 2022 folgte die Version 2 des Bildgenerators.
Stable Diffusion gehört zur Kategorie generative Künstlicher Intelligenz (Generative AI). Das KI-Modell ist in der Lage, auf Basis natürlichsprachiger Textanweisungen (Prompts) digitale Bilder zu erzeugen. Um neue Inhalte zu erstellen, nutzt es ein zuvor mit existierenden Bildern und zugehörigen Textbeschreibungen trainiertes künstliches neuronales Netzwerk und verschiedene KI-Algorithmen. Wie vergleichbare Text-zu-Bild-Generatoren, zum Beispiel DALL-E von OpenAI oder Midjourney, verwendet Stable Diffusion ein Diffusionsmodell.
Im Gegensatz zu Midjourney oder DALL-E handelt es sich bei Stable Diffusion um Open-Source-Software, die prinzipiell für jeden verfügbar und kostenfrei nutzbar ist. Die Software steht unter der Lizenz „Creative ML OpenRAIL-M“ und kann unter Einhaltung der Lizenzbedingungen sowohl kommerziell als auch für private Zwecke verwendet werden. Die Lizenz gibt unter anderem vor, dass Stable Diffusion nicht für das Erstellen diskriminierender, beleidigender oder Gesetze verletzender Inhalte oder für die Verbreitung von Fake News eingesetzt werden darf.
Stable Diffusion beherrscht verschiedene Bildstile wie fotorealistische Darstellungen und unterschiedliche Zeichen- und Malstile. Der Generator kann nicht nur Bilder erzeugen, sondern ist auch in der Lage, Inpainting und Outpainting durchzuführen oder Variationen existierender Bilder zu erzeugen. Nutzbar ist der Bildgenerator online per Browser über GUIs wie DreamStudio von Stability AI oder lokal auf einem Rechner.
Funktionsweise von Stable Diffusion
Stable Diffusion verwendet eine Deep-Learning-fähige, neuronale Netzwerkarchitektur. Das künstliche neuronale Netzwerk wird mit großen Mengen existierender Bilder und zugehöriger Textbeschreibungen trainiert und ist anschließend in der Lage, auf Basis der im Training erlernten Daten und Fähigkeiten neue Bildinhalte auf Anweisung zu erstellen. Die genaue Funktionsweise von Stable Diffusion zu erklären, würde den Rahmen dieser Definition sprengen. Im Folgenden ein stark vereinfachter Überblick über die prinzipielle Funktionsweise des Bildgenerators.
Texteingaben eines Anwenders werden mithilfe eines KI-Sprachmodells analysiert, um im internen Wissen des KI-Modells nach relevanten Mustern und Strukturen zu suchen und daraus die gewünschten digitalen Bilder zu generieren. Die Textbefehle zur Erzeugung von Bildern werden als Prompts bezeichnet. Sie enthalten Anweisungen und Stichwörter zu den gewünschten Inhalten und Bildstilen. Über negative Prompts lassen sich nicht gewünschte Bildinhalte ausschließen. Zusätzlich können Bilder hochgeladen werden, an denen sich die KI bei der Bilderstellung orientiert.
Eine wichtige Funktionsgrundlage von Stable Diffusion ist das sogenannte latente Diffusionsmodell. Das Modell fügt Bildern Rauschen hinzu und macht Details unkenntlich, bis ein Bild zu reinem Rauschen wird. Anschließend lernt das Modell das Rauschen rückgängig zu machen und stellt das Bild in mehreren Iterationen wieder her, bis kein Rauschen mehr enthalten ist. Um Bilder nach Textanweisungen zu generieren, werden zusätzlich die über ein Sprachmodell konvertierten Bildbeschreibungen im Diffusionsmodell berücksichtigt. Sie dienen im „Entrauschungsprozess“ als zusätzlicher Input.
Training von Stable Diffusion
Erst nach einem ausgiebigen Training sind generative KI-Modelle wie Stable Diffusion in der Lage, Bildinhalte nach Textanweisungen zu erstellen. Stable Diffusion wurde mit Datensätzen der Non-Profit-Organisation LAION trainiert. Die Bilddaten stammen von der frei zugänglichen LAION-5B-Datenbank, die insgesamt fast sechs Milliarden Bild-Text-Paare enthält und mit dem CLIP-Verfahren (Contrastive Language-Image Pretraining) gefiltert wurde. Die Datensätze bestehen aus den URLs zu den Originalbildern und den verknüpften Bildbeschreibungen in Form von ALT-Texten. Das Training von Stable Diffusion erfolgte mit einer Teilmenge von Bild-Text-Paaren des LAION-5B-Datensatzes. Die Bild-Text-Paare selbst stammen ursprünglich aus Quellen wie Wikimedia, Pinterest, Blogspot, WordPress.com, Flickr und anderen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Nutzung von Stable Diffusion
Stable Diffusion ist Open Source und lässt sich auf verschiedene Arten nutzen. Eine Variante ist beispielsweise die Online-Nutzung direkt im Browser über das DreamStudio-Tool von Stability AI. Nach Registrierung erhält man einige Credits, mit denen sich eine bestimmte Anzahl Bilder kostenlos generieren lässt. Anschließend können weitere Credits kostenpflichtig erworben werden.
Neben der DreamStudio-GUI von Stability AI existieren zahlreiche weitere Online-GUIs für Stable Diffusion wie ClipDrop von Stability AI. Auch über den Hugging Face Hub kann Stable Diffusion genutzt werden. Eine weitere Möglichkeit, den Text-zu-Bild-Generator zu verwenden, ist der Download des trainierten Modells auf ein eigenes Endgerät und die lokale Ausführung. Die lokale Ausführung erfordert gewisse Computer- und Programmierkenntnisse und stellt einige Anforderungen an die Hardwareausstattung wie eine Nvidia GPU und ausreichend VRAM.
Mittlerweile ist es möglich, den Bildgenerator Stable Diffusion per Plug-in auch in Software von Drittherstellern zu integrieren. So lässt sich Stable Diffusion beispielsweise in Photoshop von Adobe nutzen.
Risiken und Herausforderungen beim Einsatz von Stable Diffusion
Der Einsatz generativer KI wie Stable Diffusion ist mit einigen Risiken und Herausforderungen verbunden. Dazu zählen zum Beispiel:
missbräuchliche Nutzung (Diffamierung, politische Propaganda, sexualisierte Darstellungen, Desinformationskampagnen, Deepfakes etc.) des KI-Bildgenerators
Entwertung künstlerischer Arbeit von Grafikern, Zeichnern und Malern und der damit einhergehende Verlust von Arbeitsplätzen in verschiedenen Berufsgruppen
zahlreiche noch offene rechtliche Fragestellungen zu Urheberrechten und Nutzungsrechten der generierten Bilder und des verwendeten Trainingsmaterials
Beeinflussung der Bilderstellung durch im Trainingsmaterial enthaltenen Bias
hoher Energiebedarf und technischer Aufwand für das Training und die Ausführung des KI-Modells