LLMs & Knowledge-Graphen, Teil 4 Fotorealistische Bilder mit Stability AI

Von Michael Matzer 3 min Lesedauer

Text-zu-Bild-Modelle von Stability AI bieten schnelle, skalierbare, KI-gestützte Funktionen zur Erstellung visueller Inhalte. Sie gibt es in den drei Editionen „Stable Image Ultra“, „Stable Diffusion 3 Large“ und „Stable Image Core“. Werbung, Marketing, Medien und Entwickler können mit ihnen leicht ihre Ideen in visuelle Formen übertragen und so eine Menge Zeit und Investition sparen. Innerhalb eines Frameworks lassen sich die erzeugten Artefakte absichern und verfeinern.

Dieses Bild wurde mit der folgenden Aufforderung (Prompt) generiert: „~*aesthetic~+ #boho #fashion, full-body 30-something woman laying on microfloral grass, candid pose, overlay reads Stable Diffusion 3.5, cheerful cursive typography font.“(Bild:  Stability AI)
Dieses Bild wurde mit der folgenden Aufforderung (Prompt) generiert: „~*aesthetic~+ #boho #fashion, full-body 30-something woman laying on microfloral grass, candid pose, overlay reads Stable Diffusion 3.5, cheerful cursive typography font.“
(Bild: Stability AI)

Stable Diffusion 3 hat laut Anbieter das Potenzial, den kreativen Workflow in der Werbung und im Marketing zu revolutionieren: „Durch die Kombination von Ideen für Marketingkampagnen, die mit großen Sprachmodellen generiert werden, mit fortschrittlichen Funktionen zur Bilderzeugung, können Agenturen schnell hochwertige und maßgeschneiderte visuelle Materialien erstellen, die bei ihrer Zielgruppe Anklang finden.“

Werbemanager erstellen personalisierte Werbekampagnen und unbegrenzte Marketingressourcen. Medien entwickeln unbegrenzte kreative Ressourcen und Ideen mit Bildern. Im Gaming und dem Metaverse lassen sich neue Charaktere, Szenen und Welten erschaffen. Im Folgenden sollen die drei Modelle vorgestellt werden.

Bildergalerie

Stable Image Ultra

Stable Image Ultra, das größte Modell, erzeugt mithilfe von 16 Milliarden Parametern fotorealistische Ausdrucke von höchster Qualität, perfekt für professionelle Printmedien und großformatige Anwendungen. Das LLM zeichnet sich durch die Wiedergabe feinster Details und durch Fotorealismus aus. Stable Image Ultra bietet Kreativität und Fotorealismus und rendert außergewöhnliche Grafiken mit hochdetaillierten 3D-Images, die feine Details wie Beleuchtung, Texturen und Hände enthalten.

Das Modell zeichne sich durch die Fähigkeit aus, Bilder mit mehreren Motiven zu generieren, wodurch es sich ideal für die Erstellung komplexer Szenen eigne. Zu den unterstützten Anwendungsbereiche zählen Medien und Unterhaltung, Spieleentwicklung, Online-Einzelhandel (E-Commerce), Verlagswesen, Aus- und Weiterbildung sowie Marketing- und Werbeagenturen.

Stable Diffusion 3 Large

Stable Diffusion 3 Large stellt laut Anbieter ein Gleichgewicht zwischen Generierungsgeschwindigkeit und Ausgabequalität her. Es sei „ideal für die Erstellung umfangreicher, hochwertiger digitaler Assets wie Websites, Newsletter und Marketingmaterialien“. Dieses Modell biete eine erheblich verbesserte Leistung bei Prompts mit mehreren Themen sowie eine verbesserte Image-Qualität und Rechtschreibfähigkeiten. Ausnahmsweise können neben Text auch Bilder als Quelle dienen.

„Stable Diffusion 3 Large stellt eine neue, hochmoderne Architektur für die Image-Erzeugung vor, die eine Ensemble-Pipeline mit acht Milliarden Parametern umfasst“, so der Anbieter. „Das Modell bietet höchste Qualität, Benutzerfreundlichkeit und die Möglichkeit, komplexe Kompositionen mit einfacher natürlicher Spracheingabe zu erstellen.“ Die unterstützten Anwendungsfälle sind die gleichen wie bei Stable Image Ultra.

Stable Image Core

Stable Diffusion XL 1.0, alias SDXL, ist die Vorgängermodellversion, Stable Image Core ist die nächste Generation. Nutzer erstellen mit diesem Modell mit 2,6 Milliarden Parametern „schnell und kostengünstig“ Bilder. „Stable Image Core ist optimiert für die schnelle und erschwingliche Generierung von Bildern und ideal für die schnelle Iteration von Konzepten während der Ideenfindung“, schreibt der Anbieter. Es ist aber offenkundig für Textgestaltung und mittelgutes Rendering besser geeignet als seine Vettern und auch breiter einsetzbar.

Ein besonderer Service erlaube es, auch ohne Prompt-Engineering qualitativ hochwertige Images in verschiedenen Stilen zu erzeugen. Zu den Funktionen gehören ein verbessertes Szenenlayout, einschließlich Objektplatzierung, Vielseitigkeit und Lesbarkeit in verschiedenen Größen und Anwendungen. Die Anwendungsbereiche sind die gleichen wie bei den anderen Modellen.

Alle drei aktuellen Modelle haben den gleichen Haken: Es gibt sie nur in Englisch und ohne die Fähigkeit zur Feinabstimmung. Das Feintuning lässt sich aber ebenso in Frameworks wie Amazon Bedrock realisieren, ebenso die Absicherung mithilfe von Amazon GuardRails und die Erweiterung mithilfe von Amazon KnowledgeBases. Wie sich der Einsatz innerhalb von Bedrock praktisch realisieren lässt, demonstriert ein Blog anhand von Code-Beispielen.

Der Anwender Stride

Stride Learning ist ein privates US-Bildungsinstitut, das landesweit Ausbildungskurse für unterschiedliche Gruppen anbietet und durchführt. Seit 20 Jahren tätig, bildet Stride derzeit 30.000 Studierende aller Altersklassen in 3.500 Kursen aus. In der Tochterfirma „TechElevator“ werden neun von zehn angehenden Programmierern aufgrund ihres Abschlusses übernommen. Ähnlich erfolgreich sind Absolventen der Tochterfirma „MedCerts“ für das Gesundheitswesen.

Zusammen mit Amazon Bedrock und AWS nutzt Stride nach Angaben von Strides Product Owner Nicolette Han Stability-AI-Modelle, um originäre, aber „sichere“ Illustrationen zu Kinderbüchern und eigenen Geschichten erzeugen zu lassen – „Sicherheit“ im Hinblick auf das Fehlen von Halluzinationen, Beleidigungen und auf die jeweilige Altersfreigabe. Die erzeugten Bilder werden in eine sogenannte „Bibliothek der Legenden“ übernommen. In einem kurzen Video beschreibt Nicolette Han das Projekt genauer.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

(ID:50261723)