Definition Was ist ein Variational Autoencoder?

Von Dipl.-Ing. (FH) Stefan Luber 3 min Lesedauer

Anbieter zum Thema

Der Variational Autoencoder (VAE) ist eine künstliche neuronale Netzwerkarchitektur. Im Gegensatz zum einfachen Autoencoder ist er in der Lage, neue Inhalte zu erzeugen. Der generative KI-Algorithmus lernt un- beziehungsweise selbstüberwacht, die Dimensionen der Eingabedaten zu reduzieren. Er verwendet als interne Repräsentation eine Parametrisierung einer Wahrscheinlichkeitsverteilung. Aus Stichproben dieser Verteilung im latenten Raum kann der VAE neue Inhalte generieren.

(Bild:  © aga7ta - stock.adobe.com)
(Bild: © aga7ta - stock.adobe.com)

Die Abkürzung für Variational Autoencoder ist VAE. Der Variational Autoencoder ist eine vom Autoencoder inspirierte Architektur eines künstlichen neuronalen Netzwerks. Im Gegensatz zum einfachen Autoencoder handelt es sich beim Variational Autoencoder aber um einen KI-Algorithmus mit generativen Fähigkeiten, der neue Inhalte erzeugen kann.

Veröffentlicht wurde der VAE von Diederik P. Kingma und Max Welling in einem Paper mit dem Titel „Auto-Encoding Variational Bayes“ im Jahr 2013. Wie der Autoencoder lernt der VAE die Dimensionen der Eingabedaten zu reduzieren. Er schafft eine interne Repräsentation der Eingabedaten in Form einer Wahrscheinlichkeitsverteilung. Nach dem un- beziehungsweise selbstüberwachten Training ist der VAE in der Lage, aus Stichproben der Wahrscheinlichkeitsverteilung im latenten Raum auch neue Inhalte wie Texte, Bilder oder Videos zu generieren.

In ihrer Veröffentlichung zeigen Diederik P. Kingma und Max Welling, wie sich der KI-Algorithmus einsetzen lässt, um beispielsweise realistisch aussehende neue Gesichter oder handgeschriebene Ziffern zu generieren. Mittlerweile existieren zahlreiche Weiterentwicklungen des ursprünglichen Algorithmus mit verbesserter Leistung. Auch wenn in aktuellen generativen KI-Modellen neuere Architekturen und Algorithmen wie Transformer, GANs oder Diffusionsmodelle und andere zum Einsatz kommen, so ist die generelle Funktion des Variational Autoencoders in die Architektur vieler generativer KI-Modelle auf die ein oder andere Art und Weise mit eingeflossen.

Grundprinzip eines Autoencoders

Der VAE basiert auf dem Grundprinzip eines Autoencoders. Für ein besseres Verständnis des Variational Autoencoders wird zunächst die prinzipielle Funktionsweise des Autoencoders erklärt. Ein Autoencoder ist ein künstliches neuronales Netz, das lernt, die wesentlichen Merkmale der Eingabedaten zu extrahieren und eine komprimierte Repräsentation dieser Daten erstellen. In dieser Repräsentation sind die Dimensionen der Eingabedaten reduziert.

Im Wesentlichen besteht ein Autoencoder aus zwei Hauptkomponenten: einem Encoder und einem Decoder. Sie werden per selbst- beziehungsweise unüberwachtem Lernen trainiert. Vereinfacht dargestellt läuft das Training eines Autoencoders folgendermaßen ab: Ungelabelte Eingabedaten (Trainingsdaten) laufen durch den Encoder, der sie analysiert, die wichtigsten Informationen extrahiert und sie als Vektoren mit einer bestimmten Anzahl an Variablen im latenten Raum kodiert. Der Decoder versucht aus den Vektoren die ursprünglichen Daten wieder zu rekonstruieren. Die vom Decoder rekonstruierten Daten werden mit den Eingabedaten verglichen. Durch Backpropagation (Fehlerrückführung) werden die Parameter des neuronalen Netzwerks so lange optimiert, bis aus der dimensionsreduzierten Repräsentation eine den Eingabedaten möglichst ähnliche Rekonstruktion der Daten möglich ist. Der Lernvorgang läuft eigenständig und ohne menschliche Aufsicht ab.

Autoencoder lassen sich beispielsweise einsetzen, um Bilder zu klassifizieren, Rauschen aus Eingabedaten zu entfernen oder Daten auszufiltern wie eine Stimme oder ein Instrument aus einer Audioaufnahme.

Die Funktionsweise des Variational Autoencoders

Auch der Variational Autoencoder besteht aus den beiden Hauptkomponenten Encoder und Decoder, die gemeinsam trainiert werden. Der wesentliche Unterschied zwischen Autoencoder und VAE besteht darin, dass die dimensionsreduzierte Darstellung der Eingabedaten im latenten Raum nicht aus einer einfachen Vektordarstellung besteht, sondern auch eine Wahrscheinlichkeitsverteilung ist. Der Encoder liefert quasi zwei Vektoren: einen Mittelwert der latenten Raumverteilung und die Standardabweichung der latenten Raumverteilung. Im Gegensatz zu einem einfachen Autoencoder ist der VAE dadurch in der Lage, nicht nur die ursprünglichen Input-Daten zu rekonstruieren. Er kann aus bestimmten Stichproben der Wahrscheinlichkeitsverteilung einen neuen Vektor erzeugen und neue Inhalte generieren, indem dieser Vektor in den Decoder eingespeist wird.

Im latenten Raum lassen sich zudem arithmetische Berechnungen wie die Addition oder die Subtraktion von Vektoren durchführen. So kann aus den Repräsentationen zweier Eingabedaten eine neue Kombination dieser Daten erzeugt werden. Beispiel hierfür ist das Verschmelzen zweier Gesichter zu einem neuen Gesicht. Auch der Variational Autoencoder lernt selbst- beziehungsweise unüberwacht, indem er den rekonstruierten Output mit dem ursprünglichen Input vergleicht. Durch Anwendung eines sogenannten Reparametrisierungstricks werden die Parameter des neuronalen Netzes und die Gewichtungen der Neuronen über Backpropagation optimiert.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Typische Anwendungen des Variational Autoencoders

Der Variational Autoencoder lässt sich für verschiedene Anwendungen einsetzen. Beispiele für solche Anwendungen sind:

  • Entfernen von Rauschen oder Wasserzeichen aus Bildern, Videos oder Audiodaten
  • Generieren neuer Bilder wie neue Gesichter oder Personen
  • Erstellen von neuen Empfehlungen auf Basis des Nutzerverhaltens
  • Anomalieerkennung (zum Beispiel Erkennen von Finanzbetrug oder von außergewöhnlichem oder gefährlichem Netzwerkverkehr)
  • industrielle Qualitätskontrollen
  • Entwicklung neuer Materialien oder chemischer Verbindungen
  • zur Auswertung von CT- oder Kernspin-Bildern oder zur Entwicklung personalisierter Medikamente

(ID:49790896)