Definition Was ist Jukebox OpenAI?

Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

Jukebox ist eine Künstliche Intelligenz (KI) des gemeinnützigen Forschungsunternehmens OpenAI. Sie generiert Musik inklusive Gesang. Als Vorgaben genügen Jukebox eine Stilrichtung, Liedtexte oder Künstler. Die KI basiert auf einem Künstlichen Neuronalen Netzwerk (KNN), das mit über einer Million Musikstücken trainiert wurde.

Firmen zum Thema

(Bild: © aga7ta - stock.adobe.com)

Jukebox ist der Name einer vom gemeinnützigen Forschungsunternehmen OpenAI entwickelten und kostenlos bereitgestellten Künstlichen Intelligenz zum Erstellen von Musikstücken inklusive Gesang. OpenAI beschäftigt sich mit der Erforschung Künstlicher Intelligenz mit dem Ziel, Vorteile für die Gesellschaft zu generieren. Zu den Geldgebern von OpenAI zählen unter anderem Elon Musk und das Unternehmen Microsoft. Patente und Forschungsergebnisse von OpenAI sind für die Öffentlichkeit allgemein zugänglich. Ein weiteres bekanntes Projekt von OpenAI ist der Generative Pretrained Transformer (GPT) in seinen Generationen GPT-1, GPT-2 und GPT-3. Er ist in der Lage, selbstständig Texte zu erstellen.

Jukebox von OpenAI generiert Instrumentalmusik oder Musikstücke mit Gesang in vielen verschiedenen Stilrichtungen wie Pop, Rock, Reggae oder Blues. Als Vorgabe für die Erstellung der Musikstücke genügen der Künstlichen Intelligenz Stilrichtungen, Liedtexte oder Künstler. Darüber hinaus ist Jukebox in der Lage, angefangene Musikstücke fertigzustellen. Die KI basiert auf einen Künstlichen Neuronalen Netzwerk (KNN), das mit circa 1,2 Millionen Musikstücken trainiert wurde. Die Hälfte dieser Musikstücke hatte englische Texte. Neben den Musikstücken selbst wurden dem Künstlichen Neuronalen Netzwerk auch Metadaten wie die Namen der Künstler, die Stilrichtungen oder die Veröffentlichungsdaten zugeführt.

Hoher Zeitaufwand

Das Generieren der Musikstücke mit Jukebox ist ein rechenaufwendiger Vorgang und nimmt einiges an Zeit in Anspruch. Ein Minute Musik benötigt circa neun Stunden an Rechenzeit. Auf der Webseite von Jukebox OpenAI haben die Entwickler zahlreiche Beispiele von Musikstücken veröffentlicht, die mit der Künstlichen Intelligenz generiert wurden.

Jukebox steht jedem zur Nutzung zur Verfügung. Beispielsweise lässt sich ein Jupyter Notebook von Google Colab verwenden, um mit Jukebox zu experimentieren. Das Jupyter Notebook läuft beispielsweise auf einer virtuellen Maschine oder auf einem Google-Server.

Möglichkeiten von Jukebox

Jukebox bietet eine Vielzahl an Möglichkeiten zur Erstellung von Musikstücken. Gibt man der KI als Vorgaben einen neuen im Training noch nicht bekannten Text sowie einen Künstler oder eine Stilrichtung vor, generiert Jukebox ein neues Musikstück, das sich am jeweiligen Genre oder am Künstler orientiert. Darüber hinaus kann Jukebox auf Basis eines bereits bekannten Musikstücks und Liedtextes eine völlig neue Version eines Songs erzeugen. Eine weitere Funktion von Jukebox ist die Fertigstellung eines angefangenen Musikstücks. Nach Vorgabe eines Samples mit einigen Sekunden des Musikstücks führt die Künstliche Intelligenz dieses im jeweiligen Stil fort. Von OpenAI Jukebox beherrschte Musikstile sind beispielsweise Hip Hop, Rock, Pop, Blues, Country Music, Jazz, Heavy Metal, Rhythm and Blues (R&B) oder Reggae.

Beispielablauf der Musikerstellung mit Jukebox OpenAI

Das Generieren von Musikstücken mit Jukebox von OpenAI kann beispielsweise folgendermaßen ablaufen:

  • Vorgabe von Künstler und Stilrichtung
  • Vorgabe eines Liedtextes
  • Jukebox generiert innerhalb weniger Minuten einige kurze Beispiel-Samples
  • Auswahl eines Beispiel-Samples, das den eigenen Vorstellungen entspricht
  • Fertigstellung des ausgewählten Samples durch Jukebox (dauert abhängig von der Länge des zu generierenden Musikstücks bis zu mehreren Stunden)

Die prinzipielle Funktionsweise von Jukebox OpenAI

Die Künstliche Intelligenz von Jukebox basiert auf einem mit circa 1,2 Millionen Musikstücken verschiedener Künstler und Genres trainierten Künstlichen Neuronalen Netzwerk. Auch Metadaten wie Künstlernamen, Stilrichtung, Veröffentlichungsdaten oder Stimmungen wurden der KI im Training zugeführt. Auf diese Weise wurde das KNN in der Trainingsphase auf die verschiedenen Künstler und Genres konditioniert. Zusätzlich zur Konditionierung auf Künstler und Genres fand eine Konditionierung des KI-Modells auf Texte statt. Jukebox nutzt Transformator-Funktionen sowie Downsampling und Upsampling zur Erstellung der Raw-Audio-Musikstücke.

Einschränkungen

Auch wenn sich beim Erstellen von Musikstücken mit Jukebox OpenAI erstaunliche Ergebnisse erzielen lassen, weist die Künstliche Intelligenz einige deutliche Einschränkungen auf. So besitzen die erzeugten Musikstücke zwar eine lokale musikalische Kohärenz und folgen traditionellen Akkordmustern, allerdings fehlen grundlegende Strukturen in den Songs wie Refrains. Darüber hinaus entsteht durch das Down- und Upsampling ein deutlich wahrnehmbares Rauschen im Raw Audio. Eine weitere Einschränkung ist die lange Rechenzeit für das Rendern von wenigen Minuten Musik. Ein Einsatz in interaktiven Anwendungen ist daher noch ausgeschlossen. Aufgrund des Trainings mit überwiegend englischsprachiger Musik und westlichen Musikstilen ist die Musikgenerierung in diese Richtung eingeschränkt.

(ID:47432663)

Über den Autor