Definition Was ist VALL-E?
Anbieter zum Thema
VALL-E ist der Name einer von Microsoft entwickelten Künstlichen Intelligenz (KI), mit der sich menschliche Stimmen nachahmen lassen. Auf Basis von kurzen, nur drei Sekunden langen Sprachproben imitiert VALL-E Stimmlage, Klangfarbe und emotionalen Ton einer Person und spricht beliebige Texte mit ihrer Stimme. Auch die akustische Umgebung der Sprachprobe wird nachgeahmt. Aufgrund des großen Missbrauchspotenzials von VALL-E gibt Microsoft die KI derzeit nicht für die öffentliche Nutzung frei.

Unter dem Namen VALL-E hat Microsoft eine Künstliche Intelligenz entwickelt, die in der Lage ist, Stimmen bestimmter Personen nachzuahmen und beliebige Texte mit deren Stimme zu sprechen. Die Stimmen-KI imitiert auf Basis einer nur drei Sekunden langen Sprachprobe die Stimmlage, die Klangfarbe und den emotionalen Ton eines Sprechers beziehungsweise einer Sprecherin. Auch die akustische Umgebung (zum Beispiel die eines Telefongesprächs) wird nachgeahmt.
Der Name VALL-E ist an die bildergenerierende Künstliche Intelligenz DALL-E von OpenAI angelehnt. Microsoft zählt zu den wichtigsten Geldgebern von OpenAI und bezeichnet VALL-E als ein Text-to-Speech-KI-Modell (TTS-Modell). Durch die Automatisierung von gesprochenem Text bieten sich für VALL-E viele Anwendungsmöglichkeiten, beispielsweise im Bildungsbereich, im Marketing, im Kundenservice, in der Unterhaltungsbranche und in zahlreichen weiteren Bereichen. Die Stimmen-KI hat aber auch ein großes Missbrauchspotenzial und ist beispielsweise für das Erstellen bösartiger oder irreführender Audioinhalte, für Deepfakes, für die Täuschung von Stimmerkennungssystemen und andere nicht erwünschte Aktivitäten einsetzbar. Aufgrund des großen Missbrauchspotenzials hat Microsoft das Text-to-Speech-KI-Modell derzeit nicht für eine öffentliche Nutzung und freies Experimentieren freigegeben.
Auf der Internetseite valle-demo.github.io sind zahlreiche Audiobeispiele und Samples veröffentlicht, die die Fähigkeiten von VALL-E verdeutlichen sollen. Die Beispiele beinhalten kurze Sprachproben einzelner Personen, einen von der jeweiligen Person als Vergleichsprobe gesprochenen Satz und die von VALL-E auf Basis der Sprachprobe erzeugte Ausgabe. Auch VALL-E-Beispiele mit verschiedenen Emotionen einer Stimme und Sprachbeispiele herkömmlicher Text-zu-Sprache-Syntheseverfahren werden auf der Demo-Webseite bereitgestellt.
Prinzipielle Funktionsweise und Training von VALL-E
VALL-E ist ein neuronales Codec-Sprachmodell, das auf einer von Meta entwickelten Technologie mit der Bezeichnung EnCodec aufbaut. Im Vergleich zu einigen anderen TTS-Modellen synthetisiert VALL-E die Sprache nicht durch Manipulationen von Wellenformen. Zunächst wird analysiert, wie eine Person spricht. Mithilfe der EnCodec-Technologie lassen sich Stimmen in Token (diskrete Komponenten) zerlegen, die die jeweilige Stimme charakterisieren. Aus diesen Token lässt sich für eine beliebige Texteingabe die Stimme später wieder synthetisieren. Um zu bestimmen, wie die Stimme klingt, wenn sie anderen Text als im Sprachbeispiel spricht, zieht VALL-E das im Pretraining erworbene Wissen heran. Mithilfe dieses Wissens und einer drei Sekunden langen Sprachprobe generiert VALL-E korrespondierende akustische Token und synthetisiert den zu sprechenden neuen Text mit dem neuronalen Codec-Decoder.
Im Pretraining wurde VALL-E mit mehr als 60.000 Stunden Audiodateien in englischer Sprache von über 7.000 Sprecherinnen und Sprecher gefüttert. Die Trainingsdaten enthalten vor allem frei zugängliche Hörbücher und stammen aus dem Datensatz LibriLight des Facebook-Mutterkonzerns Meta.
Einsatzmöglichkeiten der Stimmen-KI VALL-E
Die KI VALL-E bietet eine Vielzahl an Einsatzmöglichkeiten in verschiedenen Bereichen. Beispielsweise lassen sich Nachrichten in Textform automatisiert in gesprochene Nachrichten beliebiger Sprecherinnen und Sprecher verwandeln. VALL-E ist auch in der Film- und Animationsindustrie einsetzbar und kann Stimmen von bestimmten Schauspielern imitieren. Ein weiterer denkbarer Anwendungsbereich ist die Sprachsynthese für Menschen mit Spracheinschränkungen. Einsatzmöglichkeiten ergeben sich zudem im Bildungsbereich (zum Beispiel beim Lernen von Sprachen), bei der Produktion von Podcasts und Hörbüchern, im Marketing oder im Kundendienst. In Verbindung mit Chatbots wie ChatGPT lässt sich der von einem Chatbot produzierte Text-Output in von einer beliebigen Person gesprochene Sprache umwandeln.
Missbrauchspotenzial und Risiken durch die Verwendung von VALL-E
Die Verwendung von VALL-E birgt aber auch ein großes Missbrauchspotenzial und viele Risiken. Zu diesen zählen zum Beispiel:
- Erstellen von bösartigen oder irreführender Audioinhalten
- Nutzung für politische Propaganda- und Desinformationskampagnen
- Erstellen von Deepfakes
- Täuschen (Spoofen) von Spracherkennungssystemen
- Verbreiten von Fehlinformationen und Fake News
- Telefonanrufe für betrügerische Zwecke oder Phishing-Angriffe unter Zuhilfenahme von Stimmen persönlich bekannter Personen
- Einsatz für Belästigung und Cybermobbing
Aufgrund des erkannten großen Missbrauchspotenzials gibt Microsoft VALL-E derzeit nicht für die Öffentlichkeit frei. Die KI kann nicht wie beispielsweise der OpenAI-Chatbot ChatGPT einfach von jedermann genutzt werden. Darüber hinaus arbeitet Microsoft an Erkennungsmodellen, mit denen sich zweifelsfrei nachweisen lässt, ob eine Audiodatei von einer KI wie VALL-E synthetisiert wurde.
(ID:49404222)