Definition Was ist Base TTS?

Von Dipl.-Ing. (FH) Stefan Luber 3 min Lesedauer

Anbieter zum Thema

Base TTS ist ein von Amazon entwickeltes Text-to-Speech-Modell mit Künstlicher Intelligenz. Es kann Texte in sehr natürlich klingende synthetische Sprache verwandeln. Texte werden in hoher Qualität ähnlich wie von einem Menschen vorgelesen und korrekt betont. Das Modell besitzt knapp eine Milliarde Parameter und wurde mit rund 100.000 Stunden Copyright-freien Sprachdaten in überwiegend englischer Sprache trainiert.

(Bild:  © aga7ta - stock.adobe.com)
(Bild: © aga7ta - stock.adobe.com)

Base TTS ist der Name für ein von einem Amazon-Team entwickeltes und Anfang 2024 vorgestelltes Text-to-Speech-Modell. Das Kürzel steht für „Big Adaptive Streamable TTS with Emergent abilities“. Base TTS kann Texte sehr natürlich klingend in ähnlicher Qualität wie ein Mensch vorlesen. Das Forschungsteam des US-Konzerns hat seine Arbeit in einer Veröffentlichung mit dem Titel „BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data“ vorgestellt.

Base TTS ist nach Aussage von Amazon mit seinen knapp einer Milliarde Parametern das derzeit größte Text-to-Speech-Modell. Trainiert wurde Base TTS mit rund 100.000 Stunden öffentlich zugänglichen Sprachdaten. In der vorgestellten Arbeit untersuchte das Amazon-Forscherteam auch, welche Anzahl Parameter und wie viele Stunden Trainingsmaterial notwendig sind, um Sprache möglichst realitätsgetreu zu synthetisieren. Das Forscherteam behauptet, dass Base TTS hinsichtlich der Natürlichkeit der Sprache neue Maßstäbe für TTS-Modelle setzt. In Benchmarks schneidet das KI-Modell im Vergleich zu anderen TTS-Modellen vor allem bei emotionalen Aussagen und der korrekten Betonung beim Sprechen sehr gut ab. Hörbeispiele stellt Amazon auf dieser Webseite zur Verfügung: https://www.amazon.science/base-tts-samples/.

Die Hörbeispiele sind in englischer und spanischer Sprache. Das Modell selbst ist derzeit nicht öffentlich zugänglich. Amazon hat diesbezüglich sicherheitstechnische Bedenken. Es soll verhindert werden, dass das Modell aufgrund seiner Fähigkeiten zum Generieren von Fake News oder für anderes missbraucht wird.

Die Funktionsweise von Base TTS

Das Forscherteam informiert in der Veröffentlichung sehr ausführlich über die prinzipielle Funktionsweise des Text-to-Speech-Modells. Die Grundidee des Modells ist – etwas vereinfacht dargestellt – Sprachaufnahmen in diskrete Sprach-Token zu konvertieren und Sprache aus diesen Token auch wieder zu synthetisieren. Ein Speech-Tokenizer lernt Sprachaufnahmen in eine diskrete Repräsentation zu überführen. Diese lässt sich von einem autoregressiven Transformer mit der Bezeichnung SpeechGPT, ähnlich wie in großen Sprachmodellen verwendet, konditioniert auf Text und Referenzsprache modellieren.

Der Transformer ist in der Lage, Texteingaben in entsprechende Speechcodes zu überführen. Ein Decoder wandelt die von SpeechGPT vorhergesagte abstrakte mathematische Sprachrepräsentation (Speechcodes) wieder in Wellenformen um. Als Kodierungstechnik kommt ein neues Verfahren mit Byte-Pair-Encoding für Identifikation und Komprimierung zum Einsatz.

Training von Base TTS und Evaluierung der benötigten Parameteranzahl und Trainingsstunden

Base TTS mit seinen rund einer Milliarde Parametern wurde mit circa 100.000 Stunden Sprachdaten trainiert. Die Copyright-freien Daten stammen aus öffentlich zugänglichen Quellen und bestehen zu 90 Prozent aus englischer Sprache. Die restlichen zehn Prozent sind Sprachdaten in Sprachen wie Deutsch, Spanisch und Niederländisch. Ein Ziel der Arbeit des Amazon-Forschungsteams war es auch herauszufinden, wie viele Parameter das Text-to-Speech-Modell haben muss und wie viele Stunden Sprachmaterial für das Training notwendig sind, um wirklich natürlich klingende Sprache in menschenähnlicher Qualität zu generieren. Zu diesem Zweck schuf das Forscherteam drei verschiedene Modellgrößen. Ein kleines Modell mit 150 Millionen Parametern, ein mittleres Modell mit 400 Millionen Parametern und ein große Modell mit 980 Millionen Parametern.

Das kleine Modell wurde mit 1.000 Stunden Sprachaufnahmen, das mittlere Modell mit 10.000 Stunden Sprachaufnahmen und das große Modell mit 100.000 Sprachaufnahmen trainiert. Die Modelle wurden anschließend einem Benchmark mit diversen Beispielsätzen verschiedener Kategorien unterzogen. Anschließend wurde die Bewertung von Linguisten und mit dem sogenannten MUSHRA-Hörtest (Multi-Stimulus Test with Hidden Reference and Anchor) durchgeführt. Das Forscherteam fand heraus, dass die Menge der Trainingsdaten und die Anzahl der Parameter großen Einfluss auf die Prosodie (Wort- und Satzakzent, Intonation, Satzmelodie, Tempo, Rhythmus und Pausen beim Sprechen und weiteres) der Sprachausgabe des Modells hat.

Erst mit einem Training mit 100.000 Stunden Sprachaufnahmen und bei einer Modellgröße von 980 Milliarden Parametern klingt die Sprachsynthese des Modells wirklich natürlich. Das Modell konnte sogar Sätze mit Fremdwörtern, Sonderzeichen und paralinguistischen Sounds korrekt wiedergeben. Laut Amazon bewältigte Base TTS auch Aufgabenstellungen mit Satztypen, für die das Modell überhaupt nicht speziell trainiert wurde.

(ID:49959841)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung