Was ist Amazon Polly?

Definition Was ist Amazon Polly?

07.07.2021Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

Amazon Polly ist ein im Rahmen der Amazon Web Services erbrachter, voll verwalteter Cloud-Dienst, mit dem sich Text in natürliche Sprache umwandeln lässt. Der Service nutzt die auf Deep Learning basierende neuronale Text-to-Speech-Technologie (NTTS). Amazon Polly beherrscht zahlreiche Sprachen und stellt unterschiedliche männliche oder weibliche Stimmen mit verschiedenen Sprachstilen zur Verfügung.

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

Tableau von Salesforce

QUNIS GmbH

Amazon Polly ist der Name eines im Rahmen der Amazon Web Services (AWS) angebotenen Cloud-Dienstes. Er wird von Amazon voll gemanagt und wandelt Text in natürlich klingende, lebensechte Sprache um. Amazon stellte den Service im Jahr 2016 vor. Amazon Polly macht Gebrauch von Neural-Text-to-Speech-Technologien (NTTS) auf Basis des Deep Learnings, um synthetisierte Sprache in realistischer Qualität zu generieren. Es werden zahlreiche Sprachen, unterschiedliche männliche oder weibliche Stimmen und verschiedene Sprachstile wie der Nachrichtensprachstil oder der Dialogsprachstil unterstützt. Darüber hinaus erstellt Amazon für eine Organisation auf Anfrage individuelle, benutzerdefinierte Stimmen.

Amazon Polly ist für viele Anwendungsbereiche wie im E-Learning, im Presse- und Verlagsumfeld oder für den telefonischen Kundensupport einsetzbar und arbeitet mit weiteren Amazon Web Services wie Amazon Lex zusammen. Das Pricing für Amazon Polly ist nutzungsbasiert. Die Kosten sind von der Anzahl der Textzeichen, die in Sprache oder in Sprach-Metadaten umgewandelt werden, und von der Verwendung von Neuralstimmen abhängig. Mit Polly generierte Sprachaufzeichnungen sind unbegrenzt wiederabspielbar. Für den Einstieg in Amazon Polly und das Testen des Text-to-Speech-Services steht in den ersten zwölf Monaten der Nutzung ein kostenloses Kontingent für das Konvertieren von Text in Sprache zur Verfügung.

Funktionsumfang von Amazon Polly

Die Sprachsynthese ist über eine API, die Amazon Management-Konsole oder per Command Line Interface (CLI) möglich. Programmiersprachen des AWS Software Development Kits wie PHP, Python, Ruby, Go, C++, Java, Node.js oder .NET werden unterstützt. Um die Umwandlung von Text in natürliche Sprache in eigene Anwendungen zu integrieren, ist das Amazon Polly Application Programming Interface (API) nutzbar. Zu konvertierender Text wird über die API an Polly übergeben. Amazon Polly liefert einen direkt abspielbaren Audiostream in Echtzeit zurück, der sich bei Bedarf in Audioformaten wie MP3 speichern lässt.

Sprachrate, Lautstärke und Tonhöhe der gesprochenen Sprache sind über die standardisierte und auf XML basierende Auszeichnungssprache Speech Synthesis Markup Language (SSML) anpassbar. Auch die Abtastraten und damit die Tonqualität der Sprache sind wählbar. Zusätzlich ist es möglich, mit speziellen Amazon-SSML-Tags den Sprachstil zu beeinflussen. Zusammen mit dem Audiostream liefert Amazon Polly Metadaten aus. Diese Metadaten beschreiben beispielsweise, wann ein Wort oder ein Satzelement des Eingabetextes gesprochen wird und welches Mundbild dem gesprochen Laut entspricht.

Mithilfe dieser Informationen lassen sich sprachsynchronisierte Anwendungen wie Animationen mit synchronisierten Lippenbewegungen oder Texthervorhebungen im Karaoke-Stil realisieren. Die sogenannten Speech Marks werden in einem JSON-Streams bereitgestellt. Über benutzerdefinierte Lexika kann Amazon Polly Wörter wie Produktbezeichnungen, Firmennamen oder Fremdwörter in der gewünschten Form aussprechen.

Zu den besonderen Funktionen von Amazon Polly zählt die Möglichkeit, neben den Standardstimmen die in der Sprachqualität und Natürlichkeit verbesserten Neural-Text-to-Speech-(NTTS)-Stimmen zu verwenden. Die NTTS-Technologie unterstützt verschiedene Sprachstile wie den Nachrichtensprachstil oder den freundlichen Dialogsprachstil. In einem kundenspezifischen Auftrag erstellt Amazon eine benutzerdefinierte Stimme für eine Organisation, die exklusiv nur für diese nutzbar ist.

Zu den von Amazon Polly unterstützten Sprachen zählen Arabisch, Brasilianisches Portugiesisch, Britisches Englisch, US-amerikanisches Englisch, Indisches Englisch, Walisisches Englisch, Kanadisches Französisch, Dänisch, Deutsch, Französisch, Hindi, Niederländisch, Isländisch, Italienisch, Japanisch, Koreanisch, Polnisch, Norwegisch, Walisisch, Mandarin-Chinesisch, Iberisches Portugiesisch, Rumänisch, Russisch, Schwedisch, Türkisch, Kastilisches Spanisch, Europäisches Spanisch, Mexikanisches Spanisch und US-amerikanisches Spanisch. Mit Amazon Polly generierte Sprache ist in Dateiformaten wie MP3 oder OGG speicherbar und lässt sich von einem lokalen Datenträger oder aus der Cloud wiedergeben.

Der Cloud-Service Polly ist in die AWS-Welt integriert und arbeitet mit anderen Services von Amazon zusammen. Beispielsweise lässt sich Polly mit dem Konversationsschnittstellenservice für Sprache und Text Amazon Lex oder dem Call- und Contact-Center-Service Amazon Connect kombinieren. Im Zusammenspiel mit Amazon Translate werden gesprochene Übersetzungen möglich.

Die Vorteile von Amazon Polly

Der Einsatz des Cloud-Dienstes Amazon Polly bietet zahlreiche Vorteile wie:

natürlich und realistisch klingende Sprachausgabe

vielseitig nutzbar über Command Line Interface, Management-Konsole oder API

Sprachumwandlung mit kurzer Latenzzeit quasi in Echtzeit

Unterstützung zahlreicher Sprachen

verschiedene Stimmen verfügbar

verschiedene Sprachstile verfügbar

mithilfe der NTTS-Technologie optimierte Stimmen und Sprachstile verfügbar

benutzerdefinierte Sprachen für die exklusive Nutzung durch eine Organisation auf Anfrage erstellbar

voll in die AWS-Welt integriert – zusammen mit weiteren AWS-Diensten nutzbar

nutzungsabhängiges Preismodell – keine Vorabzahlungen oder Mindestgebühren fällig

kostenloses Kontingent für den Einstieg und das Testen von Amazon Polly verfügbar

voll von Amazon verwalteter Cloud-Service – keine eigene Infrastruktur oder Investitionen in Hard- und Software notwendig

erstellte Sprachausgaben in verschiedenen Dateiformaten speicherbar und beliebig abspielbar

mit den über den Sprachstream ebenfalls bereitgestellten Metadaten sind sprachsynchronisierte Anwendungen und Animationen realisierbar

(ID:47490369)