Definition Was ist Amazon Transcribe?

Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

Amazon Transcribe ist ein im Rahmen der Amazon Web Services erbrachter Cloud-Dienst, mit dem sich Sprache in Text umwandeln lässt. Er verwendet die auf Deep Learning basierende Automatic-Speech-Recognition-Technologie und beherrscht verschiedene Sprachen. Die Nutzung des Services ist im Batch- und im Streaming-Modus möglich. Speziell für die Transkription medizinischer Sprachaufzeichnungen steht Amazon Transcribe Medical zur Verfügung.

Firma zum Thema

(Bild: © aga7ta - stock.adobe.com)

Unter der Produktbezeichnung Amazon Transcribe bietet Amazon einen Cloud-Dienst zur automatischen Umwandlung von Sprache in Text an. Der Dienst wird im Rahmen der Amazon Web Services (AWS) erbracht und ist voll gemanagt. Zur Umwandlung des Textes nutzt der Service die auf Deep Learning basierende Automatic-Speech-Recognition-Technologie (ASR-Technologie). Einsetzbar ist der Service in verschiedenen Bereichen. Typische Anwendungen sind Transkriptionen von Kundenservicetelefonaten oder das Generieren von Untertiteln für Video- oder Audioaufnahmen in Echtzeit.

Je nach Anwendung bietet Amazon Transcribe mit einer Batch-API und einer Streaming-API verschiedene Betriebsarten. Der Service unterstützt zahlreiche verschiedene Sprachen, darunter auch Deutsch. Im Streaming-Modus ist die Auswahl verfügbarer Sprachen geringer als im Batch-Modus. Speziell für die Transkription medizinischer Sprachaufzeichnungen wie medizinische Diktate und für klinische Anwendungen steht mit Amazon Transcribe Medical ein für diese Art von Texten optimierter Cloud-Service zur Verfügung. Das Machine-Learning-Modell von Amazon Transcribe Medical wurde mit einer Vielzahl medizinischer Texte trainiert.

Das Pricing für Amazon Transcribe ist nutzungsabhängig. Es fallen weder Mindestgebühren noch Vorabkosten an. Die zu zahlenden Preise sind von der Zeit in Sekunden der zu transkribierenden Sprache abhängig. Sonderfunktionen, wie die automatische Redaktion von Inhalten oder benutzerdefinierte Sprachmodelle, verursachen zusätzliche Kosten. Für den Einstieg in den Service und für Testzwecke ist in den ersten zwölf Monaten der Nutzung ein definiertes monatliches Freikontingent nutzbar.

Funktionsweise und Funktionsumfang

Amazon Transcribe nutzt zur Umwandlung von Sprache in Text Verfahren der Künstlichen Intelligenz (KI) und des Deep Learnings (DL). Nutzbar ist der Service über die Konsole, über das Command Line Interface oder über die bereitgestellte API. Für die Integration des Transkriptionsdienstes in eigene Anwendungen stehen Software Development Kits (SDKs) für verschiedene Programmiersprachen zur Verfügung. Neben der Transkription von Audio- oder Videodateien im Batch-Modus beherrscht Amazon Transcribe den Streaming-Modus für die Umwandlung von Sprache in Echtzeit. Anwender senden einen Audiostream beispielsweise in linearer PCM-Enkodierung an den Service und erhalten einen Textstream zurück. Dank intelligenter Funktionen liefert Amazon Transcribe die Interpunktion und Formatierung der Texte mit aus. Für jedes transkribierte Wort stellt der Service einen Zeitstempel bereit, anhand dessen es sich im Ausgangsmaterial wiederfinden lässt. Für die korrekte Transkription spezifischer Wörter oder Ausdrücke wie Produktnamen oder technische Begriffe kann der Anwender ein benutzerdefiniertes Vokabelverzeichnis anlegen.

Darüber hinaus ist es möglich, Wörter festzulegen, die Amazon Transcribe aus den transkribierten Texten entfernt. Amazon Transcribe erkennt, wenn der Sprecher wechselt, und liefert entsprechende Textattribute aus. Nützlich ist dieses Feature beispielsweise für die Transkription von Telefongesprächen. Enthält das zu transkribierende Material verschiedene Sprachen, identifiziert Amazon Transcribe automatisch die dominierende Sprache. Ein weiteres Leistungsmerkmal des Services ist, dass sich personalisierbare Daten zur Einhaltung von Datenschutzvorgaben aus den transkribierten Texten entfernen lassen. Beispiele für solche Daten sind Namen, E-Mail-Adresse, Telefonnummern oder Kontodaten. Bei Bedarf können Anwender ein eigenes Custom Language Model (CLM) für Amazon Transcribe trainieren und verwenden.

Amazon Transcribe ist in die AWS-Welt integriert und lässt sich zusammen mit anderen Amazon-Cloud-Diensten wie Amazon Translate, Amazon Polly, Amazon Elasticsearch oder Amazon Comprehend verwenden. So sind beispielsweise Anwendungen mit Spracheingaben realisierbar, die die Eingaben transkribieren, in eine andere Sprache übersetzen und als Sprachausgabe in der übersetzten Sprache wiedergeben.

Vorteile von Amazon Transcribe

Einige typische Vorteile von Amazon Transcribe sind:

  • von Amazon voll gemanagter Cloud-Service – weder eigene IT-Infrastruktur noch Investitionen in Hard- oder Software notwendig
  • vielfältig über Konsole, Command Line Interface oder API nutzbar
  • beherrscht den Batch- und den Streaming-Modus
  • Transkription von Sprache mit hoher Performance in Echtzeit
  • transkribiert Sprache mit hoher Genauigkeit und Zuverlässigkeit
  • automatisches Hinzufügen von Interpunktion und Formatierung
  • mit Amazon Transcribe Medical ein spezieller Service für medizinische Texte verfügbar
  • für zahlreiche verschiedene Sprachen einsetzbar
  • liefert Metadaten wie Zeitstempel zum transkribierten Text
  • erkennt den Sprecherwechsel selbstständig
  • kontinuierliche Verbesserung des Services dank Künstlicher Intelligenz und Deep Learning
  • eigenes Custom Language Model (CLM) trainierbar und nutzbar
  • benutzerdefiniertes Vokabular einsetzbar
  • nutzungsabhängiges Pricing – weder Mindestgebühren noch Vorableistungen sind zu zahlen
  • in die AWS-Welt integriert und zusammen mit anderen Amazon-Services nutzbar
  • Einhaltung von Datenschutzvorgaben durch Entfernen von personalisierbaren Daten umsetzbar

(ID:47496214)

Über den Autor