Definition Was ist OpenAI Whisper?

Von Dipl.-Ing. (FH) Stefan Luber Lesedauer: 4 min

Anbieter zum Thema

Whisper ist ein Spracherkennungssystem von OpenAI. Es basiert auf einem KI-Modell mit Encoder-Decoder-Transformer-Architektur und ist als Open-Source-Modell frei verfügbar. Das System wurde mit vielen tausend Stunden Sprachmaterial trainiert und kann in fünf verschiedenen Modellgrößen heruntergeladen und auf einem lokalen Rechner genutzt werden. Mittlerweile existiert auch eine API zu einer gehosteten Version von Whisper, deren Nutzungskosten sich nach Transkriptionslänge berechnen.

(Bild: © aga7ta - stock.adobe.com)

Whisper ist der Name eines im Jahr 2022 von OpenAI veröffentlichten automatischen Spracherkennungssystems (Automatic Speech Recognition System – ASR-System) mit Künstlicher Intelligenz. Es steht als Open Source Software auf GitHub frei zur Verfügung und kann kostenlos genutzt werden.

Das Speech-to-Text-Modell basiert auf einer Encoder-Decoder-Transformer-Architektur und wurde mit 680.000 Stunden mehrsprachigen Audiodaten aus dem Internet trainiert. Whisper identifiziert die Eingabesprache des vorliegenden Audiomaterials, führt die Transkription inklusive korrekt gesetzter Satzzeichen in vielen verschiedenen Sprachen durch und übersetzt das transkribierte Material. Das Modell arbeitet mit hoher Genauigkeit und ist robust gegenüber Akzenten, Hintergrundgeräuschen und Fachsprache.

Whisper lässt sich auf eigenen Rechnern oder Servern betreiben und ist in insgesamt fünf verschiedenen Modellgrößen verfügbar. Die Software steht unter MIT-Lizenz und ist eine Open-Source-Alternative zu Google Speech-to-Text. Mittlerweile existiert auch eine API zu einer gehosteten Version von Whisper, deren Nutzungskosten sich nach Transkriptionslänge berechnen.

Fähigkeiten von OpenAI Whisper

OpenAI Whisper ist ein KI-basiertes Automatic Speech Recognition System mit verschiedenen Fähigkeiten. Zu den Fähigkeiten des Modells zählen:

  • das Identifizieren der Eingabesprache
  • das Transkribieren von gesprochenen Text in vielen verschiedenen Sprachen (circa 100 Sprachen)
  • das korrekte Setzen von Satzzeichen
  • das Übersetzen der transkribierten Texte

Die besten Ergebnisse zeigt das Spracherkennungssystem bei Sprache und Text in Englisch, da ein Großteil des Trainingsmaterials ebenfalls aus dem Englischen stammt.

Funktionsweise und Training des Spracherkennungssystems Whisper

Die Architektur des Speech-to-Text-Modells basiert auf einem Encoder-Decoder-Transformer. Audiodaten werden in 30 Sekunden lange Abschnitte aufgeteilt, in ein Spektrogramm übersetzt und dem Encoder übergeben. Im Training wurden die Decoder des Modells darauf trainiert, zu den Spracheingabedaten den passenden Text zu generieren. Das Transformer-basierte Sequence-to-Sequence-Modell beherrscht dank des Trainings verschiedene Sprachverarbeitungsaufgaben. Die von den Decodern vorhergesagten Token-Sequenzen repräsentieren diese Fähigkeiten.

Das Trainingsmaterial besteht aus Audiomaterial aus dem Internet mit zugehörigen Transkriptionen. Es deckt ein breites Spektrum an Sprechern, Aufnahmeumgebungen, Sprachen und Aufnahmeeinstellungen ab. Rund ein Drittel des Datensatzes ist nicht in englischer Sprache.

Aufgrund der Menge an Trainingsmaterial mit vielen tausend Stunden multilingualer und multitaskfähiger Trainingsdaten und deren Diversität sowie einem fehlenden Datensatz-spezifischen Feintuning zeigt Whisper bei unbekannten Datensätzen eine im Vergleich zu anderen Modellen gute Zero-Shot-Leistung. Whisper arbeitet mit geringer Fehlerrate und sehr genau. Das Modell zeigt sich robust gegenüber Akzenten, Hintergrundgeräuschen und Fachsprache.

Verfügbare Modelle

Whisper ist in fünf verschiedenen Modellgrößen mit unterschiedlicher Parameteranzahl auf GitHub verfügbar. Das größte Modell beherrscht mehrere Sprachen, alle anderen nur Englisch. Je nach Größe der Modelle arbeiten sie unterschiedlich schnell und genau. Die Größe des zur Ausführung benötigten VRAM-Speichers variiert mit der Modellgröße. Hier ein Überblick über die fünf verfügbaren Modellgrößen:

  • Tiny: 39 Millionen Parameter, Sprache nur Englisch, benötigter VRAM-Speicher ca. 1 Gigabyte, relative Geschwindigkeit 32-fach
  • Base: 74 Millionen Parameter, Sprache nur Englisch, benötigter VRAM-Speicher ca. 1 Gigabyte, relative Geschwindigkeit 16-fach
  • Small: 244 Millionen Parameter, Sprache nur Englisch, benötigter VRAM-Speicher ca. 2 Gigabyte, relative Geschwindigkeit 6-fach
  • Medium: 769 Millionen Parameter, Sprache nur Englisch, benötigter VRAM-Speicher ca. 5 Gigabyte, relative Geschwindigkeit 2-fach
  • Large: 1,55 Milliarden Parameter, mehrere Sprachen, benötigter VRAM-Speicher ca. 10 Gigabyte, relative Geschwindigkeit 1-fach

Nutzung des Speech-to-Text-Modells Whisper

Whisper ist Open Source Software. Das Modell lässt sich in verschiedenen Größen von GitHub herunterladen und lokal auf einem Rechner oder Server ausführen. Mittlerweile gibt es auch eine kostenpflichtige Whisper API. Sie führt zu einer gehosteten Version des KI-Modells. Die Kosten der Nutzung der API berechnen sich nach Minuten transkribiertem Text.

Mithilfe der API lässt sich Whisper, ohne dass ein eigener Server betrieben werden muss, in eigene Dienste integrieren. Die Whisper-API basiert auf dem gleichen Modell wie die Open-Source-Version und arbeitet aufgrund verschiedener Optimierungsmaßnahmen und der Nutzung leistungsstarker Hardware im Vergleich zu lokal ausgeführten Modellen sehr schnell. Soll das Modell lokal betrieben werden, muss die Whisper-Python-Bibliothek von OpenAI installiert werden. Für eine entsprechende Performance der Transkription ist eine leistungsfähige Hardware mit einer modernen GPU und genügend VRAM-Speicher notwendig.

Vorteile von OpenAI Whisper

  • frei verfügbares, kostenlos nutzbares Open-Source-KI-Modell
  • lässt sich lokal installieren und ausführen
  • Open-Source-Alternative zur Google-Sprache-zu-Text-API
  • erfüllt durch die lokale Ausführung hohe Anforderungen hinsichtlich Datenschutz und Datensicherheit
  • in verschiedenen Modellgrößen nutzbar
  • beherrscht außer Englisch auch andere Sprachen und kann Sprachen ins Englische übersetzen
  • erkennt die Eingabesprache automatisch
  • arbeitet mit hoher Genauigkeit und kann mit verschiedenen Audioformaten und Gesprächsarten umgehen
  • ist robust gegenüber Hintergrundgeräuschen, Akzenten und Fachsprache
  • lässt sich über die Whisper-API auch als gehosteter und voll gemanagter Service (kostenpflichtig) nutzen

(ID:49568912)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung