Definition Was ist EnCodec?

Von Dipl.-Ing. (FH) Stefan Luber Lesedauer: 3 min |

Anbieter zum Thema

EnCodec ist ein von Meta entwickelter Audio-Codec. Er verwendet Verfahren der Künstlichen Intelligenz und erzielt ein hohes Komprimierungsverhältnis. Im Vergleich zu MP3 erreicht er bei vergleichbarer Qualität eine bis zu zehnfach höhere Komprimierungsrate. EnCodec unterstützt sowohl Mono-Audio mit 24 kHz als auch Stereo-Audio mit 48 kHz. Der Code von EnCodec steht auf GitHub frei zur Verfügung.

(Bild: © aga7ta - stock.adobe.com)

EnCodec ist der Name eines von Meta entwickelten Audio-Codecs. Er wurde im Jahr 2022 veröffentlicht und im Paper „High Fidelity Neural Audio Compression“ vorgestellt. Autoren des Papers sind Alexandre Défossez, Jade Copet, Gabriel Synnaeve und Yossi Adi vom Meta-FAIR-Team (Fundamental AI Research).

Meta selbst bezeichnet EnCodec als KI-gestützte Hyperkomprimierung für Audio-Dateien. Der Audio-Codec verwendet Verfahren der Künstlichen Intelligenz (KI) und des Maschinellen Lernens (ML), um ein hohes Komprimierungsverhältnis zu erzielen. Im Vergleich zu MP3 soll EnCodec bei vergleichbarer Audioqualität eine bis zu zehnfach höhere Komprimierungsrate erreichen. Eine MP3-Übertragung mit 64 kbps benötigt mit EnCodec bei gleicher Qualität nur 6 kbps. Der Audio-Codec ist sowohl für Sprache als auch für Musik nutzbar und kann beispielsweise dazu beitragen, die Sprachkommunikation über Messenger mit schlechter Online-Verbindung zu verbessern.

EnCodec unterstützt sowohl Mono-Audio mit 24 kHz als auch Stereo-Audio mit 48 kHz. Der Codec komprimiert und dekomprimiert in Echtzeit. Meta plant EnCodec weiter zu verbessern und hält noch größere Komprimierungsraten für möglich. Zudem soll die KI-Hyperkomprimierung auch auf Videos und Videostreams anwendbar werden. Der in Python geschriebene Code von EnCodec steht auf GitHub unter MIT-Lizenz frei zur Verfügung. Er lässt sich lokal auf Rechnern mit macOS-, Linux- oder Windows-Betriebssystem installieren und ausführen. Linux und macOS werden offiziell unterstützt.

Funktionsweise von EnCodec und verfügbare Modelle

EnCodec verwendet Verfahren der Künstlichen Intelligenz und wurde über neuronale Netze trainiert. Im Wesentlichen besteht EnCodec aus diesen drei Komponenten:

  • ein Encoder
  • ein Quantisierer
  • ein Decoder

Alle Prozesse zum Kodieren und Dekodieren von Audiodaten lassen sich in Echtzeit auf einer CPU ausführen.

Aufgabe des Encoders ist es, die unkomprimierten Audiodaten in eine höherdimensionale Darstellung mit niedrigerer Frame-Rate zu verwandeln. Der Quantisierer komprimiert die vom Encoder erstellte höherdimensionale Darstellung auf die gewünschte Zielgröße, ohne dass die notwendigen Informationen zur Rekonstruierung des Audiosignals verloren gehen. Das vom Quantisierer erzeugte komprimierte Audioformat kann über Online-Verbindungen gestreamt oder als Datei gespeichert werden. Der Encoder hat die Aufgabe, das komprimierte Audiosignal wieder in eine dem Ursprungssignal möglichst ähnliche Wellenform zu bringen.

Die Komprimierung mit EnCodec soll vom Menschen nicht wahrnehmbare Elemente verändern können und die Schlüsselelemente, die ein Audiosignal unverwechselbar machen, erhalten. Eine der Schlüsseltechnologien zur Erzielung hoher Kompressionsraten mit möglichst geringem Qualitätsverlust ist der Einsatz von sogenannten Diskriminatoren, wie sie aus Generative Adversarial Networks (GANs) bekannt sind. Das Kompressionsmodell versucht Samples zu erzeugen, die den Diskriminator täuschen und die dieser möglichst nicht von einem Original-Sample unterscheiden kann.

Der Diskriminator hingegen versucht, unter Berücksichtigung des menschlichen Hörwahrnehmungsmodells, zweifelsfrei festzustellen, ob es sich um ein Original-Sample oder um ein rekonstruiertes Sample handelt. Erkennt der Diskriminator ein Sample als rekonstruiert, wird die Ausgabe des Kompressionsmodells angepasst, bis der Diskriminator das Ergebnis für ein Original hält. Kompressionsmodell und Diskriminator versuchen sich quasi gegenseitig zu überlisten oder zu ertappen und verbessern dadurch ihre Fähigkeiten. So entsteht zwischen dem Kompressionsmodell und dem Diskriminator eine Art Wettbewerb, der die Qualität der komprimierten Samples und rekonstruierten Audiosignale nach oben treibt.

EnCodec wird auf GitHub in zwei Modellen angeboten. Ein kausales Modell ist für Mono-Audio vorgesehen, verwendet eine Abtastrate von 24 kHz und wurde mit verschiedenen Audiodaten trainiert. Es eignet sich unter anderem für Sprache. Das Modell unterstützt die Bitraten 1,5, 3, 6, 12 und 24 kbps.

Das andere nicht kausale Modell für Stereo-Audio arbeitet mit einer Abtastrate von 48 kHz und wurde nur mit Musik trainiert. Es unterstützt die Bitraten 3, 6, 12 und 24 kbps.

Merkmale und Vorteile von EnCodec

  • hohe Kompressionsraten durch Nutzung von Verfahren der Künstlichen Intelligenz und des Maschinellen Lernens wie die Generative-Adversarial-Network-Technologie und Diskriminatoren
  • kann lokal auf Rechnern mit unterschiedlichen Betriebssystemen installiert und ausgeführt werden
  • kodieren und dekodieren in Echtzeit auf einem CPU-Kern
  • im Vergleich zu MP3 eine bis zu zehnfache höhere Kompressionsrate bei gleicher Qualität (6 kbps anstatt 64 kbps)
  • in zwei Modellen mit 24 kHz Mono (für Sprache) und 48 kHz Stereo (für Musik) verfügbar
  • steht auf GitHub unter MIT-Lizenz frei zur Verfügung
  • Erweiterung der KI-gestützten Hyperkomprimierung auf Videos und Videostreams geplant

(ID:49692855)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung