Suchen

Kommentar von Christopher Kränzler, Lengoo So eignen sich Neural-Machine-Translation-Modelle für den professionellen Bereich

Autor / Redakteur: Christopher Kränzler / Nico Litzel

Die Entwicklungen im Bereich Maschinenübersetzung waren im letzten Jahrzehnt rasant. Insbesondere das Aufkommen von neuronaler Maschinenübersetzung stellt einen Quantensprung in der maschinellen Übersetzung von Sprache dar.

Firmen zum Thema

Der Autor: Christopher Kränzler ist Gründer und Geschäftsführer des KI-Unternehmens Lengoo
Der Autor: Christopher Kränzler ist Gründer und Geschäftsführer des KI-Unternehmens Lengoo
(Bild: Lengoo)

Gängige und meist kostenfreie Online-Tools wie Google Translate oder DeepL sind sogenannte generische Maschinenübersetzungsmodelle, die auf Basis einer möglichst breiten Datengrundlage trainiert werden. Diese Tools können bei Verständnisübersetzungen von allgemeinsprachlichen Texten eine große Hilfestellung sein. Für einen standardisierten Einsatz im professionellen Umfeld, wo Sprachqualität und Konsistenz die wichtigsten Anforderungen an einen Text sind, sind sie jedoch nicht geeignet.

Der Grund hierfür liegt auf der Hand, denn das Thema Maschinenübersetzung verhält sich so wie auch alle anderen Bereiche des Maschinenlernens: Die Qualität der Übersetzung steigt mit der Qualität der Daten, die im Training verwendet werden. Je enger der Fokus und das Anwendungsgebiet, desto besser wird die produzierte Sprache.

Produktivitätssteigerung mit individualisierten Modellen

Damit Maschinenübersetzung im professionellen Einsatz sinnvoll ist, müssen die Modelle demnach auf individuelle Bedürfnisse und Situationen angepasst werden, um die Qualität der Übersetzung so weit wie möglich zu erhöhen. Durch eine Eingrenzung der Auswahl von Trainingsdaten auf einen speziellen Bereich sind die Modelle besser dazu in der Lage, Fachbegriffe zu lernen und diese im Anschluss in der Übersetzung zu verwenden. Die so erlangte Steigerung der Sprachqualität ist bereits eindeutig. Zusammen mit einer anschließenden Korrekturschleife durch Fachübersetzer ermöglichen individualisierte Modelle eine immense Produktivitätssteigerung der Arbeit.

Im Durchschnitt produziert ein Fachübersetzer, der einen Text manuell und ohne Zuhilfenahme von Produktivitätstools übersetzt, innerhalb von 60 Minuten 250 Wörter publizierfähigen Text. Wenn er dabei ein generisches Modell für Maschinenübersetzung verwendet, kann er mit einer Geschwindigkeit von 400 Wörtern pro Stunde übersetzen. Wenn ein individualisiertes Modell die Maschinenübersetzung erstellt und diese im Anschluss durch einen Fachübersetzer post-editiert wurde, sind es bereits 1.300 Wörter pro Stunde. Der Einsatz von individualisierten Modellen für Maschinenübersetzung kann die Produktivität von Fachübersetzern demnach deutlich erhöhen.

Fachterminologie erlernen und konsistent anwenden

Die Übersetzung von komplexen Inhalten wie Bauanleitungen, technischen Dokumentationen oder pharmakologischen Inhalten erfordern ein Höchstmaß an Konsistenz und eine exakte Verwendung spezifischer Terminologie. Diese Anforderungen stellt die Neural-Machine-Translation-Technologie (NMT) vor die nächste große Herausforderung, denn die Integration von Termbanken und Glossaren ist, anders als in regelbasierten Systemen, sehr viel komplizierter.

NMT-Modelle sind nicht darauf ausgelegt, spezieller Terminologie in der Übersetzung Vorrang zu gewähren. Die derzeitige Verwendung von neuronalen Netzen in der Maschinenübersetzung basiert auf der Vektorisierung einzelner Wörter. Diese Vektorisierung misst jedem Wort einen bestimmten Wert bei, der von den Wörtern in der direkten Umgebung des zu übersetzenden Wortes beeinflusst wird. Damit ermöglicht die Vektorisierung eine Kontextualisierung in der Übersetzung und NMT-Modelle können einen möglichst natürlichen Sprachfluss mit Varianz produzieren.

Genau diese Varianz jedoch steht konträr zum Ziel einer hohen Sprachkonsistenz, die besonders im professionellen Sprachgebrauch unabdingbar ist. Die Vereinbarkeit von Glossaren und der Verwendung von neuronaler Maschinenübersetzung ist daher Gegenstand aktueller Forschung. Die vielversprechendste Methode ist die Erweiterung des Trainingsdatensets um spezifische Terminologie und eine Markierung der Termini, die in einem Glossar enthalten sind. So wird diesen markierten Termini im Training eine höhere Gewichtung beigemessen und das Modell lernt, dass diese Begriffe in der Übersetzung bevorzugt angewendet werden sollen. Die Anwendung dieser Technik kann eine deutlich höhere Qualität der Übersetzung hervorbringen.

Übersetzungsqualität mit synthetischen Daten erhöhen

Zusätzlich ist der Einsatz von KI in der Übersetzung, wie auch in allen anderen Anwendungsgebieten von Künstlicher Intelligenz, durch zwei Hauptfaktoren beschränkt: die verfügbare Rechenleistung und die Verfügbarkeit von Daten. Besonders im Bereich der natürlichen Sprache ist eben jene Verfügbarkeit von Sprachdaten oft nicht gewährleistet.

In Sprachpaaren, in denen keine ausreichenden parallelen Daten zum Training neuronaler Netze vorliegen, wenden Datenwissenschaftler eine Technik an, die die Abhängigkeit von Trainingsdaten der Zielsprache und Quellsprache reduzieren können.

Eines dieser Verfahren verwendet Back Translations. Unter der Prämisse, dass Texte, die bereits in der Zielsprache verfasst wurden, eine höhere Sprachqualität aufweisen und in größerer Menge verfügbar sind, werden eben jene Texte mit einem bereits existierenden Sprachmodell in eine beliebige Quellsprache zurückübersetzt. Die so entstandenen parallelen Sprachdaten bilden wiederum die Grundlage für ein fachspezifisches bilinguales Training des Modells. Sprachmodelle, die mit dieser Methode trainiert wurden, erzielen eine deutlich bessere Übersetzung.

Ein von Grund auf anderer Ansatz, um damit umzugehen, bildet das Training und der Einsatz von multilingualen Sprachmodellen. Diese Modelle können statt nur einer sogar mehrere Quell- und Zielsprachen in einem Modell vereinen. Im Training bekommt die Verbesserung der Encoder und der Decoder einen höheren Stellenwert als es in bilingualen Sprachmodellen der Fall ist. So kann die Sprachqualität in mehreren Sprachpaaren gleichzeitig verbessert werden.

Die Anwendung beider beschriebenen Techniken ermöglicht ein Training von Sprachmodellen sogar in Sprachpaaren, in denen keinen parallelen Daten vorliegen. So wird die Technologie der neuronalen Maschinenübersetzung für ein breiteres Feld an Anwendungsgebieten geöffnet.

Ausblick

Die Anwendung von individuell trainierter neuronaler Maschinenübersetzung birgt ein immenses Potenzial für die Steigerung der Produktivität von Fachübersetzern im Bereich der Übersetzung. Je nach Datenlage kann NMT bereits nach dem ersten Training der Modelle große Effizienzgewinne realisieren. Der große Mehrwert liegt jedoch in einer fortlaufenden Sammlung hochwertiger Daten und regelmäßigen Trainingszyklen. Der hierfür erforderliche Feedback-Loop, also das ständige Einspeisen von Daten in die Modelle, ist der Schlüssel zu einer erfolgreichen Integration von KI in bestehende Geschäftsprozesse. Der dadurch resultierende Lerneffekt von KI, der eine kontinuierliche Verbesserung der Qualität bewirkt, führt dazu, dass die Technologie einen echten Mehrwert liefern kann. Besonders in dynamischen Umfeldern, wie dem der Sprache, müssen sich KI-Systeme ständig fortbilden und weiterentwickeln. Im Laufe der Zeit kann die Effizienz so noch weiter gesteigert werden.

Artikelfiles und Artikellinks

(ID:46906261)