So eignen sich Neural-Machine-Translation-Modelle für den professionellen Bereich

Kommentar von Christopher Kränzler, Lengoo So eignen sich Neural-Machine-Translation-Modelle für den professionellen Bereich

21.10.2020 Von Christopher Kränzler

Anbieter zum Thema

Die Entwicklungen im Bereich Maschinenübersetzung waren im letzten Jahrzehnt rasant. Insbesondere das Aufkommen von neuronaler Maschinenübersetzung stellt einen Quantensprung in der maschinellen Übersetzung von Sprache dar.

Der Autor: Christopher Kränzler ist Gründer und Geschäftsführer des KI-Unternehmens Lengoo(Bild: Lengoo) — Der Autor: Christopher Kränzler ist Gründer und Geschäftsführer des KI-Unternehmens Lengoo
(Bild: Lengoo)

Gängige und meist kostenfreie Online-Tools wie Google Translate oder DeepL sind sogenannte generische Maschinenübersetzungsmodelle, die auf Basis einer möglichst breiten Datengrundlage trainiert werden. Diese Tools können bei Verständnisübersetzungen von allgemeinsprachlichen Texten eine große Hilfestellung sein. Für einen standardisierten Einsatz im professionellen Umfeld, wo Sprachqualität und Konsistenz die wichtigsten Anforderungen an einen Text sind, sind sie jedoch nicht geeignet.

Der Grund hierfür liegt auf der Hand, denn das Thema Maschinenübersetzung verhält sich so wie auch alle anderen Bereiche des Maschinenlernens: Die Qualität der Übersetzung steigt mit der Qualität der Daten, die im Training verwendet werden. Je enger der Fokus und das Anwendungsgebiet, desto besser wird die produzierte Sprache.

Produktivitätssteigerung mit individualisierten Modellen

Damit Maschinenübersetzung im professionellen Einsatz sinnvoll ist, müssen die Modelle demnach auf individuelle Bedürfnisse und Situationen angepasst werden, um die Qualität der Übersetzung so weit wie möglich zu erhöhen. Durch eine Eingrenzung der Auswahl von Trainingsdaten auf einen speziellen Bereich sind die Modelle besser dazu in der Lage, Fachbegriffe zu lernen und diese im Anschluss in der Übersetzung zu verwenden. Die so erlangte Steigerung der Sprachqualität ist bereits eindeutig. Zusammen mit einer anschließenden Korrekturschleife durch Fachübersetzer ermöglichen individualisierte Modelle eine immense Produktivitätssteigerung der Arbeit.

Im Durchschnitt produziert ein Fachübersetzer, der einen Text manuell und ohne Zuhilfenahme von Produktivitätstools übersetzt, innerhalb von 60 Minuten 250 Wörter publizierfähigen Text. Wenn er dabei ein generisches Modell für Maschinenübersetzung verwendet, kann er mit einer Geschwindigkeit von 400 Wörtern pro Stunde übersetzen. Wenn ein individualisiertes Modell die Maschinenübersetzung erstellt und diese im Anschluss durch einen Fachübersetzer post-editiert wurde, sind es bereits 1.300 Wörter pro Stunde. Der Einsatz von individualisierten Modellen für Maschinenübersetzung kann die Produktivität von Fachübersetzern demnach deutlich erhöhen.

Fachterminologie erlernen und konsistent anwenden

Die Übersetzung von komplexen Inhalten wie Bauanleitungen, technischen Dokumentationen oder pharmakologischen Inhalten erfordern ein Höchstmaß an Konsistenz und eine exakte Verwendung spezifischer Terminologie. Diese Anforderungen stellt die Neural-Machine-Translation-Technologie (NMT) vor die nächste große Herausforderung, denn die Integration von Termbanken und Glossaren ist, anders als in regelbasierten Systemen, sehr viel komplizierter.

NMT-Modelle sind nicht darauf ausgelegt, spezieller Terminologie in der Übersetzung Vorrang zu gewähren. Die derzeitige Verwendung von neuronalen Netzen in der Maschinenübersetzung basiert auf der Vektorisierung einzelner Wörter. Diese Vektorisierung misst jedem Wort einen bestimmten Wert bei, der von den Wörtern in der direkten Umgebung des zu übersetzenden Wortes beeinflusst wird. Damit ermöglicht die Vektorisierung eine Kontextualisierung in der Übersetzung und NMT-Modelle können einen möglichst natürlichen Sprachfluss mit Varianz produzieren.

Genau diese Varianz jedoch steht konträr zum Ziel einer hohen Sprachkonsistenz, die besonders im professionellen Sprachgebrauch unabdingbar ist. Die Vereinbarkeit von Glossaren und der Verwendung von neuronaler Maschinenübersetzung ist daher Gegenstand aktueller Forschung. Die vielversprechendste Methode ist die Erweiterung des Trainingsdatensets um spezifische Terminologie und eine Markierung der Termini, die in einem Glossar enthalten sind. So wird diesen markierten Termini im Training eine höhere Gewichtung beigemessen und das Modell lernt, dass diese Begriffe in der Übersetzung bevorzugt angewendet werden sollen. Die Anwendung dieser Technik kann eine deutlich höhere Qualität der Übersetzung hervorbringen.

Übersetzungsqualität mit synthetischen Daten erhöhen

Zusätzlich ist der Einsatz von KI in der Übersetzung, wie auch in allen anderen Anwendungsgebieten von Künstlicher Intelligenz, durch zwei Hauptfaktoren beschränkt: die verfügbare Rechenleistung und die Verfügbarkeit von Daten. Besonders im Bereich der natürlichen Sprache ist eben jene Verfügbarkeit von Sprachdaten oft nicht gewährleistet.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

In Sprachpaaren, in denen keine ausreichenden parallelen Daten zum Training neuronaler Netze vorliegen, wenden Datenwissenschaftler eine Technik an, die die Abhängigkeit von Trainingsdaten der Zielsprache und Quellsprache reduzieren können.

Eines dieser Verfahren verwendet Back Translations. Unter der Prämisse, dass Texte, die bereits in der Zielsprache verfasst wurden, eine höhere Sprachqualität aufweisen und in größerer Menge verfügbar sind, werden eben jene Texte mit einem bereits existierenden Sprachmodell in eine beliebige Quellsprache zurückübersetzt. Die so entstandenen parallelen Sprachdaten bilden wiederum die Grundlage für ein fachspezifisches bilinguales Training des Modells. Sprachmodelle, die mit dieser Methode trainiert wurden, erzielen eine deutlich bessere Übersetzung.

Ein von Grund auf anderer Ansatz, um damit umzugehen, bildet das Training und der Einsatz von multilingualen Sprachmodellen. Diese Modelle können statt nur einer sogar mehrere Quell- und Zielsprachen in einem Modell vereinen. Im Training bekommt die Verbesserung der Encoder und der Decoder einen höheren Stellenwert als es in bilingualen Sprachmodellen der Fall ist. So kann die Sprachqualität in mehreren Sprachpaaren gleichzeitig verbessert werden.

Die Anwendung beider beschriebenen Techniken ermöglicht ein Training von Sprachmodellen sogar in Sprachpaaren, in denen keinen parallelen Daten vorliegen. So wird die Technologie der neuronalen Maschinenübersetzung für ein breiteres Feld an Anwendungsgebieten geöffnet.

Ausblick

Die Anwendung von individuell trainierter neuronaler Maschinenübersetzung birgt ein immenses Potenzial für die Steigerung der Produktivität von Fachübersetzern im Bereich der Übersetzung. Je nach Datenlage kann NMT bereits nach dem ersten Training der Modelle große Effizienzgewinne realisieren. Der große Mehrwert liegt jedoch in einer fortlaufenden Sammlung hochwertiger Daten und regelmäßigen Trainingszyklen. Der hierfür erforderliche Feedback-Loop, also das ständige Einspeisen von Daten in die Modelle, ist der Schlüssel zu einer erfolgreichen Integration von KI in bestehende Geschäftsprozesse. Der dadurch resultierende Lerneffekt von KI, der eine kontinuierliche Verbesserung der Qualität bewirkt, führt dazu, dass die Technologie einen echten Mehrwert liefern kann. Besonders in dynamischen Umfeldern, wie dem der Sprache, müssen sich KI-Systeme ständig fortbilden und weiterentwickeln. Im Laufe der Zeit kann die Effizienz so noch weiter gesteigert werden.

Artikelfiles und Artikellinks

Link: Lengoo im Web

(ID:46906261)