TyDi QA (Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages) ist ein Benchmark-Dataset für multilinguale Sprachmodelle. Es besteht aus über 200.000 von Menschen erstellten und annotierten Frage-Antwortpaaren in elf typologisch unterschiedlichen Sprachen. Die Aufgaben wurden nicht einfach aus anderen Sprachen übersetzt, sondern in der jeweiligen Sprache erstellt.
Das Akronym TyDi QA steht für „Typologically Diverse Question Answering“. Bei TyDi QA handelt es sich um ein Benchmark-Dataset für das Training und die Evaluierung von multilingualen Sprachmodellen, insbesondere von automatischen Frage-Antwort-Systemen. Veröffentlicht wurde TyDi QA im Jahr 2020 im Dokument mit dem Titel „TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages“. Die Autoren der Veröffentlichung waren Jonathan H. Clark, Eunsol Choi, Michael Collins, Dan Garrette, Tom Kwiatkowski, Vitaly Nikolaev und Jennimaria Palomaki von Google Research.
TyDi QA enthält über 200.000 von Menschen annotierte Frage-Antwortpaare in insgesamt elf typologisch unterschiedlichen Sprachen. Die Fragen sind nicht wie bei anderen Benchmarks durch Übersetzung entstanden, sondern wurden von Menschen, die die Antworten selbst noch nicht kannten, direkt in den einzelnen Sprachen erstellt. So lassen sich besonders realistische Aufgaben aus dem Bereich der Informationssuche erstellen, ohne dass die Fragestellung schon Einfluss auf die mögliche Antwort nimmt. Durch die Wahl von elf typologisch unterschiedlichen Sprachen wird eine gewisse Repräsentativität hinsichtlich der sprachlichen Vielfalt erreicht. Modelle und Systeme, die bei TyDi QA gut abschneiden, werden dies vermutlich auch bei Aufgabenstellungen in anderen Sprachen tun.
Motivation für die Entwicklung von TyDi QA
Für die Weiterentwicklung von multilingualen Sprachmodellen werden Benchmarks benötigt, mit denen sich die multilingualen Fähigkeiten der Modelle zuverlässig testen und evaluieren lassen. Viele Benchmarks basieren auf der englischen Sprache oder sind durch Übersetzung von Aufgabenstellungen in englischer Sprache in andere Sprachen entstanden. Damit lassen sich aber die sprachliche Vielfalt und die vielen sprachlichen Phänomene der über 2.600 weltweit existierenden Sprachen nur sehr oberflächlich abbilden.
Sollen Sprachmodelle geschaffen werden, die alle menschlichen Sprachen und ihre jeweiligen sprachlichen Phänomene repräsentieren, müssen diese mit Daten trainiert und evaluiert werden, die diese Vielfalt auch abbilden. Mit TyDi QA soll das möglich sein, denn das Benchmark-Dataset ist laut seinen Entwicklern das erste große und öffentlich verfügbare multilinguale Dataset in typologisch unterschiedlichen Sprachen. Die Frage-Antwortpaare aus dem Bereich der Informationssuche sind nicht durch Übersetzung entstanden. TyDi QA soll die Forscher unter anderem bei der Erreichung der beiden folgenden Ziele unterstützen:
Entwicklungsfortschritte beim Erstellen hochwertiger Frage-Antwort-Systeme in den circa 100 beliebtesten Sprachen der Welt
Förderung der Erforschung und Entwicklung von Modellen, die mit den sprachlichen Phänomenen und Datenszenarien der Sprachen dieser Welt gut zurechtkommen.
Zusammenstellung des TyDi QA-Dataset und Prozess zur Erstellung der Aufgaben
Insgesamt besteht TyDi QA aus 204.000 Aufgabenstellungen. Circa 166.000 davon sind einfach notiert und für das Training vorgesehen. Circa 37.000 Aufgabenstellungen sind dreifach notiert und bilden das Entwicklungs- und Test-Set. Die Aufgabenstellungen sind in den folgenden elf Sprachen verfasst:
(English)
Arabisch
Bengalisch
Finnisch
Indonesisch
Japanisch
Kisuaheli
Koreanisch
Russisch
Telugu
Thailändisch
Die Daten in englischer Sprache sind hauptsächlich zu Debugging-Zwecken enthalten.
Die grundsätzliche Aufgabenstellung sieht folgendermaßen aus: Dem Modell wird eine Frage zusammen mit einem Textausschnitt aus einem Wikipedia-Artikel präsentiert. Das Modell soll zwei Vorhersagen treffen. Zum einen soll es die Textpassage benennen, in der die Antwort zu finden ist, oder die Antwort NULL liefern, wenn eine solche Passage nicht existiert. Die zweite Vorhersage soll die minimale Spanne der Textpassage benennen, die die Frage komplett beantwortet. NULL ist die Antwort, wenn keine minimale Textspanne als Antwort präsentiert werden kann.
Die Aufgabenstellungen wurden bewusst nicht durch Übersetzungen aus anderen Sprachen erstellt, wie es bei einigen anderen multilingualen Evaluierungs-Datasets gemacht wurde. Der Grund dafür ist, dass es durch das Übersetzen zu problematischen Artefakten in den Aufgabenstellungen kommen kann, die die Evaluierungsergebnisse beeinflussen. Nativ in einer Sprache erstellte Aufgaben unterscheiden sich in der Regel sowohl inhaltlich als auch in der sprachlichen Ausgestaltung von übersetzten Aufgaben.
Um möglichst realistische Fragestellungen zu erhalten, wurden die Fragen von Menschen erstellt, die die Antwort zwar wissen möchten, aber sie selbst nicht kennen. Die Daten wurden direkt in jeder Sprache, ohne Übersetzung erfasst. Menschliche Annotatoren wurden kurze Textpassagen aus den ersten 100 Zeichen eines Wikipedia-Artikels vorgelegt. Sie wurden anschließend darum gebeten, eine Frage zu formulieren, deren Antwort sie interessiert, die aber nicht in der Textpassage zu finden ist. Die bereitgestellten Textpassagen der Wikipedia-Artikel sollen lediglich als Inspiration für das Erstellen der Fragen dienen und haben auch nur einen vagen Zusammenhang mit diesen. Die Autoren nennen unter anderem dieses Beispiel:
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Vorgelegte Textpassage: Ein Apfel (Apple) ist eine Frucht ...
Mögliche Frage: An welcher Krankheit starb Steve Jobs (Apple-Gründer)?
Durch das für TyDi QA verwendete Verfahren zur Erstellung von Fragen sollen realistische Aufgabenstellungen entstehen und für multilinguale QA-Datasets typische Artefakte vermieden werden.