Definition Was ist TyDi QA?

Von Dipl.-Ing. (FH) Stefan Luber 3 min Lesedauer

Anbieter zum Thema

TyDi QA (Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages) ist ein Benchmark-Dataset für multilinguale Sprachmodelle. Es besteht aus über 200.000 von Menschen erstellten und annotierten Frage-Antwortpaaren in elf typologisch unterschiedlichen Sprachen. Die Aufgaben wurden nicht einfach aus anderen Sprachen übersetzt, sondern in der jeweiligen Sprache erstellt.

(Bild:  © aga7ta - stock.adobe.com)
(Bild: © aga7ta - stock.adobe.com)

Das Akronym TyDi QA steht für „Typologically Diverse Question Answering“. Bei TyDi QA handelt es sich um ein Benchmark-Dataset für das Training und die Evaluierung von multilingualen Sprachmodellen, insbesondere von automatischen Frage-Antwort-Systemen. Veröffentlicht wurde TyDi QA im Jahr 2020 im Dokument mit dem Titel „TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages“. Die Autoren der Veröffentlichung waren Jonathan H. Clark, Eunsol Choi, Michael Collins, Dan Garrette, Tom Kwiatkowski, Vitaly Nikolaev und Jennimaria Palomaki von Google Research.

TyDi QA enthält über 200.000 von Menschen annotierte Frage-Antwortpaare in insgesamt elf typologisch unterschiedlichen Sprachen. Die Fragen sind nicht wie bei anderen Benchmarks durch Übersetzung entstanden, sondern wurden von Menschen, die die Antworten selbst noch nicht kannten, direkt in den einzelnen Sprachen erstellt. So lassen sich besonders realistische Aufgaben aus dem Bereich der Informationssuche erstellen, ohne dass die Fragestellung schon Einfluss auf die mögliche Antwort nimmt. Durch die Wahl von elf typologisch unterschiedlichen Sprachen wird eine gewisse Repräsentativität hinsichtlich der sprachlichen Vielfalt erreicht. Modelle und Systeme, die bei TyDi QA gut abschneiden, werden dies vermutlich auch bei Aufgabenstellungen in anderen Sprachen tun.

Motivation für die Entwicklung von TyDi QA

Für die Weiterentwicklung von multilingualen Sprachmodellen werden Benchmarks benötigt, mit denen sich die multilingualen Fähigkeiten der Modelle zuverlässig testen und evaluieren lassen. Viele Benchmarks basieren auf der englischen Sprache oder sind durch Übersetzung von Aufgabenstellungen in englischer Sprache in andere Sprachen entstanden. Damit lassen sich aber die sprachliche Vielfalt und die vielen sprachlichen Phänomene der über 2.600 weltweit existierenden Sprachen nur sehr oberflächlich abbilden.

Sollen Sprachmodelle geschaffen werden, die alle menschlichen Sprachen und ihre jeweiligen sprachlichen Phänomene repräsentieren, müssen diese mit Daten trainiert und evaluiert werden, die diese Vielfalt auch abbilden. Mit TyDi QA soll das möglich sein, denn das Benchmark-Dataset ist laut seinen Entwicklern das erste große und öffentlich verfügbare multilinguale Dataset in typologisch unterschiedlichen Sprachen. Die Frage-Antwortpaare aus dem Bereich der Informationssuche sind nicht durch Übersetzung entstanden. TyDi QA soll die Forscher unter anderem bei der Erreichung der beiden folgenden Ziele unterstützen:

  • Entwicklungsfortschritte beim Erstellen hochwertiger Frage-Antwort-Systeme in den circa 100 beliebtesten Sprachen der Welt
  • Förderung der Erforschung und Entwicklung von Modellen, die mit den sprachlichen Phänomenen und Datenszenarien der Sprachen dieser Welt gut zurechtkommen.

Zusammenstellung des TyDi QA-Dataset und Prozess zur Erstellung der Aufgaben

Insgesamt besteht TyDi QA aus 204.000 Aufgabenstellungen. Circa 166.000 davon sind einfach notiert und für das Training vorgesehen. Circa 37.000 Aufgabenstellungen sind dreifach notiert und bilden das Entwicklungs- und Test-Set. Die Aufgabenstellungen sind in den folgenden elf Sprachen verfasst:

  • (English)
  • Arabisch
  • Bengalisch
  • Finnisch
  • Indonesisch
  • Japanisch
  • Kisuaheli
  • Koreanisch
  • Russisch
  • Telugu
  • Thailändisch

Die Daten in englischer Sprache sind hauptsächlich zu Debugging-Zwecken enthalten.

Die grundsätzliche Aufgabenstellung sieht folgendermaßen aus: Dem Modell wird eine Frage zusammen mit einem Textausschnitt aus einem Wikipedia-Artikel präsentiert. Das Modell soll zwei Vorhersagen treffen. Zum einen soll es die Textpassage benennen, in der die Antwort zu finden ist, oder die Antwort NULL liefern, wenn eine solche Passage nicht existiert. Die zweite Vorhersage soll die minimale Spanne der Textpassage benennen, die die Frage komplett beantwortet. NULL ist die Antwort, wenn keine minimale Textspanne als Antwort präsentiert werden kann.

Die Aufgabenstellungen wurden bewusst nicht durch Übersetzungen aus anderen Sprachen erstellt, wie es bei einigen anderen multilingualen Evaluierungs-Datasets gemacht wurde. Der Grund dafür ist, dass es durch das Übersetzen zu problematischen Artefakten in den Aufgabenstellungen kommen kann, die die Evaluierungsergebnisse beeinflussen. Nativ in einer Sprache erstellte Aufgaben unterscheiden sich in der Regel sowohl inhaltlich als auch in der sprachlichen Ausgestaltung von übersetzten Aufgaben.

Um möglichst realistische Fragestellungen zu erhalten, wurden die Fragen von Menschen erstellt, die die Antwort zwar wissen möchten, aber sie selbst nicht kennen. Die Daten wurden direkt in jeder Sprache, ohne Übersetzung erfasst. Menschliche Annotatoren wurden kurze Textpassagen aus den ersten 100 Zeichen eines Wikipedia-Artikels vorgelegt. Sie wurden anschließend darum gebeten, eine Frage zu formulieren, deren Antwort sie interessiert, die aber nicht in der Textpassage zu finden ist. Die bereitgestellten Textpassagen der Wikipedia-Artikel sollen lediglich als Inspiration für das Erstellen der Fragen dienen und haben auch nur einen vagen Zusammenhang mit diesen. Die Autoren nennen unter anderem dieses Beispiel:

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Vorgelegte Textpassage: Ein Apfel (Apple) ist eine Frucht ...

Mögliche Frage: An welcher Krankheit starb Steve Jobs (Apple-Gründer)?

Durch das für TyDi QA verwendete Verfahren zur Erstellung von Fragen sollen realistische Aufgabenstellungen entstehen und für multilinguale QA-Datasets typische Artefakte vermieden werden.

(ID:50225487)