Definition Was ist TriviaQA?

Anbieter zum Thema

TriviaQA ist ein Datensatz zum Testen des Leseverständnisses und der Fähigkeit zum Beantworten von Fragen. Er kommt für Benchmarks von Sprachmodellen zum Einsatz und besteht aus 95.000 Frage-Antwort-Paaren mit 650.000 zugehörigen Nachweistexten. Entwicklungsziel von TriviaQA war es, schwer zu beantwortende Fragen mit hoher syntaktischer und lexikalischer Variabilität zusammenzustellen. Die Beantwortung erfordert ein Verständnis längerer Textpassagen und die Fähigkeit zu logischen Schlussfolgerungen.

(Bild: © aga7ta - stock.adobe.com)

TriviaQA ist der Name eines von der University of Washington und dem Allen Institute for Artificial Intelligence in Seattle entwickelten und zusammengestellten Textdatensatzes. Er wurde 2017 veröffentlicht und lässt sich zum Testen des Leseverständnisses und der Fähigkeit zum Beantworten von Fragen einsetzen. Der Datensatz ist für Benchmarks von Sprachmodellen und deren NLP-Fähigkeiten nutzbar. TriviaQA ist sehr groß und besteht aus 95.000 Frage-Antwort-Paaren und 650.000 zugehörigen Nachweistexten. Die durchschnittliche Länge einer Frage liegt bei 14 Wörtern.

Eine Besonderheit dieses Datensatzes ist es, dass die Nachweistexte unabhängig von den Frage-Antwort-Paaren gesammelt wurden. Im Schnitt gibt es zu jedem Frage-Antwort-Paar sechs Nachweistexte. Die Fragen von TriviaQA haben eine hohe syntaktische und lexikalische Variabilität. Antworten auf die Fragen sind nicht leicht zu finden und erfordern das Verständnis längerer Textpassagen. Durch die Schwierigkeit der Beantwortung der Fragen möchten die Entwickler den kontinuierlich steigenden Fähigkeiten moderner Sprachmodelle Rechnung tragen. In Benchmarks mit älteren Datensätzen wie dem Stanford Question Answering Dataset (SQuAD) erreichen die Sprachmodelle Ergebnisse im hohen 90-Prozentbereich und übertreffen die menschliche Leistung bei weitem.

Mittlerweile erreichen NLP-Modelle auch bei TriviaQA eine höhere Leistung als der Mensch. Die Entwicklung immer komplexerer Datensätze schreitet daher voran. Einer dieser Datensätze ist HotpotQA von der Carnegie-Mellon-Universität, Stanford-Universität und Universität von Montreal. Nach wie vor ist TriviaQA aber ein wichtiger und häufig für Leseverständniswettbewerbe von Künstlicher Intelligenz und maschinellem Lesen eingesetzter Datensatz.

Motivation für die Entwicklung und Erstellung von TriviaQA

Das Beantworten von Fragen zählt zu den Fähigkeiten bestimmter Sprachmodelle. Die richtigen Antworten auf die Fragen zu finden und aus Referenztexten zu extrahieren, erfordert ein gutes Textverständnis. Fragen können komplex gestellt sein und ein logisches Denken und Schlussfolgern erfordern. Ein Sprachmodell mit Künstlicher Intelligenz muss zur Beantwortung auf bereits erworbenes Wissen zurückgreifen oder aus vorhandenen Texten und Textpassagen die Antworten extrahieren. Um die Fähigkeit der Sprachmodelle zu testen, wurden Datensätze wie SQuAD entwickelt. Die Datensätze enthalten Fragen, Antworten und Nachweistexte, in denen die Antworten enthalten sind.

Durch die Fortschritte auf dem Gebiet der Künstlichen Intelligenz und des maschinellen Lernens erreichen leistungsfähige Modelle oft schon nach kurzer Zeit hervorragende Ergebnisse und machen die Entwicklung immer herausfordernder Testdatensätze erforderlich. TriviaQA ist einer dieser Datensätze und stellt NLP-Modelle vor neue Herausforderungen. Zur Beantwortung der gestellten Fragen müssen die Modelle mehrere Texte und verschiedene Textarten wie Nachrichten, Wikipedia-Texte und Blog-Artikel analysieren. Längere Textpassagen müssen in der Inferenz bewältigt und verstanden werden. Als TriviaQA 2017 veröffentlicht wurde, lagen damals aktuelle Sprachmodelle hinter der menschlichen Leistung zurück. Mittlerweile erreichen NLP-Modelle auch bei TriviaQA bessere Leistungen als der Mensch.

Erstellung, Aufbau und Inhalt von TriviaQA

Ziel bei der Entwicklung und Erstellung von TriviaQA war die Schaffung eines Datensatzes mit schwer zu beantwortenden Fragen. Die Fragestellungen sollte komplex und mit hoher lexikalischer und syntaktischer Variabilität sein. TriviaQA besteht aus insgesamt 95.000 Frage-Antwort-Paaren. Die durchschnittliche Länge einer Frage liegt bei 14 Wörtern und einer Antwort bei zwei Wörtern. Für jedes Paar sind circa sechs Nachweistexte vorhanden, mit deren Hilfe das Sprachmodell die Fragen beantworten soll. Eine Besonderheit von TriviaQA ist, dass die Nachweistexte unabhängig von den Frage-Antwort-Paaren gesammelt wurden und dadurch quasi von der Fragestellung entkoppelt sind.

Die Fragen und Antworten stammen von Internet-Quiz- und Trivia-Seiten. Zu diesen Fragen wurden mithilfe automatisch generierter Suchstrings beispielsweise über die Suchmaschine Bing entsprechende Nachweistexte gesammelt. Die Nachweistexte stammen teils aus Wikipedia-Texten aber auch von anderen Webseiten. Neben enzyklopädischen Texten handelt es sich bei den Nachweistexten zum Beispiel um Nachrichtentexte und Blog-Artikel. Die Nachweistexte sind hinsichtlich des Fehlens korrekter Antwort gefiltert. Antworten auf die Fragen sind zu circa 93 Prozent Überschriften in Wikipedia und zu circa vier Prozent numerische Ausdrücke. Der Rest sind freie Formulierungen mit verschiedenen Wörtern.

Vergleich mit anderen Datensätzen

Von anderen Datensätzen für ähnliche Zwecke unterscheidet sich TriviaQA durch den komplexen Aufbau der Fragestellungen. Durch die Entkopplung zwischen dem Sammeln der Fragen und dem Sammeln der Nachweistexte besteht eine hohe lexikalische und syntaktische Variabilität zwischen den Fragestellungen und den zugehörigen Antworttextpassagen. Die Sprachmodelle benötigen ein gutes Verständnis auch längerer Textpassagen und müssen über verschiedene Texte und Sätze hinweg logisch schlussfolgern. Im Vergleich zu SQuAD enthält TriviaQA dreimal mehr Fragen, bei denen das Sprachmodell über mehrere Sätze schlussfolgern muss. Der in der Inferenz zu berücksichtigende Kontext ist wesentlich länger und Antworten sind nicht durch einfache Vorhersagen zu finden.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

(ID:48834053)