Definition Was ist BoolQ?
Anbieter zum Thema
BoolQ ist der Name eines Datensatzes mit knapp 16.000 Fragen, die mit ja oder nein zu beantworten sind. Er lässt sich einsetzen, um die NLI-Leistung (Natural Language Inference) und die Fähigkeit eines trainierten Sprachmodells zur Beantwortung von Fragen zu prüfen und zu bewerten. Jede Aufgabe besteht aus der Frage selbst und einem Absatz aus einem Wikipedia-Artikel, aus dem sich die richtige Antwort ableiten lässt.

Das Kürzel BoolQ steht für Boolean Questions (im Deutschen: Boolesche Fragen). Es handelt sich um einen Datensatz mit knapp 16.000 Fragen in englischer Sprache, die mit ja oder nein zu beantworten sind. BoolQ wird eingesetzt, um die Natural Language Inference (NLI) trainierter Sprachmodelle und ihre Fähigkeit zur Beantwortung von Fragen zu prüfen und zu bewerten. Entwickelt wurde der Datensatz im Jahr 2019 von den Wissenschaftlern Christopher Clark, Kenton Lee, Ming-Wei Chang, Tom Kwiatkowski, Michael Collins und Kristina Toutanova von der Paul G. Allen School of CSE und der University of Washington.
Die knapp 16.000 Fragen sind gegliedert in 3.200 Fragen zur Entwicklung, 3.2000 Fragen zum Testen und 9.400 Fragen zum Trainieren von Sprachmodellen. Jede Aufgabenstellung besteht aus der Frage selbst und einem Absatz aus einem Wikipedia-Artikel, aus dem sich die richtige Antwort ableiten lässt. Die Antwort auf die Frage lautet entweder ja oder nein. Die Fragen sind so gestellt, wie sie auch im Alltag auftreten und leiten sich von echten Fragen an die Google-Suchmaschine ab.
Der BoolQ-Datensatz hat das JSON-Format (JavaScript Object Notation). Menschen erreichen beim Beantworten der Fragen von BoolQ eine Erfolgsquote von rund 90 Prozent. Direkt mit Veröffentlichung des Datensatzes getestete Sprachmodelle waren deutlich weniger erfolgreich. Die besten Modelle kamen auf gut 80 Prozent. Viele lagen weit darunter. Mittlerweile erzielen einige Sprachmodelle Erfolgsquoten von über 90 Prozent.
Motivation für die Entwicklung von BoolQ
Eine wichtige Fähigkeit von NLP-Systemen für das Verstehen und Verarbeiten natürlicher Sprache ist zu beurteilen, welche Fakten sich als richtig oder falsch aus einem Text ableiten lassen. Aus einem Text können viele Informationen gewonnen werden, die nicht direkt erwähnt sind. Ein Beispiel hierfür ist der Satz: „Max Mustermann hat die Goldmedaille für Österreich im Hochsprung bei den Weltmeisterschaften in der Leichtathletik gewonnen.“ Der Satz impliziert, dass Max Mustermann ein Leichtathlet ist, dass Österreich ein Land ist, dass Österreich mindestens eine Disziplin bei den Weltmeisterschaften gewonnen hat und Deutschland beim Hochsprung nicht den ersten Platz belegt hat.
Fragestellungen oder Aussagen zum Testen und Beurteilen der Fähigkeit von Sprachmodellen im Bereich der Natural Language Inference zu entwerfen, ist eine anspruchsvolle Aufgabe. Mit BoolQ schlagen die Autoren vor, natürlich auftretende Fragestellungen zu verwenden, wie sie beispielsweise von Menschen in Google gestellt werden. Die Fragen stammen von Personen, die nicht explizit dafür beauftragt wurden, sie zu erstellen, und die die Antworten auf ihre gestellten Fragen selbst nicht kennen. Indem ein geeigneter Wikipedia-Absatz zur Frage bereitgestellt wird, aus dem sich passende Fakten ableiten lassen, soll das Sprachmodell die richtigen Antworten auf die Frage finden. Das ist eine herausfordernde Aufgabe für Sprachmodelle, da sie umfassende Inferenz-Fähigkeiten benötigen. Ein Benchmark mit dem BoolQ-Datensatz erlaubt die Bewertung dieser Fähigkeiten.
Erstellung, Inhalt und Beispielfragen von BoolQ
BoolQ besteht aus 15.942 Fragen in englischer Sprache. Die Fragen sind jeweils mit ja oder nein zu beantworten. Der Datensatz ist in drei Teile mit 3.200 Fragen zur Entwicklung, 3.2000 Fragen zum Testen und 9.400 Fragen zum Trainieren von Sprachmodellen aufgeteilt. Jede Fragestellung besteht aus mehreren Teilen: die Frage selbst, ein Textabsatz aus Wikipedia, aus dem sich die Antwort herleiten lässt, der Titel des Wikipedia-Artikels und die richtige Antwort ja oder nein.
Die Besonderheit der Fragen von BoolQ im Vergleich zu anderen Benchmark-Datensätzen besteht darin, dass es sich um Fragen handelt, die von Menschen tatsächlich gestellt werden. Hierfür wurden echte an Google gestellten Fragen anonymisiert und gesammelt. Anschließend wurden die mit ja oder nein zu beantwortenden Fragen identifiziert. Fragen, bei denen die Suchanfrage bei Google unter den ersten fünf Ergebnissen eine Wikipedia-Seite zurücklieferte, kamen für die Aufnahme in BoolQ in Betracht. Ausgewählte Personen prüften diese Fragen hinsichtlich Kriterien wie Eindeutigkeit und Verständlichkeit, suchten entsprechende Textpassagen in den Wikipedia-Artikeln, die genügend Informationen zur Beantwortung der Fragen enthielten, und vermerkten die richtige Antwort auf die Frage ja oder nein.
Ein Beispiel für eine Fragestellung von BoolQ übersetzt ins Deutsche lautet:
Frage: Hat Frankreich einen Premierminister und einen Präsidenten?
Wikipedia-Textpassage: „... inwieweit diese Entscheidungen beim Premierminister oder Präsidenten liegen, hängt davon ab ...“
Richtige Antwort: Ja (Premierminister und Präsident werden im Wikipedia-Artikel erwähnt. Es lässt sich daraus ableiten, dass es beide gibt.)
(ID:49005766)