Definition Was ist SQuAD (Stanford Question Answering Dataset)?

Anbieter zum Thema

Bei SQuAD handelt es sich um eine Sammlung von Frage-/Antwortpaaren zu Wikipedia-Artikeln, mit dem sich das Textverständnis von NLP-Modellen trainieren, testen und vergleichen lässt. Die NLP-Modelle müssen die richtigen Antworten auf verschiedene Fragen zu Auszügen aus Wikipedia-Texten finden. Der Datensatz enthält über 100.000 Frage-/Antwortpaare zu mehr als 500 ausgewählten Wikipedia-Artikeln. Mittlerweile existiert eine Version SQuAD 2.0, die die 100.000 Fragen um 50.000 nicht beantwortbare Fragen ergänzt.

(Bild: © aga7ta - stock.adobe.com)

Das Kürzel SQuAD steht für Stanford Question Answering Dataset. Es handelt sich um einen Datensatz mit einer Sammlung von Frage-/Antwortpaaren zu ausgewählten Wikipedia-Artikeln. Mithilfe des Datensatzes lässt sich das Lese- und Textverständnis von NLP-Modellen trainieren, testen, beurteilen und vergleichen. Die Fragen wurden im Crowdsourcing-Verfahren von Menschen erstellt. Sie beziehen sich auf über 500 Wikipedia-Artikel und verschiedene Textpassagen aus diesen Artikeln. Insgesamt enthält SQuAD über 100.000 Frage-/Antwortpaare.

Neben der ersten Version von SQuAD existiert mittlerweile eine Version SQuAD 2.0, in der die 100.000 Frage-/Antwortpaare um 50.000 nicht beantwortbare Fragen ergänzt wurden. Die nicht beantwortbaren Fragen wurden ebenfalls im Crowdsourcing-Ansatz von Menschen entwickelt und ähneln den beantwortbaren Fragen. Mit SQuAD 2.0 müssen die getesteten NLP-Modelle nicht nur die richtigen Antworten zu den Fragen finden, sondern auch grundsätzlich beurteilen, ob eine Antwort zu der Frage im Wikipedia-Artikel zu finden ist und ob sie sich überhaupt beantworten lässt. SQuAD ist frei im Internet verfügbar und lässt sich einsetzen, um NLP-Modellen das Beantworten von Fragen zu vorgegebenen Texten beizubringen und diese Fähigkeit zu beurteilen.

Mittlerweile existieren auch für die deutsche Sprache Datensätze, die den SQuAD-Ansatz verfolgen. Einer dieser Datensätze ist mit rund 13.000 Frage-/Antwortpaaren GermanQuAD. Das Stanford Question Answering Dataset hat sich etabliert und ist einer der beliebtesten Frage-/Antwortdatensätze im NLP-Umfeld. Eine Vielzahl der existierenden NLP-Modelle wurde mit SQuAD bereits trainiert und getestet. Ein Leaderboard mit den Testergebnissen ist im Internet verfügbar. Leistungsfähige Modelle übertreffen die menschliche Performance im SQuAD-Test deutlich.

Motivation für die Entwicklung des Stanford Question Answering Datasets

Der Mensch hat ein hohes Leseverständnis. Aufgrund seines erworbenen allgemeinen Weltwissens und der Fähigkeit zu logischen Schlussfolgerungen ist er in der Lage, verschiedene Fragen zu einem vorgegebenen, ihm bisher noch nicht bekannten Text richtig zu beantworten. Für Computer und NLP-Modelle (Natural Language Processing) stellt das Verstehen von natürlichsprachigen Texten und das Beantworten von zugehörigen Fragen eine Herausforderung dar. Sie benötigen wie der Mensch ein gewisses Grundwissen und müssen logisch schlussfolgern können. SQuAD wurde entwickelt, um das Leseverständnis von NLP-Modellen für natürlichsprachige Texte und deren Fähigkeit zur Beantwortung zugehöriger Fragen zu trainieren und zu testen. Es handelt sich um einen großen, qualitativ hochwertigen Datensatz, der im Crowdsourcing-Ansatz von echten Menschen erstellt wurde.

Die Merkmale von SQuAD

Das Stanford Question Answering Dataset ist durch folgende Merkmale gekennzeichnet:

Im Vergleich zu anderen verfügbaren Reading-Comprehension-Datensätzen ist er mit über 100.000 Fragen deutlich größer. Er stellt die NLP-Modelle vor größere Herausforderungen, da sich die Fragen auf jeweils eine bestimmte Passage eines Wikipedia-Artikels beziehen. Das Beantworten der Fragen ist im Vergleich zu anderen Datensätzen komplexer und erfordert gewisse Fähigkeiten zu logischen Schlussfolgerungen.

Inhalt von SQuAD und Durchführung einer Evaluierung

Die Entwickler von SQuAD haben aus den 10.000 Top-Wikipedia-Artikeln über 500 Artikel ausgewählt und in viele tausend Absätze unterteilt. Für jeden Absatz der Wikipedia-Artikel erstellten Menschen im Crowdsourcing-Ansatz fünf zugehörige Fragen, die sich aus dem vorliegenden Textabschnitt beantworten lassen. Die Fragen mussten mit eigenen Worten gestellt werden und durften nicht im Copy-und-Paste-Verfahren erzeugt werden. Rund 80 Prozent der Artikel und Fragen wurden in den Trainingsdatensatz aufgenommen. Jeweils zehn Prozent wanderten in einen Validation-Datensatz und in einen verborgenen, nicht öffentlich einsehbaren Test-Datensatz.

Die Evaluierung eines NLP-Modells findet mit dem verborgenen, nicht öffentlich einsehbaren Test-Datensatz statt. Das Ergebnis einer Evaluierung mit SQuAD wird durch zwei Metriken dargestellt: eine Metrik für die exakten Übereinstimmungen der Antworten (Exact Match Metric) und eine Metrik für die Überschneidung von Vorhersage und tatsächlicher Antwort (F1 Metric). Die Testergebnisse lassen sich auf einem Online-Leaderboard veröffentlichen und einsehen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

(ID:48649439)