Definition Was ist WinoGrande?

Von Dipl.-Ing. (FH) Stefan Luber Lesedauer: 4 min |

Anbieter zum Thema

WinoGrande ist ein großer Datensatz zur Bewertung der Fähigkeit von NLP-Systemen zu vernünftigen Schlussfolgerungen. Der Datensatz besteht aus insgesamt 44.000 Problemstellungen, die vom Sprachmodell gelöst werden müssen. Inspiriert ist WinoGrande von der Winograd Schema Challenge. WinoGrande besteht aber aus wesentlich mehr Problemstellungen und ist für NLP-Systeme schwieriger zu lösen. Entwickelt wurde der Datensatz vom Allen Institute for Artificial Intelligence und der University of Washington.

(Bild: © aga7ta - stock.adobe.com)

WinoGrande ist der Name eines großen Datensatzes zur Bewertung der Fähigkeit von NLP-Systemen zu vernünftigen Schlussfolgerungen. Mit WinoGrande lässt sich – etwas banal ausgedrückt – der „gesunde Menschenverstand“ von Sprachmodellen prüfen. Man bekommt einen Eindruck davon, was die Maschinen beim Lesen von Texten wirklich „verstehen“. Der WinoGrande-Datensatz besteht aus insgesamt 44.000 Problemstellungen, die vom NLP-System gelöst werden müssen. Es handelt sich jeweils um zwei Teilsätze, bei denen im zweiten Teilsatz eine Lücke mit dem richtigen Wort in Bezug auf den ersten Teilsatz gefüllt werden muss.

Inspiriert ist der WinoGrande-Datensatz von der 2011 entwickelten Winograd Schema Challenge (WSC). WinoGrande besteht aber aus wesentlich mehr Problemstellungen und ist für NLP-Systeme schwieriger zu lösen. Entwickelt wurde der Datensatz im Jahr 2019 von den Wissenschaftlern Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula und Yejin Choi des Allen Institute for Artificial Intelligence und der University of Washington. Die Zielsetzung war es, eine größere Anzahl angepasster Problemstellungen zu entwickeln, die NLP-Systeme vor größere Probleme als die Winograd Schema Challenge stellen. Der Datensatz wurde in einem Crowdsourcing-Ansatz erstellt. Die Problemstellungen wurden anschließend von einem Algorithmus zur Bias-Reduktion geprüft und gefiltert.

Im Vergleich zur Winograd Schema Challenge erzielen NLP-Systeme beim WinoGrande-Benchmark deutlich niedrigere Erfolgsquoten. Sie liegen in einem Bereich zwischen circa 59 und 79 Prozent. Menschen lösen die Problemstellungen mit einer Erfolgsquote von 94 Prozent. Auf den Internetseiten des Allen Institute for Artificial Intelligence ist ein Leaderboard mit Ergebnissen verschiedener Sprachmodelle veröffentlicht.

Grundlegende Informationen zur Winograd Schema Challenge (WSC)

WinoGrande baut auf der Winograd Schema Challenge auf. Die Winograd Schema Challenge wurde von Levesque, Davis und Morgenstern im Jahr 2011 entwickelt. Es handelt sich um einen Benchmark zur Bewertung der Fähigkeiten zu vernünftigen Schlussfolgerungen (Commonsense Reasoning) von NLP-Systemen. Die WSC sollte ein Fortschritt zum Turing-Test darstellen. Benannt ist die Winograd Schema Challenge nach dem Professor für Computerwissenschaften Terry Winograd der Stanford University. Die Winograd Schema Challenge besteht aus 273 manuell von Fachkräften erstellten Pronomen-Zuordnungsproblemstellungen, die von statistischen Modellen über reines Assoziieren von Wörtern nicht zu lösen sind. Das Lösen der Problemstellungen erfordert ein tieferes Verständnis der Semantik und die Fähigkeit zu logischen Schlussfolgerungen. Ein Beispiel für eine solche Problemstellung ist:

Die Trophäe passt nicht in die braune Tasche, weil sie zu groß/klein ist.

Das NLP-System muss „groß“ und „klein“ jeweils dem richtigen Wort zuordnen. In diesem Fall gehört „groß“ zu „Trophäe“ und „klein“ zu „Tasche“.

Motivation zur Entwicklung von WinoGrande

Auch wenn die Künstliche Intelligenz und die Verarbeitung von natürlicher Sprache in den vergangenen Jahren enorme Fortschritte gemacht haben, stellt die Fähigkeit zu vernünftigen Schlussfolgerungen für ein NLP-System nach wie vor eine Herausforderung dar. Über Benchmarks soll diese Fähigkeit der NLP-Systeme bewertbar werden. Aktuelle Sprachmodelle erzielen in Benchmarks wie der Winograd Schema Challenge mittlerweile Erfolgsquoten von über 90 Prozent. Letztlich ist aber nicht wirklich klar, was die Maschinen von dem, was sie lesen, wirklich „verstehen“.

Es liegt die Vermutung nahe, dass die hohen Erfolgsquoten auch durch falsche Untersuchungsmethoden oder versteckte Abhängigkeiten in den Fragen zustande kommen. Um der Fragestellung nachzugehen, ob die Sprachmodelle tatsächlich so gute Fähigkeiten zu vernünftigen Schlussfolgerungen besitzen oder ob die Ergebnisse von unbeabsichtigtem Bias beeinflusst sind, wurde WinoGrande entwickelt. WinoGrande besteht aus wesentlich mehr Problemstellungen und soll tatsächliche Common-Sense-Reasoning-Fähigkeiten zum Lösen der Fragestellungen erfordern.

Erstellung und Inhalt des WinoGrande-Datensatzes

Um die hohe Zahl von 44.000 Problemstellungen zu erstellen, verfolgt WinoGrande einen Crowdsourcing-Ansatz. Die Fragestellungen in Form von Sätzen wurden von Crowdworkern in Amazon Mechanical Turk (AMT) erstellt. Anschließend wurden sie an drei weitere Crowdworker übergeben, die sie nach bestimmten Kriterien prüften und versuchten, sie zu beantworten. Kriterien waren, dass die Lösung der Problemstellung nicht durch einfache Wortassoziation über den lokalen Kontext abgeleitet werden kann, die Problemstellung eindeutig ist und sie von mindestens zwei Arbeitern korrekt beantwortet werden kann. Die Fragestellungen, die alle Kriterien erfüllten, wurden anschließend mithilfe eines Algorithmus (AFLITE) gefiltert und systematisch Bias-reduziert. Dies soll verhindern, dass Sprachmodelle über enthaltene unbeabsichtigte Datenmuster oder über Korrelationen die Problemstellungen lösen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Ein Beispiel für eine Fragestellung im WinoGrande-Stil ist:

Rebecca ist schlanker als Carrie, deshalb begann ____ sich Gedanken über Kalorien und Diät zu machen.

In diesem Fall muss das Sprachmodell die Wortlücke mit der richtigen Antwort „Carrie“ füllen.

Ergebnisse des WinoGrande-Benchmarks

Beim Benchmark mit dem WinoGrande-Datensatz erzielten moderne Sprachmodelle im Gegensatz zum WSC-Benchmark eine deutlich geringere Leistung. Sie lag zwischen circa 59 und 79 Prozent. Menschen erreichen eine Erfolgsquote von 94 Prozent. Die verminderte Leistung beim WinoGrande-Benchmark lässt vermuten, dass die hohen Erfolgsquoten beim WSC-Benchmark nicht auf reinen Common-Sense-Reasoning-Fähigkeiten der Sprachmodelle basierten. Anscheinend wurden auch unbeabsichtigte Datenmuster oder Korrelationen in den WSC-Fragestellungen von den Sprachmodellen genutzt, um die richtigen Antworten zu finden. Die guten Ergebnisse im WSC-Test schienen teils übertrieben gewesen zu sein.

(ID:48986681)