Definition Was ist HellaSwag?

Anbieter zum Thema

HellaSwag ist ein großer Datensatz, mit dem sich die Fähigkeiten der Commonsense Natural Language Inference (NLI) von Sprachmodellen beurteilen und messen lässt. Der Datensatz besteht aus tausenden von Fortsetzungsaufgaben. Es muss zwischen mehreren vorgegebenen Alternativen jeweils die richtige Fortsetzung eines mit wenigen Sätzen beschriebenen Sachverhalts gefunden werden. HellaSwag ist mit gesundem Menschenverstand relativ einfach zu lösen, stellt Sprachmodelle aber vor größere Herausforderungen.

(Bild: © aga7ta - stock.adobe.com)

HellaSwag ist ein im Mai 2019 veröffentlichter Datensatz, mit dem sich die Fähigkeiten der Commonsense Natural Language Inference (NLI) von Sprachmodellen beurteilen und messen lässt. Er wurde von KI-Experten der University of Washington und dem Allen Institute for Artificial Intelligence entwickelt. Maßgeblich daran beteiligt waren Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi und Yejin Choi. HellaSwag kann als eine Weiterentwicklung des 2018 von den Teils gleichen Wissenschaftlern veröffentlichten Datensatzes SWAG (Situations With Adversarial Generations) verstanden werden. Er ist für KI-Sprachmodelle wesentlich schwerer zu lösen.

HellaSwag besteht aus rund 70.000 Fortsetzungsaufgaben. Sachverhalte werden mit wenigen Sätzen beschrieben und die KI muss zwischen vier vorgegebenen Antworten beziehungsweise Fortsetzungen jeweils die richtige auswählen. Die Fragen stammen von ActivityNet oder wikiHow. Die vorgegebenen falschen Antworten wurden maschinell generiert. Der Kontext der Aufgaben und Antworten wurde so gewählt, dass die Fragen für Menschen recht einfach zu beantworten sind, Sprachmodelle aber vor größere Herausforderungen stellen.

Das Ergebnis wird in Prozent angegeben. Die menschliche Leistung liegt bei HellaSwag bei 95,6 Prozent. Die Ergebnisse der mit dem Datensatz beurteilten Sprachmodelle lassen sich auf einem Leaderboard veröffentlichen. Aktuelle Sprachmodelle erreichen bei HellaSwag inzwischen Ergebnisse mit hohen Prozentwerten. HellaSwag steht unter MIT-Lizenz und ist frei verfügbar.

Motivation für die Entwicklung von HellaSwag

Um eine Situation oder einen Text zu verstehen, nutzen Menschen ihren sogenannten gesunden Menschenverstand. Sie verwenden bereits erworbenes Wissen, schon gemachte Erfahrungen, ihr natürliches Urteilsvermögen und ihre Fähigkeit zu logischen Schlussfolgerungen. Beschreibt man einen Sachverhalt oder eine Situation mit wenigen Sätzen, ist der Mensch in der Lage, die korrekten Zusammenhänge zu erfassen und eine plausible Fortführung oder korrekte Antwort vorherzusagen.

Die Aufgabe, korrekte Antworten oder plausible Fortführungen eines geschilderten Sachverhalts vorherzusagen, wird im NLP-Umfeld auch als Natural Language Inference (NLI) bezeichnet. Um Sprachmodelle bezüglich NLI zu testen, wurden schon zahlreiche Datensätze entwickelt. Einer dieser Datensätze ist der 2018 veröffentlichte SWAG-Datensatz. Schon relativ schnell nach der Veröffentlichung übertrafen die Sprachmodelle die menschliche Leistung und erzielten Ergebnisse im hohen 90-Prozentbereich.

Für aussagekräftige Tests müssen Benchmark-Datensätze mit dem technischen Fortschritt und der Entwicklung immer leistungsfähigerer Sprachmodelle Schritt halten. HellaSwag kann als eine Weiterentwicklung von SWAG verstanden werden und stellt NLP-Modelle vor größere Herausforderungen, die richtigen Lösungen zu finden. Während Menschen Ergebnisse über 95 Prozent erzielen, erreichten zum Zeitpunkt der Veröffentlichung State-of-the-Art-Modelle weniger als 50 Prozent. Mittlerweile erreichen aktuelle Sprachmodelle auch bei HellaSwag Ergebnisse mit hohen Prozentwerten.

Erstellung, Inhalt und Merkmale von HellaSwag

Der Datensatz HellaSwag besteht aus rund 70.000 Multiple-Choice-Textaufgaben. Eine Situation oder ein Sachverhalt wird mit wenigen Sätzen beschrieben. Zu jeder Beschreibung existieren vier ebenfalls mit kurzen Sätzen beschriebene Fortsetzungen, von denen nur eine plausibel und die richtige ist. Die Situationen beziehungsweise Sachverhalte stammen von ActivityNet oder wikiHow. Die Einbeziehung von wikiHow trägt zu einer höheren Kontext-Diversität und Generierungslänge bei. Die falschen Antworten wurden maschinell erzeugt und von Menschen geprüft. Sie sollen Sprachmodelle täuschen, aber Menschen keine Schwierigkeiten bereiten, die richtige Lösung zu finden.

Die richtige Antwort zu finden, ist für Menschen mehr oder weniger trivial. Falsche Antworten werden zum Teil sogar als lächerlich empfunden. Um falsche Antworten zu generieren, die die Sprachmodelle täuschen, kommt sogenanntes Adversarial Filtering (AF) zum Einsatz. Menschen erzielen bei HellaSwag Ergebnisse von über 95 Prozent. Sprachmodelle haben Erfolgsquoten von teilweise nur unter 50 Prozent.

Beispiel für eine Aufgabe in HellaSwag

Das ist ein Beispiel für eine Aufgabe in HellaSwag (im Original in Englisch):

Eine Frau befindet sich mit einem Hund und einem Wassereimer im Freien. Der Hund rennt herum und versucht einem Bad aus dem Weg zu gehen. Die Frau

a) spült den Wassereimer mit Seife aus und föhnt den Kopf des Hunds trocken

b) verwendet einen Schlauch, um zu verhindern, dass er seifig wird.

c) macht den Hund nass und er rennt davon.

d) steigt mit dem Hund in die Badewanne.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Die richtige Antwort in diesem Beispiel ist die Antwort c).

(ID:48839887)