HellaSwag ist ein großer Datensatz, mit dem sich die Fähigkeiten der Commonsense Natural Language Inference (NLI) von Sprachmodellen beurteilen und messen lässt. Der Datensatz besteht aus tausenden von Fortsetzungsaufgaben. Es muss zwischen mehreren vorgegebenen Alternativen jeweils die richtige Fortsetzung eines mit wenigen Sätzen beschriebenen Sachverhalts gefunden werden. HellaSwag ist mit gesundem Menschenverstand relativ einfach zu lösen, stellt Sprachmodelle aber vor größere Herausforderungen.
HellaSwag ist ein im Mai 2019 veröffentlichter Datensatz, mit dem sich die Fähigkeiten der Commonsense Natural Language Inference (NLI) von Sprachmodellen beurteilen und messen lässt. Er wurde von KI-Experten der University of Washington und dem Allen Institute for Artificial Intelligence entwickelt. Maßgeblich daran beteiligt waren Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi und Yejin Choi. HellaSwag kann als eine Weiterentwicklung des 2018 von den Teils gleichen Wissenschaftlern veröffentlichten Datensatzes SWAG (Situations With Adversarial Generations) verstanden werden. Er ist für KI-Sprachmodelle wesentlich schwerer zu lösen.
HellaSwag besteht aus rund 70.000 Fortsetzungsaufgaben. Sachverhalte werden mit wenigen Sätzen beschrieben und die KI muss zwischen vier vorgegebenen Antworten beziehungsweise Fortsetzungen jeweils die richtige auswählen. Die Fragen stammen von ActivityNet oder wikiHow. Die vorgegebenen falschen Antworten wurden maschinell generiert. Der Kontext der Aufgaben und Antworten wurde so gewählt, dass die Fragen für Menschen recht einfach zu beantworten sind, Sprachmodelle aber vor größere Herausforderungen stellen.
Das Ergebnis wird in Prozent angegeben. Die menschliche Leistung liegt bei HellaSwag bei 95,6 Prozent. Die Ergebnisse der mit dem Datensatz beurteilten Sprachmodelle lassen sich auf einem Leaderboard veröffentlichen. Aktuelle Sprachmodelle erreichen bei HellaSwag inzwischen Ergebnisse mit hohen Prozentwerten. HellaSwag steht unter MIT-Lizenz und ist frei verfügbar.
Motivation für die Entwicklung von HellaSwag
Um eine Situation oder einen Text zu verstehen, nutzen Menschen ihren sogenannten gesunden Menschenverstand. Sie verwenden bereits erworbenes Wissen, schon gemachte Erfahrungen, ihr natürliches Urteilsvermögen und ihre Fähigkeit zu logischen Schlussfolgerungen. Beschreibt man einen Sachverhalt oder eine Situation mit wenigen Sätzen, ist der Mensch in der Lage, die korrekten Zusammenhänge zu erfassen und eine plausible Fortführung oder korrekte Antwort vorherzusagen.
Die Aufgabe, korrekte Antworten oder plausible Fortführungen eines geschilderten Sachverhalts vorherzusagen, wird im NLP-Umfeld auch als Natural Language Inference (NLI) bezeichnet. Um Sprachmodelle bezüglich NLI zu testen, wurden schon zahlreiche Datensätze entwickelt. Einer dieser Datensätze ist der 2018 veröffentlichte SWAG-Datensatz. Schon relativ schnell nach der Veröffentlichung übertrafen die Sprachmodelle die menschliche Leistung und erzielten Ergebnisse im hohen 90-Prozentbereich.
Für aussagekräftige Tests müssen Benchmark-Datensätze mit dem technischen Fortschritt und der Entwicklung immer leistungsfähigerer Sprachmodelle Schritt halten. HellaSwag kann als eine Weiterentwicklung von SWAG verstanden werden und stellt NLP-Modelle vor größere Herausforderungen, die richtigen Lösungen zu finden. Während Menschen Ergebnisse über 95 Prozent erzielen, erreichten zum Zeitpunkt der Veröffentlichung State-of-the-Art-Modelle weniger als 50 Prozent. Mittlerweile erreichen aktuelle Sprachmodelle auch bei HellaSwag Ergebnisse mit hohen Prozentwerten.
Erstellung, Inhalt und Merkmale von HellaSwag
Der Datensatz HellaSwag besteht aus rund 70.000 Multiple-Choice-Textaufgaben. Eine Situation oder ein Sachverhalt wird mit wenigen Sätzen beschrieben. Zu jeder Beschreibung existieren vier ebenfalls mit kurzen Sätzen beschriebene Fortsetzungen, von denen nur eine plausibel und die richtige ist. Die Situationen beziehungsweise Sachverhalte stammen von ActivityNet oder wikiHow. Die Einbeziehung von wikiHow trägt zu einer höheren Kontext-Diversität und Generierungslänge bei. Die falschen Antworten wurden maschinell erzeugt und von Menschen geprüft. Sie sollen Sprachmodelle täuschen, aber Menschen keine Schwierigkeiten bereiten, die richtige Lösung zu finden.
Die richtige Antwort zu finden, ist für Menschen mehr oder weniger trivial. Falsche Antworten werden zum Teil sogar als lächerlich empfunden. Um falsche Antworten zu generieren, die die Sprachmodelle täuschen, kommt sogenanntes Adversarial Filtering (AF) zum Einsatz. Menschen erzielen bei HellaSwag Ergebnisse von über 95 Prozent. Sprachmodelle haben Erfolgsquoten von teilweise nur unter 50 Prozent.
Beispiel für eine Aufgabe in HellaSwag
Das ist ein Beispiel für eine Aufgabe in HellaSwag (im Original in Englisch):
Eine Frau befindet sich mit einem Hund und einem Wassereimer im Freien. Der Hund rennt herum und versucht einem Bad aus dem Weg zu gehen. Die Frau
a) spült den Wassereimer mit Seife aus und föhnt den Kopf des Hunds trocken
b) verwendet einen Schlauch, um zu verhindern, dass er seifig wird.
c) macht den Hund nass und er rennt davon.
d) steigt mit dem Hund in die Badewanne.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Die richtige Antwort in diesem Beispiel ist die Antwort c).