Definition Was ist SuperGLUE?
Anbieter zum Thema
SuperGLUE ist ein Benchmark zur Evaluierung des Sprachverständnisses und der NLU-Fähigkeiten (Natural Language Understanding) von KI-Sprachmodellen. Das Verständnis natürlicher Sprache wird mit Aufgaben aus insgesamt aus acht verschiedenen Kategorien getestet und beurteilt. SuperGLUE ist der Nachfolger des GLUE-Benchmarks. Für die Sprachmodelle ist SuperGLUE schwieriger zu lösen. Die Ergebnisse lassen sich über ein Online-Leaderboard veröffentlichen und vergleichen.

Das Kürzel „GLUE“ in SuperGLUE steht für „General Language Understanding Evaluation“. Bei SuperGLUE handelt es sich um ein Multitask-Benchmarking zur Bewertung, Analyse und zum Vergleich des Verständnisses natürlicher Sprache von KI-Sprachmodellen. Es werden die NLU-Fähigkeiten (Natural Language Understanding) der Sprachmodelle getestet und mit einem Ergebnisscore versehen.
Das erklärte Ziel von SuperGLUE ist es, die Leistung von NLU-Sprachmodellen vergleichbar zu machen und deren Entwicklung weiter voranzubringen. SuperGLUE ist der Nachfolger des GLUE-Benchmarks und für Sprachmodelle schwieriger zu lösen. Durch die fortschreitende Entwicklung der Künstlichen Intelligenz übertrafen Sprachmodelle schon bald nach Veröffentlichung von GLUE die durchschnittliche menschliche Leistung im Test. Bei der Veröffentlichung von SuperGLUE im Jahr 2019 lagen damals aktuelle Sprachmodelle deutlich unter den menschlichen Ergebnissen. Heute gilt auch SuperGLUE von mehreren Sprachmodellen als gelöst. Die menschliche Leistung im Benchmark wird von diesen Modellen deutlich übertroffen.
Der SuperGLUE-Benchmark besteht aus NLU-Aufgaben aus insgesamt acht verschiedenen Kategorien zum Verständnis natürlichsprachiger Texte. Durch den Multitask-Charakter des Benchmarks ist SuperGLUE nicht auf bestimmte Textverständnisaufgaben beschränkt und lässt sich prinzipiell zur Evaluierung beliebiger Sprachmodelle mit unterschiedlicher Architektur einsetzen. Die Ergebnisse können über ein Online-Leaderboard veröffentlicht und verglichen werden. Entwickelt wurde Super GLUE von Wissenschaftlern der New York University, der University of Washington und der Unternehmen DeepMind und Meta.
Motivation für die Entwicklung von SuperGLUE
Aufgrund seines erworbenen Wissens, seiner Erfahrungen und der Fähigkeit logisch zu schlussfolgern, hat der Mensch ein allgemeines, flexibles und intuitives Verständnis natürlicher Sprache. Sprachmodelle mit Künstlicher Intelligenz hingegen sind meist auf einzelne Aufgaben des Textverständnisses und Teilbereiche der Verarbeitung natürlicher Sprache (Natural Language Processing) spezialisiert. Bei bestimmten Sprachverständnisaufgaben erzielen sie beeindruckende Ergebnisse, bei einfachen Aufgaben außerhalb ihres vorgesehenen Einsatzbereichs versagen sie aber häufig kläglich.
Damit Sprachmodelle mit menschlichem Sprachverständnis vergleichbare Leistungen erzielen, ist es erforderlich, dass sie Sprach- und Textverständnisaufgaben aus vielen verschiedenen Bereichen lösen. Die Sprachmodelle dürfen bezüglich der eingesetzten Algorithmen und Architekturen nicht so gestaltet sein, dass sie sich nur für die Lösung von Aufgaben aus einzelnen Bereichen eignen. Ziel der Entwickler von SuperGLUE und des Vorgängers GLUE war es, eine Benchmarking-Möglichkeit bereitzustellen, die es erlaubt, die Leistung von Sprachmodellen in verschiedenen Sprachverständnisbereichen zu beurteilen und vergleichbar zu machen. Letztendlich soll das Benchmarking die Entwicklung leistungsfähiger Sprachmodelle vorbringen.
SuperGLUE und GLUE sind modellunabhängig für Sprachmodelle unterschiedlicher Architektur einsetzbar. Da mit GLUE evaluierte Sprachmodelle schon bald nach Veröffentlichung des Benchmarks die menschliche Leistung übertrafen, entwickelten die Macher von GLUE mit SuperGLUE ein deutlich schwieriger zu lösendes Benchmarking.
Unterschiede zwischen SuperGLUE und GLUE
SuperGLUE orientiert sich grundsätzlich am Design von GLUE, unterscheidet sich aber in folgenden Punkten vom Vorgänger-Benchmark:
- schwieriger zu lösende NLU-Aufgaben
- verschiedenartigere Aufgabenformate wie Koreferenzauflösung und Fragebeantwortung (Question Answering – QA)
- umfassende Baseline menschlicher Leistung für alle Benchmark-Tasks
- ausgestattet mit neuem, modularem Toolkit für die Arbeit beim Pretraining und Multitask- und Transfer-Learning
- neues, öffentlich zugängliches Online-Leaderboard für die Benchmark-Ergebnisse mit überarbeiteten, faireren Benutzungsregeln
Inhalt und Tasks von SuperGLUE
Die benötigten Daten für das Benchmarking sind inklusive Software-Toolkit auf der SuperGLUE-Website verfügbar. SuperGLUE besteht aus Sprachverständnisaufgaben aus acht verschiedenen Bereichen in englischer Sprache. Es müssen beispielsweise Fragen zu Wikipedia-Texten beantwortet oder der richtige Kontext mehrdeutiger Wörter bestimmt werden. Im Detail handelt es sich um diese acht Tasks:
- 1. BoolQ (Boolean Questions)
- 2. CB (CommitmentBank)
- 3. COPA (Choice of Plausible Alternatives)
- 4. MultiRC (Multi-sentence Reading Comprehension)
- 5. ReCoRD (Reading Comprehension with Commonsense Reasoning Dataset)
- 6. RTE (Recognizing Textual Entailment)
- 7. WiC (Word-in-Context)
- 8. WSC (Winograd Schema Challenge)
Neben diesen acht Tasks enthält SuperGLUE zwei Diagnosedatensätze. Sie sind als Analysetool für die Fehlerauswertung, den qualitativen Modellvergleich, die Entwicklung kontroverser Beispiele und die Untersuchung des Modell-Bias einsetzbar.
Modellevaluierung mit SuperGLUE und Ergebnisse
Für die Evaluierung eines Sprachmodells mit SuperGLUE müssen alle acht Tasks entsprechend der bereitgestellten Datensätze und Ressourcen ausgeführt werden. Bei jedem Task erzielt das Sprachmodell eine bestimmte Ergebnispunktzahl in Prozent. Der Durchschnitt aller Prozentzahlen der Tasks bildet das Gesamtergebnis des Sprachmodells im SuperGLUE-Benchmark. Die menschliche Leistung im Benchmark (SuperGLUE Human Baseline) liegt bei 89,8 Prozent. Direkt nach der Veröffentlichung von SuperGLUE lagen die damals besten Sprachmodelle rund 20 Prozent unter der menschlichen Leistung. 2021 haben KI-Sprachmodell die menschliche Leistung im SuperGLUE-Benchmark erstmals übertroffen. Mittlerweile erzielen zahlreiche Modelle Ergebnisprozentzahlen von über 90 Prozent.
Das bekannte Sprachmodell GPT-3 von OpenAI schaffte es übrigens nicht in die Bestenliste des Benchmarks. GPT-3 erzielt zwar sehr gute Ergebnisse beim Generieren von Text und bei einfachen Wissensfragen, löst aber viele Tasks des SuperGLUE-Benchmarks nur mit relativ niedrigen Ergebnisprozentzahlen.
(ID:49534218)