Definition Was ist GLUE (General Language Understanding Evaluation)?

Anbieter zum Thema

GLUE ist ein Multitask-Benchmark und eine Analyse-Plattform für NLU-Modelle (Natural Language Understanding). Das Verständnis natürlicher Sprache wird mithilfe verschiedener Aufgaben geprüft und beurteilt. Das Benchmarking besteht aus insgesamt neun verschiedenen NLU-Aufgaben. Über eine Online-Plattform lassen sich die Ergebnisse der getesteten Modelle veröffentlichen und vergleichen. Ziel von GLUE ist es, die Leistung von NLU-Systemen vergleichbar zu machen und deren Entwicklung voranzubringen.

(Bild: © aga7ta - stock.adobe.com)

Das Akronym GLUE steht für General Language Understanding Evaluation. Es handelt sich um eine Plattform zur Bewertung, Analyse und zum Vergleich von NLP- und NLU-Modellen (Natural Language Processing und Natural Language Understanding). GLUE besteht aus einer Sammlung von Ressourcen und Datensätzen für das Trainieren, Evaluieren und Analysieren solcher Systeme. Insgesamt beinhaltet das Multitask-Benchmarking neun verschiedene Aufgaben zum Verständnis natürlichsprachiger Texte.

An der Entwicklung von General Language Understanding Evaluation waren maßgeblich die New York University, die University of Washington und das Unternehmen DeepMind beteiligt. Ziel von GLUE ist es, die Sprachverständnisleistung von NLU-Systemen vergleichbar zu machen und die Entwicklung robuster, leistungsfähiger NLP-Modelle weiter voranzubringen. GLUE arbeitet modellunabhängig und ist aufgrund des Multitask-Charakters nicht auf einzelne Textverständnisaufgaben beschränkt. Prinzipiell lassen sich beliebige NLU-Modelle unabhängig von ihrer Architektur evaluieren. Zu den verschiedenen Aufgaben im Rahmen des Benchmarkings zählen zum Beispiel die Beantwortung von Fragen zu einem kurzen Wikipedia-Text, das Zuordnen des richtigen Kontexts mehrdeutiger Wörter oder die korrekte Bestimmung des Bezugs eines Pronomens.

General Language Understanding Evaluation hat sich etabliert. Für einen Großteil der aktuell existierenden NLU-Systeme wurden die Ergebnisse des GLUE-Benchmarks veröffentlicht. Aufgrund der kontinuierlich steigenden Leistung der NLU-Systeme wurde mittlerweile SuperGLUE entwickelt. Das SuperGLUE-Benchmarking baut auf GLUE auf, ist aber mit neuen, schwierigeren Sprachverständnisaufgaben ausgestattet und berücksichtigt so die immer bessere Performance der Modelle.

Motivation für die Entwicklung von GLUE

Der Mensch entwickelt durch sein Wissen und die Fähigkeit zu logischen Schlussfolgerungen ein intuitives, allgemeines und flexibles Verständnis natürlicher Sprache. Im Gegensatz dazu sind künstliche NLP- und NLU-Modelle in der Regel auf bestimmte Aufgaben spezialisiert. Sie erzielen für einzelne Textverständnisaufgaben zwar zum Teil beeindruckende Leistungen, scheitern aber oft an einfachen Aufgaben außerhalb ihres vorgesehenen Arbeitsgebiets. Für ein gutes, mit menschlicher Leistung vergleichbares Sprach- und Textverständnis ist es erforderlich, dass NLU-Systeme in verschiedenen Sprachverständnisbereichen hohe Leistungen erzielen. Die Architektur der Modelle darf nicht so gestaltet sein, dass sie sich nur exklusiv für die Lösung einer einzigen Aufgabe eignet. Ziel der GLUE-Entwickler war es, eine Analysemöglichkeit für NLU-Systeme zu schaffen, die eine Beurteilung und einen Vergleich der Leistung der Modelle in verschiedenen Sprachverständnisaufgaben erlaubt.

GLUE ist modellunabhängig einsetzbar und erlaubt das Benchmarking von NLU-Modellen unterschiedlicher Architektur. Prinzipiell ist es für das Benchmarking egal, wie das Modell aufgebaut ist oder wie es arbeitet. Es muss lediglich den Input der verschiedenen Tasks verarbeiten und entsprechenden Vorhersage-Output produzieren können.

Die grundlegenden Bestandteile von GLUE

General Language Understanding Evaluation besteht aus folgenden grundlegenden Bestandteilen:

  • neun verschiedene Sprachverständnisaufgaben für das Benchmarking der Modelle
  • einem Diagnosedatensatz für die Analyse und Evaluierung von Modellen unter Berücksichtigung besonderer linguistischer Phänomene
  • eine Online-Plattform und eine Rangliste zur Visualisierung und zum Vergleich der Benchmark-Ergebnisse der verschiedenen Modelle

Die neun verschiedenen Sprachverständnisaufgaben von GLUE

General Language Understanding Evaluation beinhaltet insgesamt neun verschiedene englischsprachige Aufgaben. Dazu zählen zum Beispiel Aufgaben wie die Beantwortung von Fragen zu einem kurzen Wikipedia-Text, das Zuordnen des richtigen Kontexts mehrdeutiger Wörter oder die Bestimmung des korrekten Bezugs eines Pronomens. Im Detail handelt es sich bei den neun Aufgaben um diese Tasks:

  • 1. CoLA (Corpus of Linguistic Acceptability)
  • 2. SST-2 (Stanford Sentiment Treebank)
  • 3. MRPC (Microsoft Research Paraphrase Corpus)
  • 4. QQP (Quora Question Pairs)
  • 5. STS-B (Semantic Textual Similarity Benchmark)
  • 6. MNLI (Multi-Genre Natural Language Inference)
  • 7. QNLI (Question NLI)
  • 8. RTE (Recognizing Textual Entailment)
  • 9. WNLI (Winograd NLI)

Die neun Sprachaufgaben lassen sich in verschiedene Kategorien unterteilen. CoLA (Corpus of Linguistic Acceptability) und SST-2 (Stanford Sentiment Treebank) zählen zu den Einzelsatzaufgaben. Zu den Ähnlichkeits- und Paraphrasenaufgaben gehören MRPC (Microsoft Research Paraphrase Corpus), QQP (Quora Question Pairs) und STS-B (Semantic Textual Similarity Benchmark). Eine weitere Aufgabenkategorie sind die Inferenzaufgaben (NLI-Aufgaben). Zu dieser Kategorie gehören die Tasks MNLI (Multi-Genre Natural Language Inference), QNLI (Question NLI), RTE (Recognizing Textual Entailment) und WNLI (Winograd NLI).

Der Ablauf des Benchmarkings

Um ein bestimmtes Modell nach GLUE zu evaluieren, muss es alle neun Sprachaufgaben gemäß mit den bereitgestellten Ressourcen und Datensätzen durchführen. Für jede Aufgabe erzielt das Modell eine bestimmte Punktzahl (Prozentzahl). Der Durchschnitt über alle Punktzahlen bildet das Gesamtergebnis des GLUE-Benchmarks für das evaluierte Modell.

(ID:48646277)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung