Definition Was ist Commonsense Natural Language Inference?
Anbieter zum Thema
Commonsense Natural Language Inference (NLI) ist eine Fähigkeit von KI-Sprachmodellen zur Verarbeitung und zum Verständnis natürlicher Sprache. Sie besteht aus der Aufgabe, zu bestimmen, ob eine Hypothese abhängig von einer gegebenen Prämisse folgerichtig, widersprüchlich oder unbestimmt (neutral) ist. Im NLP-Umfeld existieren zahlreiche Datensätze, mit denen sich die NLI-Fähigkeiten von Sprachmodellen trainieren, testen und bewerten lassen.

Commonsense Natural Language Inference, abgekürzt NLI, ist ein Fachbegriff aus dem Bereich des Natural Language Processings (NLP – Verarbeitung natürlicher Sprache). Er beschreibt die Fähigkeit eines Sprachmodells, den Inhalt und die Bedeutung natürlichsprachiger Texte mithilfe von Vorwissen und logischem Schlussfolgern zu verstehen. Das dafür notwendige Wissen und die benötigten logischen Fähigkeiten werden in Analogie zu menschlichen Fähigkeiten als „gesunder Menschenverstand“ bezeichnet. Dies soll das englische Wort für gesunder Menschenverstand „Commonsense“ zum Ausdruck bringen.
Im Speziellen geht es um die Aufgabe, zu bestimmen, ob eine Hypothese logisch aus einer gegebenen Prämisse folgt und damit folgerichtig, widersprüchlich oder unbestimmt (neutral) ist. Die Hypothese muss klassifiziert und einer der Klassen „Entailment“, „Contradiction“ oder „Neutral“ zugeordnet werden. Da natürliche Sprache oft unpräzise und mehrdeutig ist, stellt Commonsense Natural Language Inference Sprachmodelle vor große Herausforderungen. NLI wird für viele Anwendungen der Künstlichen Intelligenz benötigt, beispielsweise für Chatbots oder maschinelle Übersetzungen von Text. Im NLP-Umfeld existieren zahlreiche Datensätze, mit denen sich die NLI-Fähigkeiten von Sprachmodellen trainieren, testen und bewerten lassen.
Einfaches Beispiel für eine typische NLI-Aufgabe
Zum besseren Verständnis der Commonsense Natural Language Inference im Folgenden ein einfaches Beispiel einer typischen NLI-Aufgabe:
Prämisse: Ein älterer Mensch wartet im Schnellrestaurant
Hypothese 1: Eine Person wartet auf ihr Essen (Entailment – folgerichtig)
Hypothese 2: Eine Frau möchte eine Bratwurst bestellen (Neutral – unbestimmt)
Hypothese 3: Ein Mann wartet in der Schlange auf den Bus (Contradiction – widersprüchlich)
Grundlegende Problemstellung
Menschen nutzen ihren sogenannten gesunden Menschenverstand, um Aussagen oder Beschreibungen von Situationen in einem Text zu verstehen. Sie setzen dafür ihr erworbenes Vorwissen, bereits gemachte Erfahrungen und die Fähigkeit, logisch zu schlussfolgern ein. Schon bei mit wenigen Worten beschriebene Situationen oder Sachverhalten können Menschen Zusammenhänge richtig erfassen und korrekte Antworten oder plausible Fortführungen ableiten. Sprachmodelle stellt dies vor große Herausforderungen. Ihnen fehlt das Hintergrundwissen und der „gesunde Menschenverstand“, um die möglichen Bedeutungen von Textaussagen korrekt zu verstehen. Natürliche Sprache ist oft unpräzise und mehrdeutig und erfordert zum Verständnis besondere Fähigkeiten. Computer müssen das Zusammenspiel vieler verschiedene Aspekte natürlicher Sprache wie Syntax oder Semantik beachten und sie mit externem Wissen und Logik in Beziehung setzen. Hierfür sind fortschrittliche Algorithmen und Methoden des maschinellen Lernens notwendig. Neben linguistischer Kompetenz benötigen die Sprachmodelle ein gewisses Hintergrundwissen und eben einen „gesunden Menschenverstand“.
Benchmarks zum Test der NLI-Fähigkeiten von Sprachmodellen
Um die NLI-Fähigkeiten von Sprachmodellen weiterzuentwickeln, zu trainieren, zu testen und zu bewerten, wurden zahlreiche Benchmarks und Datensätze erstellt. Je nach Benchmark und Datensatz lassen sich mit ihnen neben Commonsense Natural Language Inference noch weitere Fähigkeiten von Sprachmodellen trainieren, testen und bewerten. Beispiele für Datensätze zum Test von NLI-Fähigkeiten sind SNLI, MultiNLI, ANLI, WNLI (Winograd NLI), SuperGLUE (Super General Language Understanding Evaluation), FEVER (Fact Extraction and VERification), WIKI-FACTCHECK, SWAG (Situations With Adversarial Generations), HellaSwag und einige mehr.
Wie Sprachmodelle werden auch Benchmarks und Datensätze ständig weiterentwickelt. Nur so können sie mit den immer leistungsfähigeren Sprachmodellen Schritt halten und sie vor echte Herausforderungen beim Lösen der Aufgaben stellen. Ein Beispiel dafür ist der im Jahr 2018 publizierte Datensatz SWAG (Situations With Adversarial Generations). Bereits kurze Zeit nach Erscheinen des Datensatzes erzielten weiterentwickelte Sprachmodelle Ergebnisse von weit über 90-Prozent und übertrafen menschliche Leistungen.
HellaSwag ist eine Weiterentwicklung und soll es Sprachmodellen erschweren, die richtigen Lösungen zu finden. Der Datensatz besteht aus rund 70.000 Fortsetzungsaufgaben. Auf Basis von mit wenigen Sätzen beschriebenen Sachverhalten muss das Sprachmodell aus vier vorgegebenen Antworten oder Fortsetzungen die richtige auswählen. Zum Zeitpunkt der Veröffentlichung von HellaSwag im Jahr 2019 erreichten State-of-the-Art-Modelle weniger als 50 Prozent richtige Ergebnisse. Die menschlichen Ergebnisse liegen bei 95,6 Prozent richtige Antworten. Mittlerweile erzielen aktuellere Sprachmodelle auch bei HellaSwag Ergebnisse mit sehr hohen Prozentwerten.
Anwendungsbereiche der Commonsense Natural Language Inference
Die Fähigkeit zur Commonsense Natural Language Inference hat viele praktische Anwendungsbereiche. Sie wird beispielsweise für intelligente Chatbots benötigt. Dank ihrer NLI-Fähigkeiten sind Chatbots in der Lage, menschenähnliche Konversationen zu führen und gestellte Frage zu verstehen und richtig zu beantworten. Ein weiterer Anwendungsbereich ist die maschinelle Übersetzung von Text. Die Fähigkeit zur Commonsense Natural Language Inference stellt sicher, dass die Bedeutung eines übersetzten Satzes der Bedeutung des Satzes in seiner Ausgangssprache entspricht. Weitere Anwendungen sind das Erstellen von Textzusammenfassungen oder das automatische Kategorisieren von Texten.
(ID:49306767)