Definition Was ist Adversarial Filtering?

Von Dipl.-Ing. (FH) Stefan Luber Lesedauer: 4 min |

Anbieter zum Thema

Adversarial Filtering (AF) ist ein Verfahren zum Erstellen möglichst schwer zu lösender Aufgaben für NLI-Benchmark-Datensätze. Das Verfahren generiert falsche Hypothesen, die für Menschen relativ einfach zu erkennen sind, Sprachmodelle aber beim Finden der zu einer Prämisse logisch passenden Hypothese vor Probleme stellen. Mithilfe von AF lässt sich eventuell vorhandener Bias entfernen und die tatsächliche NLI-Fähigkeit eines Sprachmodells besser beurteilen.

(Bild: © aga7ta - stock.adobe.com)

Adversarial Filtering ist ein Verfahren, das im NLP-Umfeld zum Einsatz kommt. Die Abkürzung lautet AF. Das Verfahren wurde von Rowan Zellers et al. vorgeschlagen und unter anderem beim Erstellen des Benchmark-Datensatzes HellaSwag angewandt. Mit HellaSwag lassen sich die Fähigkeiten zur Natural Language Inference (NLI) von Sprachmodellen testen und beurteilen. Ziel von Adversarial Filtering ist es, möglichst schwer zu lösende Aufgabenstellungen zu generieren, indem einfach zu klassifizierende falsche Hypothesen durch schwerer zu klassifizierende falsche Hypothesen ersetzt werden. Die richtige, logisch folgende Annahme (Hypothese) zu einer Vorgabe (Prämisse) zu finden, bleibt für Menschen trotz Adversarial Filtering relativ einfach, Sprachmodelle werden aber vor größere Herausforderungen gestellt.

Adversarial Filtering wurde entwickelt, da Sprachmodelle oft sehr gute Ergebnisse in NLI-Benchmarks erzielen und menschliche Leistungen sogar übertreffen, obwohl es ihnen nach wie vor an echten NLI-Fähigkeiten fehlt. Die richtigen Lösungen werden häufig aufgrund von in den Aufgabenstellungen ungewollt enthaltenen Annotation Artefacts (Anmerkungsartefakten) gefunden.

AF hat sich als ein effektiver Ansatz zur Entfernung dieses Bias erwiesen. Die Anwendung von Adversarial Filtering senkte beim HellaSwag-Datensatz die Erfolgsquote von Sprachmodellen im Vergleich zur menschlichen Leistung deutlich. Adversarial Filtering kommt in abgewandelter Form als Conditional Adversarial Filtering auch für den 2022 entwickelten Benchmark-Datensatz für Commonsense Reasoning „DiscoSense“ zum Einsatz.

Probleme beim Testen der NLI-Fähigkeiten von Sprachmodellen

Menschen verstehen in Texten beschriebene Handlungen und Situationen mithilfe ihres sogenannten gesunden Menschenverstands. Sie nutzen ihr in der Vergangenheit erworbenes Wissen und bereits gemachte Erfahrungen. Durch dieses Wissen und ihre Erfahrungen haben sie gute Fähigkeiten zu logischen Schlussfolgerungen und ein natürliches Urteilsvermögen. Menschen erfassen die Zusammenhänge der mit wenigen Sätzen beschriebenen Situationen oder Sachverhalte richtig und können sinnvoll fortführen oder richtige Antworten auf zugehörige Fragen geben.

Im Umfeld der maschinellen Verarbeitung natürlicher Sprache (Natural Language Processing – NLP) wird die Fähigkeit, zu bestimmen, ob eine bestimmte gegebene Hypothese die logische Folge einer Prämisse ist, als Natural Language Inference (NLI) bezeichnet. Die NLI-Fähigkeit eines Sprachmodells kann mit speziellen NLI-Benchmark-Datensätzen getestet und beurteilt werden. Zu diesen Datensätzen zählen zum Beispiel SWAG und HellaSwag. Allerdings hat man in der Vergangenheit festgestellt, dass Sprachmodelle hohe Erfolgsquoten in Benchmarks erzielen und menschliche Leistungen teilweise sogar übertreffen, obwohl es ihnen nach wie vor an echten NLI-Fähigkeiten fehlt. Ursache hierfür sind die häufig in den Datensätzen ungewollt enthaltenen Annotation Artefacts (Anmerkungsartefakte), also unbeabsichtigte wechselseitige Beziehungen zwischen Input und Output.

Sprachmodelle sind sehr gut darin, diesen Bias zu erkennen und lernen schnell, die richtigen Hypothesen zu einer Prämisse mithilfe des Bias herzuleiten. Adversarial Filtering kommt als Verfahren zum Einsatz, um solchen Bias zu beseitigen beziehungsweise diesen erst gar nicht in den Benchmark-Datensätzen einziehen zu lassen. Trotz Adversarial Filtering bleiben die Aufgabenstellungen für Menschen weiterhin einfach zu beantworten, Sprachmodelle benötigen aber aufgrund des fehlenden Bias echte NLI- und Commonsense-Reasoning-Fähigkeiten.

Prinzipielle Funktionsweise von Adversarial Filtering

Ziel von Adversarial Filtering ist es, falsche Hypothesen für eine Prämisse maschinell zu erzeugen, um die tatsächlichen NLI-Fähigkeiten von Sprachmodellen besser beurteilen zu können und ungewollten Bias zu entfernen. Menschen sollen keine Probleme haben, die logisch folgende, richtige Hypothese zu einer Prämisse auszuwählen. Sprachmodelle dürfen aber die richtige Hypothese nicht durch Lernen aus Bias finden. Die richtigen Hypothesen sollen für die Sprachmodelle möglichst schwer zu finden sein, indem relativ einfach als falsch zu klassifizierende Hypothesen entfernt und durch schwerer als falsch zu klassifizierende Hypothesen ersetzt werden.

Im Prinzip verwendet Adversarial Filtering drei Komponenten: Daten (bestehend aus Aufgaben mit einer richtigen und mehreren generierten falschen Hypothesen), Diskriminator-Sprachmodelle zum Lösen der Aufgaben und Generator-Sprachmodelle zum Generieren neuer falscher Hypothesen. Der Vorgang des Adversarial Filtering besteht aus mehreren Iterationen. Vor jeder Iteration wird der Datensatz zufällig in Trainings- und Testdaten aufgeteilt. In jeder Iteration wird das Diskriminator-Sprachmodell mit dem Trainingsdatensatz trainiert. Anschließend muss es die Aufgaben im Testdatensatz lösen und die richtige Hypothese von den generierten, falschen Hypothesen unterscheiden.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Löst das Diskriminator-Sprachmodell eine Aufgabe falsch, indem es eine generierte falsche Hypothese als richtig klassifiziert, wird die Frage als ausreichend schwierig betrachtet und nicht verändert. Löst es aber eine Aufgabe richtig, wird die am einfachsten zu klassifizierende falsche Hypothese durch eine neu generierte, schwieriger zu klassifizierende falsche Hypothese ersetzt. Die Iterationen des Prozesses werden so lange durchlaufen und auf alle richtig gelösten Aufgaben angewandt, bis die Performance des Testdatensatzes konvergiert.

Weiter verbessern lässt sich der Vorgang, indem in den Iterationen verschiedene Diskriminator-Sprachmodelle trainiert wird. So ist sichergestellt, dass die Aufgabenstellungen nicht nur für ein Sprachmodell schwierig zu lösen sind.

Rowan Zellers et al. schlagen als letzten Schritt vor, die Ergebnisse von Menschen zu prüfen und falsche Hypothesen zu entfernen, die realistisch erscheinen. Das Ergebnis ist ein Datensatz von Aufgaben, die für Menschen nach wie vor leicht zu lösen sind, Sprachmodelle aber vor größere Herausforderungen stellen.

(ID:49409939)