Definition Was ist BBH (BIG-Bench Hard)?

Von Dipl.-Ing. (FH) Stefan Luber 3 min Lesedauer

BIG-Bench Hard (BBH) ist ein Benchmark zur Evaluierung von Sprachmodellen. Es besteht aus 23 Aufgabentypen aus dem BIG-Bench-Dataset, bei denen die getesteten Sprachmodelle das durchschnittliche menschliche Leistungsniveau nicht erreichten. Mit BBH lässt sich prüfen, wie sich die Leistung der Sprachmodelle verbessern lässt.

(Bild:  © aga7ta - stock.adobe.com)
(Bild: © aga7ta - stock.adobe.com)

Bei BIG-Bench Hard handelt es sich um ein Subset von 23 besonders herausfordernden Aufgabentypen des BIG-Bench-Datasets. Das BIG-Bench-Dataset besteht aus insgesamt mehr als 200 Aufgabentypen. Die mit den BIG-Bench-Aufgaben getesteten Sprachmodellen waren mit den 23 für BBH ausgewählten Aufgabentypen größtenteils überfordert. Sie erreichten bei diesen Aufgaben das durchschnittliche menschliche Leistungsniveau nicht. Die 23 Aufgaben von BIG-Bench Hard sind anspruchsvoll und erfordern fortgeschrittene Fähigkeiten im logischen Denken und Schlussfolgern.

Veröffentlicht wurde BBH im Jahr 2022 in dem Dokument mit dem Titel „Challenging BIG-Bench tasks and whether chain-of-thought can solve them“. Die Autoren der Veröffentlichung waren Forscher von Google Research und der Stanford University. Sie untersuchten in ihrer Veröffentlichung insbesondere die Fragestellung, ob sich mit der Anwendung von Prompting-Techniken wie Few-Shot- and Chain-of-Thought-Prompting (CoT-Prompting) die Aufgabenstellungen des Benchmarks lösen lassen.

Entstehung und Anwendung des Benchmarks BIG-Bench Hard

Um die Leistungsfähigkeit moderner Sprachmodelle in verschiedenen Aufgabenbereichen zu testen, kommen in der Regel unterschiedliche Benchmarks zum Einsatz. Ein mögliches Benchmark-Dataset für die Evaluierung von Sprachmodellen ist BIG-Bench. BIG-Bench ist die Kurzform für „The Beyond the Imitation Game Benchmark“. BIG-Bench wurde entwickelt, um die Fähigkeiten, aber auch die Limitierungen, von Sprachmodellen zu testen.

Der Benchmark besteht aus insgesamt mehr als 200 verschiedenen textbasierten Aufgabentypen aus unterschiedlichen Bereichen wie natürliche Sprachverarbeitung, Mathematik, logisches Schlussfolgern und das Beantworten von Fragen. Um aussagekräftige Ergebnisse zu den Fähigkeiten der evaluierten Sprachmodelle zu erhalten, sind ausreichend schwierige Aufgaben notwendig.

Der technische Fortschritt im Bereich großer Sprachmodelle schreitet aber so schnell voran, dass bei vielen Benchmarks die Modelle die durchschnittliche menschliche Leistungsfähigkeit in der Bearbeitung und Lösung der Benchmark-Aufgaben schon erreicht oder sogar deutlich überschritten haben. So auch bei BIG-Bench. Aus diesem Grund haben sich die Forscher die 23 Aufgabentypen aus dem Benchmark herausgesucht, bei denen die getesteten Sprachmodelle das durchschnittliche menschliche Leistungsniveau noch nicht erreichen konnten. Um die 23 Aufgabentypen aus dem Dataset herauszufiltern, definierten die Forscher verschiedene Kriterien, die in ihrer Veröffentlichung genauer beschrieben sind.

Mit dem erhaltenen Subset an besonders herausfordernden Aufgaben lässt sich unter anderem untersuchen, ob durch die Anwendung spezieller Prompting-Techniken die Leistungsfähigkeit der Modelle signifikant verbessert werden kann. Die Forscher untersuchten diese Fragestellung insbesondere hinsichtlich der Prompting-Techniken Few-Shot-Prompting und Chain-of-Thought-Prompting.

Ergebnisse der Untersuchung einiger Sprachmodelle mit BIG-Bench Hard

Die Forscher konzentrierten sich bei ihren Untersuchungen mit BIG-Bench Hard auf die drei Sprachmodellfamilien Codex, InstructGPT und PaLM. Ursprünglich erreichten die Modelle bei den 23 für BIG-Bench Hard ausgewählten Aufgaben nicht das durchschnittliche menschliche Leistungsniveau. Die Forscher fanden heraus, dass unter zusätzlicher Anwendung von CoT-Prompting bei den BBH-Aufgaben das Sprachmodell PaLM die durchschnittliche menschliche Leistungsfähigkeit bei 10 der 23 Aufgaben übertreffen konnte. Codex übertraf mit CoT-Prompting das durchschnittliche menschliche Leistungsniveau sogar bei 17 von 23 Aufgaben.

Ein Grund dafür ist, dass die BBH-Aufgaben mehrstufige Argumentationsfähigkeiten, sogenanntes Multi-Step Reasoning, erfordern. Mit CoT-Prompting verbessern sich die Ergebnisse der Modelle bei der mehrstufigen Argumentation deutlich. Es ist allerdings eine bestimmte Modellgröße dafür notwendig. Bei weniger großen Modellen (weniger Parameter) zeigen sich kaum Unterschiede. Eine wesentliche Schlussfolgerung der Forscher aus den Untersuchungen ist, dass Few-Shot-Prompting ohne Chain-of-Thought, wie es bei den BIG-Bench-Evaluierungen zum Einsatz kam, dazu führt, dass die von den Sprachmodellen erzielbaren Leistungen und Fähigkeiten deutlich unterschätzt werden.

Mit der Anwendung von Few-Shot- und CoT-Prompting steigt die Performance der Modelle deutlich und ihre tatsächliche Leistungsfähigkeit lässt sich besser erfassen. Ein weiteres mit BBH erzieltes Ergebnis ist aber auch, dass, selbst wenn die Modelle mit Few-Shot- und CoT-Prompting das durchschnittliche menschliche Leistungsniveau bei vielen Aufgaben übertreffen, sie nach wie vor hinter dem Leistungsniveau bestens qualifizierter menschlicher Bewerter deutlich zurückbleiben.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

(ID:50219533)