BIG-Bench Hard (BBH) ist ein Benchmark zur Evaluierung von Sprachmodellen. Es besteht aus 23 Aufgabentypen aus dem BIG-Bench-Dataset, bei denen die getesteten Sprachmodelle das durchschnittliche menschliche Leistungsniveau nicht erreichten. Mit BBH lässt sich prüfen, wie sich die Leistung der Sprachmodelle verbessern lässt.
Bei BIG-Bench Hard handelt es sich um ein Subset von 23 besonders herausfordernden Aufgabentypen des BIG-Bench-Datasets. Das BIG-Bench-Dataset besteht aus insgesamt mehr als 200 Aufgabentypen. Die mit den BIG-Bench-Aufgaben getesteten Sprachmodellen waren mit den 23 für BBH ausgewählten Aufgabentypen größtenteils überfordert. Sie erreichten bei diesen Aufgaben das durchschnittliche menschliche Leistungsniveau nicht. Die 23 Aufgaben von BIG-Bench Hard sind anspruchsvoll und erfordern fortgeschrittene Fähigkeiten im logischen Denken und Schlussfolgern.
Veröffentlicht wurde BBH im Jahr 2022 in dem Dokument mit dem Titel „Challenging BIG-Bench tasks and whether chain-of-thought can solve them“. Die Autoren der Veröffentlichung waren Forscher von Google Research und der Stanford University. Sie untersuchten in ihrer Veröffentlichung insbesondere die Fragestellung, ob sich mit der Anwendung von Prompting-Techniken wie Few-Shot- and Chain-of-Thought-Prompting (CoT-Prompting) die Aufgabenstellungen des Benchmarks lösen lassen.
Entstehung und Anwendung des Benchmarks BIG-Bench Hard
Um die Leistungsfähigkeit moderner Sprachmodelle in verschiedenen Aufgabenbereichen zu testen, kommen in der Regel unterschiedliche Benchmarks zum Einsatz. Ein mögliches Benchmark-Dataset für die Evaluierung von Sprachmodellen ist BIG-Bench. BIG-Bench ist die Kurzform für „The Beyond the Imitation Game Benchmark“. BIG-Bench wurde entwickelt, um die Fähigkeiten, aber auch die Limitierungen, von Sprachmodellen zu testen.
Der Benchmark besteht aus insgesamt mehr als 200 verschiedenen textbasierten Aufgabentypen aus unterschiedlichen Bereichen wie natürliche Sprachverarbeitung, Mathematik, logisches Schlussfolgern und das Beantworten von Fragen. Um aussagekräftige Ergebnisse zu den Fähigkeiten der evaluierten Sprachmodelle zu erhalten, sind ausreichend schwierige Aufgaben notwendig.
Der technische Fortschritt im Bereich großer Sprachmodelle schreitet aber so schnell voran, dass bei vielen Benchmarks die Modelle die durchschnittliche menschliche Leistungsfähigkeit in der Bearbeitung und Lösung der Benchmark-Aufgaben schon erreicht oder sogar deutlich überschritten haben. So auch bei BIG-Bench. Aus diesem Grund haben sich die Forscher die 23 Aufgabentypen aus dem Benchmark herausgesucht, bei denen die getesteten Sprachmodelle das durchschnittliche menschliche Leistungsniveau noch nicht erreichen konnten. Um die 23 Aufgabentypen aus dem Dataset herauszufiltern, definierten die Forscher verschiedene Kriterien, die in ihrer Veröffentlichung genauer beschrieben sind.
Mit dem erhaltenen Subset an besonders herausfordernden Aufgaben lässt sich unter anderem untersuchen, ob durch die Anwendung spezieller Prompting-Techniken die Leistungsfähigkeit der Modelle signifikant verbessert werden kann. Die Forscher untersuchten diese Fragestellung insbesondere hinsichtlich der Prompting-Techniken Few-Shot-Prompting und Chain-of-Thought-Prompting.
Ergebnisse der Untersuchung einiger Sprachmodelle mit BIG-Bench Hard
Die Forscher konzentrierten sich bei ihren Untersuchungen mit BIG-Bench Hard auf die drei Sprachmodellfamilien Codex, InstructGPT und PaLM. Ursprünglich erreichten die Modelle bei den 23 für BIG-Bench Hard ausgewählten Aufgaben nicht das durchschnittliche menschliche Leistungsniveau. Die Forscher fanden heraus, dass unter zusätzlicher Anwendung von CoT-Prompting bei den BBH-Aufgaben das Sprachmodell PaLM die durchschnittliche menschliche Leistungsfähigkeit bei 10 der 23 Aufgaben übertreffen konnte. Codex übertraf mit CoT-Prompting das durchschnittliche menschliche Leistungsniveau sogar bei 17 von 23 Aufgaben.
Ein Grund dafür ist, dass die BBH-Aufgaben mehrstufige Argumentationsfähigkeiten, sogenanntes Multi-Step Reasoning, erfordern. Mit CoT-Prompting verbessern sich die Ergebnisse der Modelle bei der mehrstufigen Argumentation deutlich. Es ist allerdings eine bestimmte Modellgröße dafür notwendig. Bei weniger großen Modellen (weniger Parameter) zeigen sich kaum Unterschiede. Eine wesentliche Schlussfolgerung der Forscher aus den Untersuchungen ist, dass Few-Shot-Prompting ohne Chain-of-Thought, wie es bei den BIG-Bench-Evaluierungen zum Einsatz kam, dazu führt, dass die von den Sprachmodellen erzielbaren Leistungen und Fähigkeiten deutlich unterschätzt werden.
Mit der Anwendung von Few-Shot- und CoT-Prompting steigt die Performance der Modelle deutlich und ihre tatsächliche Leistungsfähigkeit lässt sich besser erfassen. Ein weiteres mit BBH erzieltes Ergebnis ist aber auch, dass, selbst wenn die Modelle mit Few-Shot- und CoT-Prompting das durchschnittliche menschliche Leistungsniveau bei vielen Aufgaben übertreffen, sie nach wie vor hinter dem Leistungsniveau bestens qualifizierter menschlicher Bewerter deutlich zurückbleiben.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.