Plattform bewertet deutsche Sprachfertigkeiten der LLMs Deutschtest für KI-Sprachmodelle

Von Bernhard Lück 2 min Lesedauer

Anbieter zum Thema

Die KI-Entwicklerplattform Weights & Biases legt mit dem Leaderboard Eisvogel.ai einen Leistungsvergleich der deutschen Sprachkompetenz großer KI-Sprachmodelle vor. Bislang war die Bewertung der sprachlichen Kompetenzen von LLMs vorrangig an der englischen Sprache orientiert.

Eisvogel: Das interaktive Leaderboard von Weights & Biases trägt den Namen des blau-orange gefiederten Vogels.(Bild:  © Volker Jabs – stock.adobe.com)
Eisvogel: Das interaktive Leaderboard von Weights & Biases trägt den Namen des blau-orange gefiederten Vogels.
(Bild: © Volker Jabs – stock.adobe.com)

Mit dem Leaderboard Eisvogel.ai ermöglicht die KI-Entwicklerplattform Weights & Biases einen datenbasierten Vergleich der Sprachkenntnisse und Anwendungsfelder unterschiedlicher LLMs mit Blick auf die Textverarbeitung in deutscher Sprache.

Analyse der LLM-Sprachkompetenz im deutschsprachigen Raum

KI-Sprachmodelle etablieren sich derzeit in vielen Anwendungsbereichen. Die Bewertung ihrer Fähigkeiten in verschiedenen Sprachen bleibt dabei eine wichtige Herausforderung. Die Eisvogel.ai-Rangliste bewertet die wichtigsten Einsatzbereiche der gängigen Sprachmodelle. Dazu gehören die allgemeine Wissensprüfung (Measuring Massive Multitask Language Understanding, MMLU) und das mathematische Argumentationsvermögen (Multilingual Grade School Math Benchmark, MGSM). Auf Basis von Holistic Evaluation of Language Models (HELM) entwickelt, sei mithilfe des Leaderboard eine robuste und skalierbare Analyse von Modellen anhand multilingualer Benchmarks durch generative Evaluierungen möglich, so der Anbieter. Ausschlaggebendes Leistungsmaß sei die mittlere Gewinnrate (Mean Win Rate), die den Durchschnitt dieser Leistungsvergleiche über alle Szenarien hinweg bildet. Die Mean Win Rate gibt an, wie oft ein Modell in verschiedenen Szenarien eine höhere Punktzahl als ein anderes Modell erreicht. Das Leaderboard Eisvogel.ai könne somit eine methodisch zuverlässige und differenzierte Analyse bieten, die sowohl Allrounder-Qualitäten als auch spezifische Stärken der Modelle herausstellt.

Rangliste: Allrounder Claude 3.5 Sonnet knapp vor Sprachtalent GPT-4o

Weights & Biases zufolge liefern die LLMs Claude 3.5 Sonnet, Mistral Large 2 und GPT-4o insgesamt die zuverlässigsten Ergebnisse im Deutsch- und Mathetest. Anthropics Claude 3.5 Sonnet punktet in allen Anwendungsbereichen insgesamt am höchsten und liegt in der Gesamtwertung damit knapp vor OpenAIs Flaggschiff-Modell GPT-4o. Bei den Sprachkenntnissen liegt GPT-4o mit einer MMMLU-EM-Leistung von 0,805 dagegen noch vor Anthropics Modell. Die französische KI-Schmiede Mistral punktet mit der zuverlässigsten mathematischen Argumentationskapazität (MGSM: 0,816). Überraschend solide präsentierte sich auch der Außenseiter Command R Plus, der mit 0,631 im MMMLU-Test und 0,498 in MGSM zwar auf dem letzten Platz landete, als kostenloses Modell aber Anschluss an die Spitzengruppe hält.

Eine ausführliche Dokumentation der in der Rangliste erfassten Kennzahlen sowie Anwendungsbeispiele und Anbietervergleiche ist hier verfügbar: Eisvogel.ai: Evaluating German Language Proficiency.

Hans Ramsl, Principal Machine Learning Engineer von Weights & Biases, erklärt: „Unsere Eisvogel.ai-Rangliste bietet den ersten Vergleich für die Bewertung großer Sprachmodelle mit Blick auf deren Anwendungsmöglichkeiten und Zuverlässigkeit im deutschen Sprachraum. Wir werden die Eisvogel.ai-Rangliste kontinuierlich weiterentwickeln, um die dynamische Entwicklung der LLMs zu berücksichtigen und auch weitere Modelle und Aufgaben zu integrieren. Nach dem Erfolg von Nejumi.ai (jap. „Maus“) für Japanisch und Horangi.ai (kor. „Tiger“) für Koreanisch soll das Eisvogel.ai-Board zu einer wertvollen Ressource für alle werden, die deutsche Sprachmodelle entwickeln oder feinabstimmen.“

(ID:50278208)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung