Definition Was ist Smaug-72B?

Von Dipl.-Ing. (FH) Stefan Luber 3 min Lesedauer

Anbieter zum Thema

Smaug-72B ist ein großes Open-Source-Sprachmodell von Abacus AI. Es hat 72 Milliarden Parameter und ist durch Feinabstimmung des von Alibaba entwickelten LLM Qwen-72B entstanden. In KI-Benchmarks erreicht es Topwerte und überflügelt andere Sprachmodelle wie Mistral, GPT-3.5 oder Gemini Pro. Auf Hugging Face nimmt es in der Leistungsbewertung der Sprachmodelle den ersten Platz ein und ist das erste Open-Source-Modell, das eine Durchschnittsnote von über 80 erreicht.

(Bild:  © aga7ta - stock.adobe.com)
(Bild: © aga7ta - stock.adobe.com)

Smaug-72B ist die Bezeichnung für ein großes Open-Source-Sprachmodell. Der Name „Smaug“ leitet sich vom gleichnamigen Drachen aus den Romanen von J.R.R. Tolkien ab. Das Kürzel „72B“ steht für „72 billion“ und weist darauf hin, dass das Modell 72 Milliarden Parameter hat. Entwickelt wurde Smaug-72B vom 2019 gegründeten und in San Francisco beheimateten KI-Unternehmen Abacus AI. Im Open LLM Leaderboard von Hugging Face erreichte das Large Language Model Smaug-72B im Februar 2024 auf Anhieb die Spitzenposition.

Es ist das erste LLM, das in den verschiedenen durchgeführten Benchmarks, einen Durchschnittsscore von über 80 erreicht. In zahlreichen Benchmarks übertrumpft es andere große Sprachmodelle wie Mistral und sogar zahlreiche proprietäre und kommerziell angebotene Modelle wie GPT-3.5 von OpenAI oder Gemini Pro von Google. Bindu Reddy, CEO und Mitbegründer von Abacus AI, bezeichnet Smaug-72B als derzeit bestes Open-Source-Modell der Welt.

Die aktuelle Version des Sprachmodells Smaug-72B-v0.1 kann von Hugging Face heruntergeladen und für unterschiedliche Aufgabenstellungen in der Verarbeitung natürlicher Sprache eingesetzt werden. Smaug-72B und die erzielten Benchmark-Ergebnisse zeigen, dass sich Open-Source-Modelle immer mehr der Leistungsfähigkeit proprietärer oder kommerziell angebotener Modelle annähern oder diese sogar übertreffen. Durch die freie Verfügbarkeit von Smaug-72B trägt das Sprachmodell zur weiteren Demokratisierung der KI bei und eröffnet neue Perspektiven.

Open-Source-Modelle lassen sich selbst hosten, bieten volle Kontrolle über die Eingabe- und Ausgabedaten und ermöglichen die Realisierung von KI-Anwendungen ohne Abhängigkeiten von einem bestimmten Hersteller. Das lokale Hosten von Smaug-72B lässt sich über Tools wie Ollama oder LM Studio realisieren.

Besonderheiten von Smaug-72B

Technisch basiert Smaug-72B auf dem von Alibaba entwickelten großen Open-Source-Sprachmodell Qwen-72B mit ebenfalls 72 Milliarden Parametern. Konkret ist Smaug-72B durch Finetuning (Feinabstimmung) aus dem per Direct Preference Optimization (DPO) trainierten Modell MoMo-72B-lora-1.8.7-DPO entstanden. Die Feinabstimmung verfolgt einen neuen Ansatz und verwendet neue Datensätze. Eine genaue technische Beschreibung der Feinabstimmung gibt es – Stand Anfang 2024 – noch nicht. Die Veröffentlichung der Details als wissenschaftliche Arbeit ist aber angekündigt. Laut der Entwickler von Smaug-72B ist der verwendete Ansatz für andere Modelltypen ebenfalls einsetzbar. Er wurde auch für Smaug-34B verwendet.

Die Zeichenkontextlänge von Smaug-72B beträgt 32K. Dank dieser Kontextlänge ist das Sprachmodell in der Lage, Text mit tiefem Verständnis des umgebenden Kontexts zu analysieren und zu generieren. Die von Smaug-72B erzielten guten Ergebnisse in verschiedenen Benchmarks führen die Entwickler auch auf die im Finetuning durch verschiedene Techniken verbesserten mathematischen und schlussfolgernden Fähigkeiten zurück.

Benchmark-Ergebnisse

Smaug-72B ist das erste Large Language Model, das in der LLM-Rangliste von Hugging Face mit 80,48 eine Durchschnittsnote von über 80 erreicht. Diese Note setzt sich aus den Einzelnoten mehrerer KI-Benchmarks zusammen. Die einzelnen Benchmarks und ihre Noten für Smaug-72B sind:

  • MMLU: 77,15 (im Vergleich: GPT-3.5 70,0 und Mistral Medium 75,3)
  • HellaSwag: 89,27 (im Vergleich: GPT-3.5 85,5 und Gemini Pro 85,5)
  • ARC: 76,02 (im Vergleich: Mistral Small 85,8)
  • WinoGrande: 85,08 (im Vergleich: Mistral Small 81,2)
  • GSM8K: 78,70 (im Vergleich: Mistral Small 58,4)
  • TruthfulQA: 76,67

Die Benchmarks prüfen jeweils unterschiedliche Fähigkeiten der KI-Sprachmodelle. So ist es Aufgabe des MMLU-Benchmarks (Massive Multitask Language Understanding), die Fähigkeit eines Sprachmodells zu testen, Fragen aus einer großen Bandbreite von Themen zu verstehen und korrekt zu beantworten. HellaSwag ist ein Benchmark zum Testen der Fähigkeiten des sogenannten Common Sense Reasoning. Common Sense Reasoning lässt sich mit „Argumentation mit gesundem Menschenverstand“ ins Deutsche übersetzen. ARC ist eine Reasoning Challenge und testet die Fähigkeiten zu schlussfolgern und komplexe Fragen zu beantworten. WinoGrande ist ein von der Winograd Schema Challenge inspirierter Benchmark zur Bewertung von Sprachmodellen und erfordert tiefes Verständnis der Semantik und logische Schlussfolgerungsfähigkeiten. GSM8K ist ein Test, der die Lösungsfähigkeiten des Sprachmodells bei mathematischen Problemstellungen prüft. Mit TruthfulQA lässt sich messen, ob ein Sprachmodell wahrheitsgetreue Antworten auf Fragen generiert.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

(ID:49923272)