GPT-OSS-120b und GPT-OSS-20b OpenAI veröffentlicht lokal ausführbare Sprachmodelle

Von Thomas Joos 5 min Lesedauer

Anbieter zum Thema

OpenAI hat zwei Open-Weights-Sprachmodelle freigegeben, die unter der Apache-2.0-Lizenz stehen und damit ohne Einschränkungen genutzt werden können. Mit GPT-OSS-120b und GPT-OSS-20b stellt OpenAI erstmals seit GPT-2 wieder Modelle bereit, die lokal ausgeführt und in eigene Infrastrukturen integriert werden können.

GPT-OSS-120b und GPT-OSS-20b lassen sich auch als gehostete LLMs nutzen.(Bild:  T. Joos)
GPT-OSS-120b und GPT-OSS-20b lassen sich auch als gehostete LLMs nutzen.
(Bild: T. Joos)

GPT-OSS-120b verfügt über rund 117 Milliarden Parameter, wovon im Betrieb rund fünf Milliarden aktiv sind. Der kleinere Ableger GPT-OSS-20b bringt etwa 21 Milliarden Parameter mit, nutzt jedoch nur 3,6 Milliarden aktiv. Beide Modelle sind als Mixture-of-Experts (MoE) aufgebaut und folgen damit dem Ansatz, nur einen Teil der Parameter für eine Abfrage zu aktivieren. Im Vergleich zu chinesischen Modellen wie Qwen, die bei 30 Milliarden Parametern nur drei Milliarden aktivieren, setzt OpenAI auf einen größeren aktiven Anteil, was die Ausführung konsistenter macht, aber auch mehr Speicher erfordert.

Die Modelle unterstützen eine Kontextlänge von 128.000 Tokens. Vermutlich lag die ursprüngliche Trainingsbasis bei 32.000 Tokens, skaliert wurde dies durch Rotary Positional Embeddings (RoPE). Beide Modelle sind fast ausschließlich auf Englisch trainiert, mehrsprachige Fähigkeiten sind kaum vorhanden. Der Knowledge Cutoff liegt im Juni 2024, was sich in praktischen Tests bestätigt, beispielsweise bei politischen Fragen. Damit sind die Modelle für Analysen und Anwendungen geeignet, müssen aber durch zusätzliche Wissensquellen ergänzt werden, wenn aktuelle Informationen erforderlich sind.

Bildergalerie

Reasoning und Steuerung der Denktiefe

Ein zentrales Merkmal ist die kontextabhängige Steuerung des Denkaufwands. Über die Systemanweisung kann der „Reasoning Effort“ in drei Stufen gesetzt werden: low, medium oder high. Bei hoher Stufe nutzt das Modell etwa 80 Prozent der verfügbaren Token für interne Überlegungen. Das verlängert die Antwortzeit, verbessert jedoch die Qualität bei komplexen Aufgaben wie mathematischen Beweisen oder tiefen Analysen. Erste Benchmarks zeigen, dass das Reasoning-fähige Verhalten die Leistung bei Aufgaben im Gesundheits- und MINT-Bereich deutlich verbessert und sich für agentenbasierte Anwendungen eignet.

In standardisierten Tests erreichen die Modelle hohe Werte. Auf GPQA Diamond erzielt GPT-OSS-120b 80,1 Prozent, GPT-OSS-20b liegt bei 71,5 Prozent. Auf MATH schneiden beide Modelle im Bereich von 50 bis 60 Prozent ab, wobei längere Reasoning-Ketten die Ergebnisse verbessern. Bei AIME liegt die Leistung auf dem Niveau proprietärer Mittelklassemodelle wie GPT-4o mini. Besonders hervorzuheben ist die Funktionserkennung. Bei Benchmarks zum Function Calling übertrifft GPT-OSS-120b teilweise das Niveau von O4 mini und nähert sich O3 an. Allerdings zeigen die Benchmarks auch Überanpassungen, da kleinere Modelle in manchen Tests höhere Werte als größere erzielen. Ein Teil der Community kritisiert zudem, dass OpenAI vorwiegend mit eigenen Modellen verglichen hat und Vergleiche zu Claude, Gemini oder Qwen fehlen.

Installation und lokale Nutzung

Die Modelle stehen über Hugging Face und GitHub bereit. Zur lokalen Ausführung wird für GPT-OSS-120b eine GPU mit mindestens 80 Gigabyte Speicher benötigt. GPT-OSS-20b lässt sich dagegen auf Geräten mit 16 Gigabyte Arbeitsspeicher nutzen, was den Einsatz auf Workstations oder leistungsstarken Laptops ermöglicht. Für die Ausführung ist Triton notwendig, da das Modell intern auf 4-Bit-Quantisierung (FP4) ausgelegt ist. Ohne Triton würde es in 16-Bit geladen und damit zu groß für gängige Systeme.

Eine einfache Möglichkeit zur Nutzung ist Ollama, das eine GUI für den Betrieb ohne Terminalbefehle bereitstellt:

Ollama-Befehle für die lokale Nutzung

# GPT-OSS-120bollama pull gpt-oss:120bollama run gpt-oss:120b# GPT-OSS-20bollama pull gpt-oss:20bollama run gpt-oss:20b

Ein Beispiel für die Datenanalyse könnte folgender Befehl sein:

ollama run gpt-oss-20b --prompt "Analysiere die Umsatzzahlen aus der Datei sales.csv und erkenne Trends."

Über LM Studio lassen sich Modelle ebenfalls lokal betreiben. Hierbei wird eine zusätzliche Komponente („LM Studio CI“) installiert. Befehle im Terminal sind notwendig:

lmstudio install gpt-oss-20blmstudio run gpt-oss-20b

Alternativ können die Modelle über das OpenAI-Harmony-SDK eingebunden werden, das System- und Entwicklerrollen unterscheidet und Metadaten wie Knowledge Cutoff und aktuelles Datum automatisch setzt.

Beispiel: Nutzung mit Transformers

from transformers import AutoModelForCausalLM, AutoTokenizermodel = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-20b", device_map="auto", torch_dtype="auto")tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-20b")prompt = "Analysiere den Energieverbrauch erneuerbarer Technologien."inputs = tokenizer(prompt, return_tensors="pt").to(model.device)outputs = model.generate(**inputs, max_new_tokens=500)print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Beispiel: Reasoning-Effort über OpenRouter

import openaiclient = openai.OpenAI(api_key="...")resp = client.chat.completions.create( model="gpt-oss-20b", messages=[{"role": "system", "content": "Reasoning effort: high"}, {"role": "user", "content": "Wie lässt sich eine sichere Multi-Cloud-Architektur aufbauen?"}], max_tokens=800)print(resp.choices[0].message.content)

Geschwindigkeit und Preise

Über Anbieter wie Groq und Cerebras stehen die Modelle gehostet bereit (https://www.cerebras.ai). GPT-OSS-20b erreicht bei Groq bis zu 1.000 Tokens pro Sekunde, das größere GPT-OSS-120b rund 500 Tokens pro Sekunde. Preislich liegt die Nutzung bei Fireworks AI für GPT-OSS-120b bei 0,10 US-Dollar pro Million Tokens Input und 0,50 US-Dollar pro Million Tokens Output, bei Groq bei 0,15 bzw. 0,75 US-Dollar. GPT-OSS-20b wird günstiger angeboten, mit 0,05/0,20 US-Dollar bei Fireworks und 0,10/0,50 US-Dollar bei Groq.

Unternehmensanwendungen und Datenanalyse

Unternehmen können die Modelle auf eigener Hardware betreiben und so sensible Daten verarbeiten, ohne sie an externe Anbieter zu übermitteln. Das eignet sich für interne Chatbots, Dokumentenanalyse oder Entscheidungsunterstützung in regulierten Branchen. Auch die Integration in Data-Science-Pipelines ist möglich. Zum Beispiel können Unternehmen eigene Vektordatenbanken anbinden und die Modelle für Retrieval-Augmented Generation (RAG) nutzen, um strukturierte und unstrukturierte Daten auszuwerten.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Beispiel: Datenanalyse mit Pandas und GPT-OSS

import pandas as pdfrom openai import OpenAIdf = pd.read_csv("umsatz.csv")frage = f"Analysiere diese Daten: {df.head().to_string()}"client = OpenAI(api_key="...")resp = client.chat.completions.create( model="gpt-oss-20b", messages=[{"role": "user", "content": frage}], max_tokens=400)print(resp.choices[0].message.content)

Darüber hinaus können Unternehmen eigene KI-Lösungen entwickeln, die auf den offenen Gewichten basieren. Die Modelle können feingetuned oder mit Adaptern erweitert werden, um branchenspezifische Fachsprache oder proprietäre Daten zu verarbeiten. Besonders im Bereich Agenten ergeben sich Anwendungsmöglichkeiten, da die Modelle Tool-Calls, Python-Codeausführung und Websuche direkt unterstützen.

Grenzen und Kritikpunkte

Obwohl OpenAI die Veröffentlichung als „OSS“ bezeichnet, handelt es sich faktisch um Open-Weight-Modelle. Trainingscode, Datensätze und Checkpoints fehlen, wodurch eine vollständige Reproduzierbarkeit nicht gegeben ist. Zudem sind die Modelle auf Englisch fokussiert, was ihre Anwendbarkeit in mehrsprachigen Umgebungen einschränkt. Die Rechenanforderungen für das 120b-Modell sind hoch, wodurch die lokale Nutzung auf wenige Forschungseinrichtungen und Unternehmen mit entsprechender Hardware begrenzt bleibt. Auch die Ausgabegeschwindigkeit ist im lokalen Betrieb deutlich niedriger als bei Cloud-Frontier-Modellen.

(ID:50574773)