OpenAI hat zwei Open-Weights-Sprachmodelle freigegeben, die unter der Apache-2.0-Lizenz stehen und damit ohne Einschränkungen genutzt werden können. Mit GPT-OSS-120b und GPT-OSS-20b stellt OpenAI erstmals seit GPT-2 wieder Modelle bereit, die lokal ausgeführt und in eigene Infrastrukturen integriert werden können.
GPT-OSS-120b und GPT-OSS-20b lassen sich auch als gehostete LLMs nutzen.
(Bild: T. Joos)
GPT-OSS-120b verfügt über rund 117 Milliarden Parameter, wovon im Betrieb rund fünf Milliarden aktiv sind. Der kleinere Ableger GPT-OSS-20b bringt etwa 21 Milliarden Parameter mit, nutzt jedoch nur 3,6 Milliarden aktiv. Beide Modelle sind als Mixture-of-Experts (MoE) aufgebaut und folgen damit dem Ansatz, nur einen Teil der Parameter für eine Abfrage zu aktivieren. Im Vergleich zu chinesischen Modellen wie Qwen, die bei 30 Milliarden Parametern nur drei Milliarden aktivieren, setzt OpenAI auf einen größeren aktiven Anteil, was die Ausführung konsistenter macht, aber auch mehr Speicher erfordert.
Die Modelle unterstützen eine Kontextlänge von 128.000 Tokens. Vermutlich lag die ursprüngliche Trainingsbasis bei 32.000 Tokens, skaliert wurde dies durch Rotary Positional Embeddings (RoPE). Beide Modelle sind fast ausschließlich auf Englisch trainiert, mehrsprachige Fähigkeiten sind kaum vorhanden. Der Knowledge Cutoff liegt im Juni 2024, was sich in praktischen Tests bestätigt, beispielsweise bei politischen Fragen. Damit sind die Modelle für Analysen und Anwendungen geeignet, müssen aber durch zusätzliche Wissensquellen ergänzt werden, wenn aktuelle Informationen erforderlich sind.
Bildergalerie
Reasoning und Steuerung der Denktiefe
Ein zentrales Merkmal ist die kontextabhängige Steuerung des Denkaufwands. Über die Systemanweisung kann der „Reasoning Effort“ in drei Stufen gesetzt werden: low, medium oder high. Bei hoher Stufe nutzt das Modell etwa 80 Prozent der verfügbaren Token für interne Überlegungen. Das verlängert die Antwortzeit, verbessert jedoch die Qualität bei komplexen Aufgaben wie mathematischen Beweisen oder tiefen Analysen. Erste Benchmarks zeigen, dass das Reasoning-fähige Verhalten die Leistung bei Aufgaben im Gesundheits- und MINT-Bereich deutlich verbessert und sich für agentenbasierte Anwendungen eignet.
In standardisierten Tests erreichen die Modelle hohe Werte. Auf GPQA Diamond erzielt GPT-OSS-120b 80,1 Prozent, GPT-OSS-20b liegt bei 71,5 Prozent. Auf MATH schneiden beide Modelle im Bereich von 50 bis 60 Prozent ab, wobei längere Reasoning-Ketten die Ergebnisse verbessern. Bei AIME liegt die Leistung auf dem Niveau proprietärer Mittelklassemodelle wie GPT-4o mini. Besonders hervorzuheben ist die Funktionserkennung. Bei Benchmarks zum Function Calling übertrifft GPT-OSS-120b teilweise das Niveau von O4 mini und nähert sich O3 an. Allerdings zeigen die Benchmarks auch Überanpassungen, da kleinere Modelle in manchen Tests höhere Werte als größere erzielen. Ein Teil der Community kritisiert zudem, dass OpenAI vorwiegend mit eigenen Modellen verglichen hat und Vergleiche zu Claude, Gemini oder Qwen fehlen.
Die Modelle stehen über Hugging Face und GitHub bereit. Zur lokalen Ausführung wird für GPT-OSS-120b eine GPU mit mindestens 80 Gigabyte Speicher benötigt. GPT-OSS-20b lässt sich dagegen auf Geräten mit 16 Gigabyte Arbeitsspeicher nutzen, was den Einsatz auf Workstations oder leistungsstarken Laptops ermöglicht. Für die Ausführung ist Triton notwendig, da das Modell intern auf 4-Bit-Quantisierung (FP4) ausgelegt ist. Ohne Triton würde es in 16-Bit geladen und damit zu groß für gängige Systeme.
Eine einfache Möglichkeit zur Nutzung ist Ollama, das eine GUI für den Betrieb ohne Terminalbefehle bereitstellt:
Ollama-Befehle für die lokale Nutzung
# GPT-OSS-120bollama pull gpt-oss:120bollama run gpt-oss:120b# GPT-OSS-20bollama pull gpt-oss:20bollama run gpt-oss:20b
Ein Beispiel für die Datenanalyse könnte folgender Befehl sein:
ollama run gpt-oss-20b --prompt "Analysiere die Umsatzzahlen aus der Datei sales.csv und erkenne Trends."
Über LM Studio lassen sich Modelle ebenfalls lokal betreiben. Hierbei wird eine zusätzliche Komponente („LM Studio CI“) installiert. Befehle im Terminal sind notwendig:
lmstudio install gpt-oss-20blmstudio run gpt-oss-20b
Alternativ können die Modelle über das OpenAI-Harmony-SDK eingebunden werden, das System- und Entwicklerrollen unterscheidet und Metadaten wie Knowledge Cutoff und aktuelles Datum automatisch setzt.
import openaiclient = openai.OpenAI(api_key="...")resp = client.chat.completions.create( model="gpt-oss-20b", messages=[{"role": "system", "content": "Reasoning effort: high"}, {"role": "user", "content": "Wie lässt sich eine sichere Multi-Cloud-Architektur aufbauen?"}], max_tokens=800)print(resp.choices[0].message.content)
Geschwindigkeit und Preise
Über Anbieter wie Groq und Cerebras stehen die Modelle gehostet bereit (https://www.cerebras.ai). GPT-OSS-20b erreicht bei Groq bis zu 1.000 Tokens pro Sekunde, das größere GPT-OSS-120b rund 500 Tokens pro Sekunde. Preislich liegt die Nutzung bei Fireworks AI für GPT-OSS-120b bei 0,10 US-Dollar pro Million Tokens Input und 0,50 US-Dollar pro Million Tokens Output, bei Groq bei 0,15 bzw. 0,75 US-Dollar. GPT-OSS-20b wird günstiger angeboten, mit 0,05/0,20 US-Dollar bei Fireworks und 0,10/0,50 US-Dollar bei Groq.
Unternehmen können die Modelle auf eigener Hardware betreiben und so sensible Daten verarbeiten, ohne sie an externe Anbieter zu übermitteln. Das eignet sich für interne Chatbots, Dokumentenanalyse oder Entscheidungsunterstützung in regulierten Branchen. Auch die Integration in Data-Science-Pipelines ist möglich. Zum Beispiel können Unternehmen eigene Vektordatenbanken anbinden und die Modelle für Retrieval-Augmented Generation (RAG) nutzen, um strukturierte und unstrukturierte Daten auszuwerten.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Darüber hinaus können Unternehmen eigene KI-Lösungen entwickeln, die auf den offenen Gewichten basieren. Die Modelle können feingetuned oder mit Adaptern erweitert werden, um branchenspezifische Fachsprache oder proprietäre Daten zu verarbeiten. Besonders im Bereich Agenten ergeben sich Anwendungsmöglichkeiten, da die Modelle Tool-Calls, Python-Codeausführung und Websuche direkt unterstützen.
Grenzen und Kritikpunkte
Obwohl OpenAI die Veröffentlichung als „OSS“ bezeichnet, handelt es sich faktisch um Open-Weight-Modelle. Trainingscode, Datensätze und Checkpoints fehlen, wodurch eine vollständige Reproduzierbarkeit nicht gegeben ist. Zudem sind die Modelle auf Englisch fokussiert, was ihre Anwendbarkeit in mehrsprachigen Umgebungen einschränkt. Die Rechenanforderungen für das 120b-Modell sind hoch, wodurch die lokale Nutzung auf wenige Forschungseinrichtungen und Unternehmen mit entsprechender Hardware begrenzt bleibt. Auch die Ausgabegeschwindigkeit ist im lokalen Betrieb deutlich niedriger als bei Cloud-Frontier-Modellen.