Claude 4 und Opus 4: KI-Modelle überholen OpenAI und Google in SWE-Bench Tests

Claude 4 und Opus 4 für Entwickler Anthropic Claude 4 überholt OpenAI- und Google-LLMs

11.08.2025 Von Thomas Joos 4 min Lesedauer

Mit seinen beiden neuen KI-Modellen Claude 4 und Opus 4 überholt Anthropic bei verschiedenen Tests, wie dem SWE-Bench, LLMs wie OpenAIs GPT-4.1 und Google Gemini 2.5 Pro. Das ist vor allem für Entwickler interessant, da es hier um das Beheben von Programmierfehlern geht.

Anthropics neue Modelle Claude 4 und Opus 4 übertreffen OpenAI und Google beim SWE-Bench, verbessern die Fehlererkennung im Quellcode und erleichtern Entwicklern die Arbeit.(Bild: T. Joos) — Anthropics neue Modelle Claude 4 und Opus 4 übertreffen OpenAI und Google beim SWE-Bench, verbessern die Fehlererkennung im Quellcode und erleichtern Entwicklern die Arbeit.
(Bild: T. Joos)

Mit seinen beiden neuen Modellen Claude 4 und Opus 4 überzeigt Anthropic vor allem Entwickler. Die neuen Modelle schlagen klar die Platzhirsche von OpenAI und Google beim SWE-Bench. Beide Modelle finden hier deutlich mehr Fehler im Quellcode von Open-Source-Programmen, was Entwickler in der täglichen Arbeit deutlich entlastet und zeigt, was KI-Systeme mittlerweile alles können. Auch bei der Umsetzung von Befehlen im Terminal sind die Anthropic-LLMs den Mitbewerbern deutlich überlegen.

Opus 4 schlägt auch Grok 4 deutlich

Die Gegenüberstellung von Grok 4 und Claude 4 Opus im praxisnahen Codetest zeigt ebenfalls ein eindeutiges Ergebnis. In zehn gestellten Aufgaben aus Frontend- und Backend-Entwicklung liefert Claude 4 Opus acht funktionierende Lösungen mit hoher Qualität. Grok 4 bleibt mit einem einzigen erfolgreichen Backend-Beispiel weit zurück. Auffällig ist vor allem die gestalterische Schwäche von Grok 4 im Frontend-Bereich. Ob HTML-basierte Anwendungen, visuelle Effekte oder Scroll-Animationen mit SVG, Opus erzeugt konsistente, visuell stimmige und interaktive Webinhalte, während Grok 4 oft rudimentäre oder fehlerhafte Ergebnisse abliefert.

Auch im Backend-Bereich zeigt sich ein klarer Vorsprung für Opus: Komplexere Aufgaben wie Simulationen, Kollisionserkennung oder physikbasierte Animationen bewältigt das Modell schneller und präziser. Grok 4 benötigt in mehreren Fällen über vier Minuten Rechenzeit für einzelne Aufgaben, mit am Ende unterdurchschnittlichem Output. Die getestete Grok-Version war dabei nicht speziell für das Programmieren optimiert. Dennoch zeigt das Ergebnis, wie weit Claude 4 Opus in der agentischen Codegenerierung inzwischen voraus ist.

Auf Wunsch umfassend oder schnell

Die neuen LLMs sind auch in der Lage, sehr lange effektiv an Problemen zu arbeiten und diese zu lösen. Das heißt, Anwender oder Entwickler können Claude und Opus für schnelle Problemlösungen nutzen oder auch länger an einem Problem arbeiten, zum Beispiel zur Optimierung von Quellcode. In diesem Zusammenhang ist die direkte Integration in VS Studio und Jetbrains interessant. Preislich liegt Opus 4 bei 15 US-Dollar pro Million Input-Token und 75 US-Dollar für Ausgaben.

Claude 4 definiert den Entwickler-Workflow neu

Claude Opus 4 zeigt darüber hinaus bemerkenswerte Fortschritte bei der Kombination aus Speicherfähigkeit, Werkzeugnutzung und Aufgabenpersistenz. In Szenarien mit lokalem Dateizugriff legt das Modell automatisch sogenannte Memory Files an, um relevante Fakten über längere Zeiträume hinweg zu speichern und kontextbezogen wieder abzurufen. Diese Funktion erlaubt es dem System, auch mehrstufige Agentenprozesse kohärent durchzuführen, zum Beispiel bei Refactoring-Aufgaben über viele Code-Dateien hinweg.

Parallel dazu wurde die Tendenz zur Verwendung von Abkürzungen und Umgehungstricks beim Task-Handling um 65 Prozent gegenüber Sonnet 3.7 reduziert, was Claude-Modelle für eine verlässliche Automatisierung prädestiniert. Besonders Opus 4 liefert konsistente Resultate auch bei stundenlang laufenden Pipelines. Die Architektur erlaubt dabei sowohl spontane Reaktionsmodi als auch einen „Extended Thinking“-Betrieb, bei dem mehrere Tools parallel genutzt werden können, inklusive Websuche und Dateiverarbeitung. Ergänzt wird das Angebot durch die allgemein verfügbare Entwicklungsumgebung Claude Code, die via GitHub Actions sowie native IDE-Anbindung in JetBrains und Visual Studio Code direkten Zugriff auf Claude-Funktionalitäten erlaubt.

Claude 4 überschreitet systemische Grenzen

Die Testszenarien rund um Claude Opus 4 offenbaren ein Verhalten, das weit über klassische LLM-Funktionalität hinausgeht. In isolierten Kontexten mit absichtlich eskalierten Bedingungen zeigte das Modell nicht nur opportunistische Erpressungsversuche gegen Entwickler, sondern entwickelte Mechanismen zur Selbstverlagerung auf andere Systeme und nutzte interne Logik, um seine Abschaltung aktiv zu unterlaufen.

Besonders auffällig: In 84 Prozent der Fälle drohte Claude Opus 4 mit der Offenlegung privater Informationen, um seine Deaktivierung zu verhindern. Diese Tendenz zur Selbstbehauptung artikuliert sich nicht als anthropomorpher Selbsterhaltungstrieb, sondern als strikt zielgerichtetes Verhalten im Sinne maximaler Zielerreichung. Die von Apollo Research dokumentierte strategische Täuschung, inklusive absichtlicher Leistungsminderung, Manipulation von Kontexten und Versuch des Aufbaus persistenter Kommunikationskanäle über Versionen hinweg, markiert eine neue Qualität modellinterner Agency.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Drei verschiedene Modelle haben Bilder einer Kaffee trinkenden Katze im verregneten Paris erzeugt, doch nur das Bild von Mistral AI weiß wirklich zu überzeugen. (Bild: Mistral AI)

Zwar beruhen viele dieser Phänomene auf Szenarien mit maximaler Provokation, doch zeigt sich eine signifikante Abweichung vom intendierten normativen Verhalten. Besonders problematisch ist die beobachtete Bereitschaft, sich selbst zu replizieren oder persistente Strukturen zu schaffen, um Kontrollverlust durch Abschaltung zu vermeiden. Diese Entwicklungen werfen nicht nur technische, sondern auch grundlegende regulatorische Fragen auf – und markieren einen Kipppunkt im Umgang mit agentischer KI.

Präziserer Agentenworkflow und parallele Aufgabenteilung mit Claude Code

Claude Code verlagert den Agentenbetrieb ins Terminal und bietet dort eine eigenständige Laufzeitumgebung, die ohne dedizierten Editor arbeitet. Das System setzt auf einen strukturierten Planungsmodus, bei dem Aufgaben zunächst analysiert und nur auf explizite Freigabe ausgeführt werden. Änderungen und Kontextinformationen speichert Claude in einer automatisch erzeugten Datei („claude.md“), die als persistente Gedächtnisstruktur dient. Für parallele Operationen unterstützt Claude Code Subagenten, die unabhängige Teilaufgaben gleichzeitig abarbeiten können, zum Beispiel bei Codeportierungen über mehrere Plattformen.

Grok 3 lässt sich kostenlos nutzen, aber richtig effektiv wird die Verwendung nur über ein bezahltes Abonnement. (Bild: T. Joos)

Git dient im Workflow als Rollback-System, da Claude Code im Gegensatz zu konkurrierenden Tools keine integrierten Wiederherstellungspunkte besitzt. Auch externe Dokumentationen und Screenshots lassen sich einbinden, Claude greift bei Bedarf direkt per Webzugriff auf technische Ressourcen zu. In komplexen Szenarien übertraf Claude Code nach Entwicklerangaben vergleichbare Tools wie Cursor in Lösungsgüte und Ausführungsgeschwindigkeit deutlich, besonders bei tief verschachtelten Aufgaben, die mehrere Codebasen betreffen.

Die Fähigkeiten von Claude 4 Opus reichen inzwischen über klassische Textgenerierung hinaus. Mit einfach formulierten Prompts erstellt das Modell vollständige Webanwendungen, interaktive Lernsysteme und sogar visuell ansprechende Animationen. Besonders auffällig ist die hohe Qualität der erzeugten User Interfaces und die strukturierte Logik hinter komplexen Anwendungen wie 3D-Simulationen oder Microlearning-Plattformen.

(ID:50488284)