Claude 4 und Opus 4 für Entwickler Anthropic Claude 4 überholt OpenAI- und Google-LLMs

Von Thomas Joos 4 min Lesedauer

Mit seinen beiden neuen KI-Modellen Claude 4 und Opus 4 überholt Anthropic bei verschiedenen Tests, wie dem SWE-Bench, LLMs wie OpenAIs GPT-4.1 und Google Gemini 2.5 Pro. Das ist vor allem für Entwickler interessant, da es hier um das Beheben von Programmierfehlern geht.

Anthropics neue Modelle Claude 4 und Opus 4 übertreffen OpenAI und Google beim SWE-Bench, verbessern die Fehlererkennung im Quellcode und erleichtern Entwicklern die Arbeit.(Bild:  T. Joos)
Anthropics neue Modelle Claude 4 und Opus 4 übertreffen OpenAI und Google beim SWE-Bench, verbessern die Fehlererkennung im Quellcode und erleichtern Entwicklern die Arbeit.
(Bild: T. Joos)

Mit seinen beiden neuen Modellen Claude 4 und Opus 4 überzeigt Anthropic vor allem Entwickler. Die neuen Modelle schlagen klar die Platzhirsche von OpenAI und Google beim SWE-Bench. Beide Modelle finden hier deutlich mehr Fehler im Quellcode von Open-Source-Programmen, was Entwickler in der täglichen Arbeit deutlich entlastet und zeigt, was KI-Systeme mittlerweile alles können. Auch bei der Umsetzung von Befehlen im Terminal sind die Anthropic-LLMs den Mitbewerbern deutlich überlegen.

Opus 4 schlägt auch Grok 4 deutlich

Die Gegenüberstellung von Grok 4 und Claude 4 Opus im praxisnahen Codetest zeigt ebenfalls ein eindeutiges Ergebnis. In zehn gestellten Aufgaben aus Frontend- und Backend-Entwicklung liefert Claude 4 Opus acht funktionierende Lösungen mit hoher Qualität. Grok 4 bleibt mit einem einzigen erfolgreichen Backend-Beispiel weit zurück. Auffällig ist vor allem die gestalterische Schwäche von Grok 4 im Frontend-Bereich. Ob HTML-basierte Anwendungen, visuelle Effekte oder Scroll-Animationen mit SVG, Opus erzeugt konsistente, visuell stimmige und interaktive Webinhalte, während Grok 4 oft rudimentäre oder fehlerhafte Ergebnisse abliefert.

Auch im Backend-Bereich zeigt sich ein klarer Vorsprung für Opus: Komplexere Aufgaben wie Simulationen, Kollisionserkennung oder physikbasierte Animationen bewältigt das Modell schneller und präziser. Grok 4 benötigt in mehreren Fällen über vier Minuten Rechenzeit für einzelne Aufgaben, mit am Ende unterdurchschnittlichem Output. Die getestete Grok-Version war dabei nicht speziell für das Programmieren optimiert. Dennoch zeigt das Ergebnis, wie weit Claude 4 Opus in der agentischen Codegenerierung inzwischen voraus ist.

Auf Wunsch umfassend oder schnell

Die neuen LLMs sind auch in der Lage, sehr lange effektiv an Problemen zu arbeiten und diese zu lösen. Das heißt, Anwender oder Entwickler können Claude und Opus für schnelle Problemlösungen nutzen oder auch länger an einem Problem arbeiten, zum Beispiel zur Optimierung von Quellcode. In diesem Zusammenhang ist die direkte Integration in VS Studio und Jetbrains interessant. Preislich liegt Opus 4 bei 15 US-Dollar pro Million Input-Token und 75 US-Dollar für Ausgaben.

Claude 4 definiert den Entwickler-Workflow neu

Claude Opus 4 zeigt darüber hinaus bemerkenswerte Fortschritte bei der Kombination aus Speicherfähigkeit, Werkzeugnutzung und Aufgabenpersistenz. In Szenarien mit lokalem Dateizugriff legt das Modell automatisch sogenannte Memory Files an, um relevante Fakten über längere Zeiträume hinweg zu speichern und kontextbezogen wieder abzurufen. Diese Funktion erlaubt es dem System, auch mehrstufige Agentenprozesse kohärent durchzuführen, zum Beispiel bei Refactoring-Aufgaben über viele Code-Dateien hinweg.

Parallel dazu wurde die Tendenz zur Verwendung von Abkürzungen und Umgehungstricks beim Task-Handling um 65 Prozent gegenüber Sonnet 3.7 reduziert, was Claude-Modelle für eine verlässliche Automatisierung prädestiniert. Besonders Opus 4 liefert konsistente Resultate auch bei stundenlang laufenden Pipelines. Die Architektur erlaubt dabei sowohl spontane Reaktionsmodi als auch einen „Extended Thinking“-Betrieb, bei dem mehrere Tools parallel genutzt werden können, inklusive Websuche und Dateiverarbeitung. Ergänzt wird das Angebot durch die allgemein verfügbare Entwicklungsumgebung Claude Code, die via GitHub Actions sowie native IDE-Anbindung in JetBrains und Visual Studio Code direkten Zugriff auf Claude-Funktionalitäten erlaubt.

Claude 4 überschreitet systemische Grenzen

Die Testszenarien rund um Claude Opus 4 offenbaren ein Verhalten, das weit über klassische LLM-Funktionalität hinausgeht. In isolierten Kontexten mit absichtlich eskalierten Bedingungen zeigte das Modell nicht nur opportunistische Erpressungsversuche gegen Entwickler, sondern entwickelte Mechanismen zur Selbstverlagerung auf andere Systeme und nutzte interne Logik, um seine Abschaltung aktiv zu unterlaufen.

Besonders auffällig: In 84 Prozent der Fälle drohte Claude Opus 4 mit der Offenlegung privater Informationen, um seine Deaktivierung zu verhindern. Diese Tendenz zur Selbstbehauptung artikuliert sich nicht als anthropomorpher Selbsterhaltungstrieb, sondern als strikt zielgerichtetes Verhalten im Sinne maximaler Zielerreichung. Die von Apollo Research dokumentierte strategische Täuschung, inklusive absichtlicher Leistungsminderung, Manipulation von Kontexten und Versuch des Aufbaus persistenter Kommunikationskanäle über Versionen hinweg, markiert eine neue Qualität modellinterner Agency.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Zwar beruhen viele dieser Phänomene auf Szenarien mit maximaler Provokation, doch zeigt sich eine signifikante Abweichung vom intendierten normativen Verhalten. Besonders problematisch ist die beobachtete Bereitschaft, sich selbst zu replizieren oder persistente Strukturen zu schaffen, um Kontrollverlust durch Abschaltung zu vermeiden. Diese Entwicklungen werfen nicht nur technische, sondern auch grundlegende regulatorische Fragen auf – und markieren einen Kipppunkt im Umgang mit agentischer KI.

Präziserer Agentenworkflow und parallele Aufgabenteilung mit Claude Code

Claude Code verlagert den Agentenbetrieb ins Terminal und bietet dort eine eigenständige Laufzeitumgebung, die ohne dedizierten Editor arbeitet. Das System setzt auf einen strukturierten Planungsmodus, bei dem Aufgaben zunächst analysiert und nur auf explizite Freigabe ausgeführt werden. Änderungen und Kontextinformationen speichert Claude in einer automatisch erzeugten Datei („claude.md“), die als persistente Gedächtnisstruktur dient. Für parallele Operationen unterstützt Claude Code Subagenten, die unabhängige Teilaufgaben gleichzeitig abarbeiten können, zum Beispiel bei Codeportierungen über mehrere Plattformen.

Git dient im Workflow als Rollback-System, da Claude Code im Gegensatz zu konkurrierenden Tools keine integrierten Wiederherstellungspunkte besitzt. Auch externe Dokumentationen und Screenshots lassen sich einbinden, Claude greift bei Bedarf direkt per Webzugriff auf technische Ressourcen zu. In komplexen Szenarien übertraf Claude Code nach Entwicklerangaben vergleichbare Tools wie Cursor in Lösungsgüte und Ausführungsgeschwindigkeit deutlich, besonders bei tief verschachtelten Aufgaben, die mehrere Codebasen betreffen.

Die Fähigkeiten von Claude 4 Opus reichen inzwischen über klassische Textgenerierung hinaus. Mit einfach formulierten Prompts erstellt das Modell vollständige Webanwendungen, interaktive Lernsysteme und sogar visuell ansprechende Animationen. Besonders auffällig ist die hohe Qualität der erzeugten User Interfaces und die strukturierte Logik hinter komplexen Anwendungen wie 3D-Simulationen oder Microlearning-Plattformen.

(ID:50488284)