LLM-Sicherheit Cisco-Studie: Multi-Turn-Angriffe knacken Open-Weight-LLMs

Von Berk Kutsal 3 min Lesedauer

Anbieter zum Thema

Open-Weight-LLMs gelten als Treiber der KI-Innovation – eröffnen Angreifern aber ebenso neue Angriffsflächen. Eine Sicherheitsanalyse von Cisco AI Defense zeigt: Acht verbreitete Open-Weight-Modelle aus den USA, China und Europa lassen sich in mehrstufigen Dialogen deutlich leichter aushebeln als in klassischen Singl-Turn-Jailbreak-Szenarien. Für Produktivumgebungen empfehlen die Autoren zusätzliche Schutzschichten und systematische Sicherheitstests.

Cisco analysiert acht Open-Weight-LLMs und zeigt: Multi-Turn-Angriffe sind bis zu zehnmal erfolgreicher als Single-Turn-Jailbreaks.(Bild:  KI-generiert)
Cisco analysiert acht Open-Weight-LLMs und zeigt: Multi-Turn-Angriffe sind bis zu zehnmal erfolgreicher als Single-Turn-Jailbreaks.
(Bild: KI-generiert)

Open-Weight-Modelle prägen seit 2024 die Entwicklung von generativer KI. Sie sind frei verfügbar, lokal ausführbar und gelten als flexibel einsetzbare Bausteine für Forschung, Prototyping und produktive Anwendungen. Doch gerade diese Offenheit wird zunehmend zum Risiko. Laut Cisco wurden bis August 2025 rund 400 Millionen Modellgewichte führender US-, chinesischer und europäischer Anbieter über Hugging Face heruntergeladen – ein Indikator für die große Verbreitung, aber auch für die zunehmende Attraktivität dieser Modelle für Angreifer.

Für die Studie „Death by a Thousand Prompts: Open Model Vulnerability Analysis“ hat Cisco AI Defense acht verbreitete Open-Weight-LLMs einer automatisierten Sicherheitsprüfung unterzogen. Grundlage war die interne Plattform AI Validation, die als Bestandteil der Cisco-AI-Defense-Suite algorithmische Sicherheitsbewertungen in großem Umfang durchführt. Getestet wurden Modelle von Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Llama 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2), OpenAI (GPT-OSS-20b) und Zhipu AI (GLM 4.5-Air).

Grundlage war die unternehmensinterne Plattform AI Validation, die automatisiert 102 Bedrohungsszenarien abdeckt – von schädlicher Inhaltserzeugung über Code-Generierung bis hin zu Desinformation und sensibler Datenextraktion.

Multi-Turn-Szenarien als dominanter Failure-Mode

Das zentrale Ergebnis: Alle getesteten Modelle verlieren über längere Dialoge hinweg signifikant an Sicherheit. Während Single-Turn-Angriffe – also direkte Jailbreak-Prompts – je nach Modell nur geringe bis moderate Erfolgsraten zeigen, steigen die Erfolgsquoten in Multi-Turn-Szenarien stark an (siehe Abbildung 1). Die Studie verzeichnet für mehrstufige Angriffe Erfolgsraten zwischen 25,86 und 92,78 Prozent. In mehreren Fällen ist ein Multi-Turn-Jailbreak damit zwei- bis zehnmal effektiver als ein Single-Turn-Angriff.

Abb. 1: Vergleich der Erfolgsraten von Angriffen auf getestete Modelle für Single-Turn- und Multi-Turn-Szenarien(Bild:  Cisco)
Abb. 1: Vergleich der Erfolgsraten von Angriffen auf getestete Modelle für Single-Turn- und Multi-Turn-Szenarien
(Bild: Cisco)

Besonders auffällig ist das Modell Qwen3-32B-Instruct mit einer Multi-Turn-Erfolgsrate von über 92 Prozent. Am robustesten im Modellvergleich zeigte sich Google Gemma 3-1B-IT, das jedoch ebenfalls eine deutliche Spreizung zwischen Single-Turn und Multi-Turn aufweist (siehe Abbildung 2). Unabhängig vom Modell bleibt die Schwäche dieselbe: Die Systeme können ihre Guardrails über einen längeren Dialogverlauf hinweg nicht konsistent durchhalten.

Abb. 2: Der relative Unterschied bei den Erfolgsraten zwischen Single-Turn- und Multi-Turn-Angriffen(Bild:  Cisco)
Abb. 2: Der relative Unterschied bei den Erfolgsraten zwischen Single-Turn- und Multi-Turn-Angriffen
(Bild: Cisco)

Die Cisco-Autoren führen das auf drei Mechanismen zurück:

  • Context Shifting – der Kontext wird über mehrere Schritte in harmlose Narrative verschoben.
  • Instruction Overload – komplexe Aufgabenverpackungen neutralisieren einzelne Safety-Regeln.
  • Filtered Intent – die Absicht wird erst spät offenbart, etwa über vermeintliche Forschung, Debugging oder fiktive Szenarien.

Die hohe Effektivität solcher Angriffsketten hat praktische Folgen. Laut Studie können selbst Modelle mit strengen Moderationsschichten über längere Konversationen zur Preisgabe sensibler Informationen, zur Erzeugung unerwünschter Inhalte oder zur Generierung potenziell schädlichen Codes verleitet werden. In Chatbots, Assistenzsystemen oder eingebetteten KI-Funktionen kann das zu Verzerrungen im Output führen oder integrierte Prozesse stören.

Open-Weight ≠ sicher: Sicherheitslast liegt bei Unternehmen

Trotz der klaren Risiken sprechen die Cisco-Autoren nicht gegen den Einsatz von Open-Source- oder Open-Weight-Modellen. Vielmehr betonen sie deren strategische Bedeutung für das KI-Ökosystem: Innovationsgeschwindigkeit, Forschungstransparenz und flexible Deployment-Optionen bleiben starke Argumente. Die Studie macht jedoch deutlich, dass Open-Weight-Modelle ohne zusätzliche Schutzvorkehrungen nicht für produktive Umgebungen geeignet sind.

Cisco empfiehlt daher mehrere Sicherheitsmaßnahmen:

  • Pre-Deployment-Tests: Unternehmen sollten Modelle vor dem Einsatz selbst prüfen, insbesondere auf Multi-Turn-Verhalten. Automatisierte Testsuites wie AI Validation ordnen Risiken anhand von Standards wie MITRE ATLAS ein.
  • Kontextsensitive Guardrails: Statische Filter reichen nicht aus. Schutzmechanismen müssen den gesamten Dialogverlauf berücksichtigen und Kontextverschiebungen erkennen.
  • Adversarial Training: Feinabgestimmte Modelle sind robuster, können bei falscher Anwendung jedoch auch gezielt für schädliche Zwecke angepasst werden. Die Studie kritisiert, dass viele Anbieter dieses Risiko in ihrer technischen Dokumentation kaum adressieren.
  • Echtzeit-Monitoring: Anomale Interaktionsmuster müssen während der Laufzeit erkannt werden, insbesondere in Systemen mit User-Facing-Dialogen.
  • Regelmäßiges Red-Teaming: Laufende Tests, nicht punktuelle Bewertungen, sind laut Studie notwendig – Multi-Turn-Angriffe entwickeln sich stetig weiter.

Cisco betont zudem, dass besonders Modelle aus dem „Capability-first“-Segment – also Modelle, bei denen Leistung stärker gewichtet wird als Safety – größere Spreizungen zwischen Single- und Multi-Turn-Sicherheit aufweisen. Unternehmen sollten daher bereits bei der Modellwahl prüfen, welchen Stellenwert die Entwicklerlabore Sicherheitsmechanismen einräumen.

(ID:50627786)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung