Sprache als Angriffsfläche BSI warnt: Sprachmodelle lassen sich gezielt aushebeln

Von Berk Kutsal 2 min Lesedauer

Anbieter zum Thema

Evasion-Angriffe auf große Sprachmodelle sind kein theoretisches Szenario mehr. Das Bundesamt für Sicherheit in der Informationstechnik sieht reale Risiken für produktive KI-Systeme und fordert Unternehmen auf, ihre Architekturen neu zu denken

Evasion-Angriffe zielen darauf ab, das vorher eingesetzte Sicherheits- oder Verhaltensprofil eines LLM zu umgehen, indem Eingaben so manipuliert werden, dass das Modell Sicherheitsregeln ignoriert oder sein Verhalten ändert.(Bild: ©  OKA - stock.adobe.com)
Evasion-Angriffe zielen darauf ab, das vorher eingesetzte Sicherheits- oder Verhaltensprofil eines LLM zu umgehen, indem Eingaben so manipuliert werden, dass das Modell Sicherheitsregeln ignoriert oder sein Verhalten ändert.
(Bild: © OKA - stock.adobe.com)

Große Sprachmodelle gelten als vielseitig, lernfähig und leistungsstark. Genau diese Eigenschaften machen sie jedoch angreifbar. Das Bundesamt für Sicherheit in der Informationstechnik (BSI) warnt vor sogenannten Evasion-Angriffen, bei denen Large Language Models (LLMs) im laufenden Betrieb manipuliert werden, ohne Eingriffe in Training oder Modellparameter.

Dabei stehen Angriffe wie Prompt Injection oder Jailbreaks im Vordergrund. Hier werden Eingaben so formuliert, dass sie Sicherheitsregeln überschreiben oder Schutzmechanismen umgehen. Anders als klassische Angriffe auf IT-Systeme zielen diese Methoden nicht auf Software-Schwachstellen, sondern auf die semantische Verarbeitung von Sprache selbst.

Warum klassische Security hier versagt

Evasion-Angriffe lassen sich weder durch Firewalls noch durch Malware-Scanner zuverlässig erkennen. Sie bewegen sich vollständig innerhalb der vorgesehenen Nutzungslogik eines Sprachmodells. Für das Modell wirken die Eingaben legitim, für das Gesamtsystem können sie aber gravierende Folgen haben.

Besonders kritisch wird es, wenn LLMs in Geschäftsprozesse eingebunden sind, Zugriff auf vertrauliche Informationen haben oder eigenständig Aktionen ausführen dürfen, etwa externe APIs aufrufen oder Code generieren. In solchen Szenarien kann eine erfolgreiche Manipulation nicht nur zu Fehlinformationen führen, sondern auch zu Datenabfluss oder unerwünschten Systemaktionen.

Mehrschichtiger Schutz statt Einzelmaßnahme

Das BSI empfiehlt daher keinen einzelnen technischen Fix, sondern einen kombinierten Ansatz. Dazu gehören robuste System- und Rollenprompts, eine klare Trennung von Kontexten sowie Filtermechanismen für Ein- und Ausgaben. Zusätzlich rät das BSI zu restriktiven Berechtigungen, isolierten Ausführungsumgebungen und einer konsequenten Begrenzung der Fähigkeiten produktiver KI-Systeme.

Neben technischen Maßnahmen spielen organisatorische Aspekte eine zentrale Rolle. Klare Richtlinien, Schulungen für Entwickler und Administratoren sowie kontinuierliches Monitoring sollen helfen, Angriffe frühzeitig zu erkennen und Risiken zu begrenzen.

Kein Sicherheitsversprechen, aber klare Leitplanken

Das BSI macht unmissverständlich klar: Evasion-Angriffe lassen sich nicht vollständig verhindern. Sprachmodelle bleiben angreifbar, weil Offenheit und Kontextverständnis zu ihrem Kern gehören. Ziel ist es daher nicht absolute Sicherheit, sondern kontrollierbare Risiken.

Für Unternehmen bedeutet das einen Perspektivwechsel: KI-Systeme müssen als sicherheitskritische Infrastruktur behandelt werden, nicht als isolierte Tools. Wer Sprachmodelle produktiv einsetzt, brauche also nicht nur Rechenleistung und Daten, sondern auch belastbare Sicherheitsarchitekturen.

(ID:50683925)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung