Definition Was ist Data Poisoning?

Von Dipl.-Ing. (FH) Stefan Luber 4 min Lesedauer

Anbieter zum Thema

Data Poisoning ist eine Cyberangriffsmethode, die auf KI-Modelle und maschinelles Lernen abzielt. Die Künstliche Intelligenz (KI) wird absichtlich mit manipulierten oder falschen Daten trainiert. Infolgedessen liefert die KI ungenaue oder falsche Ergebnisse oder trifft falsche Entscheidungen.

(Bild:  © aga7ta - stock.adobe.com)
(Bild: © aga7ta - stock.adobe.com)

Data Poisoning ist ein Fachbegriff aus dem Bereich der Künstlichen Intelligenz und des maschinellen Lernens. Ins Deutsche übersetzt bedeutet er „Datenvergiftung“. Es handelt sich um eine Cyberangriffsmethode, die auf KI-Modelle und maschinelles Lernen abzielt. Mithilfe von gefälschten oder korrumpierten Trainingsdaten soll das Verhalten eines mit diesen Daten trainierten KI-Modells in der Inferenzphase manipuliert werden.

Die Folgen können gravierend sein und reichen von reduzierter Leistung über Fehler, Bias und Verzerrungen in den Ergebnissen und Vorhersagen bis zu komplett falschen Ergebnissen und Entscheidungen. Letztlich lässt sich mit Data Poisoning die Zuverlässigkeit und die Nutzbarkeit von KI-Systemen sogar vollständig untergraben.

Wie funktioniert Data Poisoning und welche verschiedenen Arten gibt es?

KI-Modelle, beispielsweise große Sprachmodelle (Large Language Models – LLM), erwerben einen Großteil ihrer Fähigkeiten und ihres Wissens während des Trainings. Die künstlichen neuronalen Netzwerke der Modelle werden per Deep Learning mit riesigen Mengen von Daten trainiert. Die Qualität der Ergebnisse und Vorhersagen der KI in der nachfolgenden Inferenzphase ist stark von der Qualität und der Integrität der Trainingsdaten abhängig. Gelingt es, einem Modell in der Trainingsphase gefälschte oder korrumpierte Daten unterzuschieben und es damit zu trainieren, lässt sich das spätere Verhalten des Modells manipulieren. Je nach Absicht des Angreifers werden verschiedene Aspekte der Daten gefälscht oder verändert.

Grundsätzlich lässt sich Data Poisoning in zwei Kategorien unterscheiden: zielgerichtete und nicht zielgerichtete Angriffe. Bei zielgerichteten Angriffen manipulieren die Angreifer die Trainingsdaten derart, dass sich das Verhalten eines KI-Modells in eine vorgegebene Richtung verändert, ohne dass die generelle Performance des Modells darunter leidet. So sollen beispielsweise die Vorhersagen oder Ergebnisse des Modells in eine bestimmte Richtung gedrängt werden. Nicht zielgerichtete Angriffe untergraben die generelle Performance und Zuverlässigkeit eines KI-Modells. Durch falsche, irrelevante oder verrauschte Trainingsdaten liefert das Modell ungenaue, unzuverlässige oder völlig falsche Ergebnisse. Das KI-Modell wird durch Data Poisoning eventuell sogar komplett unbrauchbar.

Eine weitere Unterteilungsmöglichkeit des Data Poisoning ist die Art und Weise, wie ein Modell manipuliert werden soll. So gibt es beispielsweise sogenannte Backdoor-Angriffe, bei denen durch Manipulation der Trainingsdaten „Hintertüren“ eingebaut werden. Das Modell verhält sich grundsätzlich völlig normal. Bei bestimmten Eingaben, auch als Trigger bezeichnet, produziert es aber ein vom Angreifer manipuliertes, falsches Ergebnis. Andere Angriffsmethoden des Data Poisoning wie Label Flipping oder Clean-Label-Angriffe basieren auf gezielten Veränderungen der gelabelten Trainingsdaten. Label werden beispielsweise durch falsche Label ersetzt, ohne dass das auf den ersten Blick zu erkennen ist.

Welche Folgen kann Data Poisoning haben?

Gelingt es einem Angreifer, ein KI-Modell mit manipulierten oder falschen Daten zu trainieren, kann das mit gravierenden Folgen verbunden sein. Typische Folgen des Data Poisoning sind:

  • ungenaue oder falsche Ergebnisse oder Vorhersagen
  • Voreingenommenheit (Bias) in den KI-Ergebnissen
  • falsche Entscheidungen
  • falsche Ausführung von Anweisungen
  • falsche Klassifizierung von Daten
  • reduzierte Leistungsfähigkeit des Modells
  • reduzierte Zuverlässigkeit des Modells
  • Entstehung von Sicherheitslücken
  • Backdoor-Bedrohungen
  • Bedrohung der Datenintegrität
  • Funktionsstörungen des Modells
  • völlige Unbrauchbarkeit des KI-Modells

Wie lässt sich Data Poisoning erkennen und verhindern?

Data Poisoning ist eine Angriffsmethode, die nicht einfach zu erkennen ist. Die Trainingsdaten können so subtil oder verdeckt verändert oder manipuliert worden sein, dass dies nicht ohne Weiteres zu bemerken ist. Unter Umständen wird Data Poisoning erst bemerkt, wenn ein KI-System oder eine KI-Anwendung sich auffällig verhält, unerwartete oder falsche Ergebnisse liefert oder unbrauchbar geworden ist. Regelmäßige Audits und eine kontinuierliche Überwachung der Performance und Ergebnisgenauigkeit eines KI-Modells helfen, Data Poisoning zu erkennen.

Um Data Poisoning frühzeitig zu erkennen und den Angriff zu verhindern, noch bevor die Künstliche Intelligenz manipuliert wurde, ist es von entscheidender Bedeutung, die Qualität und Herkunft der Trainingsdaten zu prüfen und zu überwachen. Die Trainingsdaten sollten, bevor sie für das Training verwendet werden, hinsichtlich verdächtiger Datenpunkte oder Anomalien untersucht werden. Auch die Datenquellen selbst sind hinsichtlich ihrer Integrität zu analysieren. Für die Prüfung der Unversehrtheit der Trainingsdaten können beispielsweise statistische Analysemethoden zum Einsatz kommen. Darüber hinaus ist es sinnvoll, Kontrollmechanismen einzuführen, um festzulegen und zu überwachen, wer Zugriff auf Trainingsdatensätze erhält und wer Daten einfügen oder verändern darf.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Das Risiko von Data Poisoning lässt sich zudem reduzieren, indem die Robustheit und die Abwehrkraft der KI-Modelle gegenüber dieser Art von Angriff gestärkt werden. Die Modelle können beispielsweise durch sogenanntes Adversarial Training und absichtliches Einfügen schädlicher Beispieldaten in die Trainingsdaten, darauf trainiert werden, diese zu erkennen und nicht weiterzuverwenden.

Wurde ein KI-Modell mit Data Poisoning manipuliert, ist es schwierig und aufwendig, dem Modell das Fehlverhalten wieder abzutrainieren. Unter Umständen kann ein von Grund auf neues Training mit bereinigten Trainingsdaten notwendig werden.

(ID:50305456)