Neue Technologien vorgestellt Fujitsu schützt KI-gesteuerte Chatbots

Von Martin Hensel 2 min Lesedauer

Anbieter zum Thema

Mit zwei neuen Technologien will Fujitsu für ein höheres Vertrauensniveau in Sachen KI sorgen. Sie sollen insbesondere vor „Halluzinationen“ und feindlichen Übergriffen schützen. Die Bereitstellung erfolgt über Fujitsus KI-Plattform Kozuchi.

Mit neuen Technologien will Fujitsu den Umgang mit den Antworten KI-gesteuerter Chatbots sicherer gestalten.(Bild:  Fujitsu)
Mit neuen Technologien will Fujitsu den Umgang mit den Antworten KI-gesteuerter Chatbots sicherer gestalten.
(Bild: Fujitsu)

Die jetzt vorgestellten Technologien sollen Unternehmen und Einzelnutzern ein Tool zur Verfügung stellen, das die Zuverlässigkeit der Antworten KI-gesteuerter Gesprächssysteme bewertet. Dies soll zum sicheren KI-Einsatz in unterschiedlichen Anwendungsfällen beitragen. Fujitsu wird beide Technologien in seine Core-Engine für KI-gesteuerte Gespräche aufnehmen. Sie wird über die KI-Plattform Kozuchi angeboten. Eine spezielle Portalwebsite macht die Neuheiten dort zunächst als Demoumgebung verfügbar.

„Halluzinationen“ exakt erkennen

Die erste Neuheit widmet sich der Problematik sogenannter „Halluzinationen“ in KI-Antworten, also fehlerhaften oder unzusammenhängenden Ausgaben. KI-gesteuerte Chatbots extrahieren ihre Antworten in der Regel aus vorverarbeiteten Geschäftsdaten. In einigen Fällen können die Chatbots aber Informationen zu Fragen nicht korrekt extrahieren und geben dann unzusammenhängende oder falsche Antworten aus.

Ein „Halluzinations-Score“ beziffert die Wahrscheinlichkeit derartiger Fehler, ist aber nur schwer abzuschätzen. Häufig generieren die KI-Systeme falsche Informationen für Eigennamen und Zahlen, wobei sich der Inhalt der Antworten bei wiederholtem Fragen verändert. Auf Basis dieser Beobachtung hat Fujitsu eine Lösung entwickelt, die Satzteile mit hoher Wahrscheinlichkeit für „Halluzinationen“ identifizieren kann. Sie zerlegt dazu die KI-Antwort in drei Teile (Subjekt, Prädikat, Objekt) und erkennt dann automatisch benannte Entitäten in der Antwort. Im nächsten Schritt lässt die Technologie diese Entitäten leer und befragt die KI wiederholt, um diese spezifischen Ausdrücke genauer zu definieren. Laut Fujitsu liegt die Genauigkeit dieser Methode rund 22 Prozent über der anderer Methoden, wie etwa SelfCheckGPT. Getestet wurde anhand von Open-Data, einschließlich des WikiBio-GPT-3-Halluzinationsdatensatzes.

Phishing-URLs in KI-Antworten entlarven

Als zweite Neuheit stellte Fujitsu eine gemeinsam mit der Ben-Gurion-Universität Negev entwickelte Technik vor, um Phishing-URLs in den Antworten KI-gesteuerter Chatbots zu identifizieren. Derartige Links werden etwa durch Manipulation der KI-Trainingsdaten eingeschleust. Die Technologie von Fujitsu gibt hierbei eine Warnmeldung an die Benutzer aus, sobald eine potenziell schädliche URL erkannt wurde.

Das Verfahren ist nicht nur auf Phishing-Links beschränkt, sondern soll auch zuverlässige Antworten KI-basierter Chatsysteme sicherstellen. Als Grundlage dient eine Methode die sich die Tendenz zunutze macht, dass feindliche Entitäten oftmals nur einen einzigen KI-Modelltyp angreifen. Manipulierte Daten werden durch Verarbeitung mit verschiedenen KI-Modellen und Unterschiede in deren Antworten erkannt. Sie lässt sich auch zur Verhinderung von allgemeinen Attacken nutzen, die KI-Modelle mit tabellarischen Daten ins Visier nehmen.

(ID:49783550)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung