AWS erweitert Bedrock Guardrails um Logik-Checks Formale Prüfungen gegen KI-Halluzinationen

Von Berk Kutsal 1 min Lesedauer

Anbieter zum Thema

AWS hat die in Bedrock Guardrails integrierten „Automated Reasoning Checks“ allgemein verfügbar gemacht. Mit mathematisch-logischen Prüfverfahren sollen KI-Ausgaben verifiziert und Falschinformationen erkannt werden – laut AWS mit bis zu 99 Prozent Genauigkeit.

AWS erweitert Bedrock Guardrails um formale Prüfungen für KI-Antworten mit bis zu 99 Prozent Verifikationsgenauigkeit.(Bild:  KI-generiert)
AWS erweitert Bedrock Guardrails um formale Prüfungen für KI-Antworten mit bis zu 99 Prozent Verifikationsgenauigkeit.
(Bild: KI-generiert)

Mit der allgemeinen Verfügbarkeit der „Automated Reasoning Checks“ ergänzt AWS die Bedrock Guardrails um eine Funktion, die Antworten von Foundation-Modellen (FMs) gegen hinterlegte Regeln und Fakten prüft. Grundlage sei formale, mathematische Logik, wie sie etwa aus der Software- oder Sicherheitsverifikation bekannt ist. Der Ansatz soll es ermöglichen, Modellantworten zu validieren oder Widersprüche aufzuzeigen. AWS gibt eine mögliche Verifikationsgenauigkeit von bis zu 99 Prozent an.

Die neue Version verarbeitet Eingaben mit bis zu 80.000 Tokens – rund 100 Seiten Text. Damit lassen sich auch umfangreiche Richtlinien, Verträge oder technische Spezifikationen vollständig analysieren. Für wiederkehrende Kontrollen können Nutzer Tests speichern und erneut ausführen, ohne das Regelwerk neu zu formulieren.

Ein weiteres Feature sei die automatische Generierung von Testfällen. Anstatt Szenarien manuell anzulegen, erstelle das System Variationen, um unterschiedliche Interpretationen oder Randbedingungen abzudecken. Bei nicht bestandenen Prüfungen liefere die Funktion Feedback in natürlicher Sprache, das Vorschläge zur Anpassung der Regeln enthält.

Für die Bewertung der Prüfergebnisse lassen sich Confidence-Schwellen konfigurieren. So können Anwender steuern, ab welcher Sicherheit ein Ergebnis als „bestanden“ gilt. Dies soll eine Feinjustierung zwischen strenger und toleranter Auslegung der Regeln ermöglichen.

Grenzen des Verfahrens

Die Wirksamkeit der Methode hängt von der Qualität und Eindeutigkeit der hinterlegten Regeln ab. Unklare oder widersprüchliche Quellen können nicht automatisch aufgelöst werden.Zudem erhöht der Prüfprozess die Latenz bei der Antwortgenerierung.

Die Funktion steht derzeit nur in englischer Sprache zur Verfügung und schützt nicht vor Prompt-Injection-Angriffen, die auf eine Manipulation der Eingaben abzielen.

(ID:50512936)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung