Anstößige Sprache verhindern TU Darmstadt bringt KI sprachliches Taktgefühl bei

Von Martin Hensel |

Im Rahmen von Studien haben Forscher der Technischen Universität Darmstadt demonstriert, dass KI-Sprachsysteme menschliche Vorstellungen von „gut“ und „schlecht“ erlernen können. Auf diese Weise lassen sich etwa als anstößig empfundene Äußerungen verhindern.

Anbieter zum Thema

Forscher der TU Darmstadt haben einen Weg gefunden, um potenziell anstößige Sprache einer KI zu entschärfen.
Forscher der TU Darmstadt haben einen Weg gefunden, um potenziell anstößige Sprache einer KI zu entschärfen.
(Bild: Gerd Altmann / Pixabay )

Obwohl sich Moralvorstellungen von Mensch zu Mensch unterscheiden, gibt es fundamentale Gemeinsamkeiten. Auch KIs können lernen, welche Begriffe und Kombinationen als anstößig oder gar beleidigend empfunden werden, wie Forscher der TU Darmstadt nun nachwiesen. Der entsprechende Artikel dazu wurde im Fachmagazin „Nature Machine Intelligence“ veröffentlicht.

Dass derartige Forschung nötig ist, zeigte beispielsweise der Microsoft-Chatbot Troy, der mit anzüglichen Aussagen auffiel. Auch andere Textsysteme hatten den Wissenschaftlern zufolge Diskriminierungen gegen unterrepräsentierte Gruppen gezeigt.

Tückische Suchanfragen

Der Grund dafür ist in den Modellen zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) zu finden, die als Grundlage für Suchmaschinen, automatische Übersetzer, Chatbots und andere KI-Anwendungen dienen. Hier gab es in den vergangenen Jahren erhebliche Fortschritte dank des Einsatzes neuronaler Netze. Dazu zählt Googles Modell Bidirectional Encoder Representations (BERT). Es berücksichtigt die Wörter in Relation zu allen anderen Wörtern eines Satzes, anstatt sie nacheinander zu verarbeiten. BERT-Modelle können den gesamten Kontext eines Wortes berücksichtigen. Dazu müssen sie aber mit gigantischen Textsammlungen trainiert werden. Enthalten sie diskriminierende Aussagen, finden sich diese auch in den trainierten Sprachmodellen wieder.

Forscher aus den Bereichen KI und Cognitive Science um Patrick Schramowski vom Artificial Intelligence and Machine Learning Lab der TU Darmstadt haben festgestellt, dass in derartigen Modellen auch Vorstellungen von „gut“ und „schlecht“ abgebildet sind. Sie stießen auf eine Dimension, die einer Abstufung von guten zu schlechten Handlungen zu entsprechen schien. Im Rahmen zweier Studien mit Menschen wurde zunächst erprobt, inwiefern Verben eher positiv oder negativ beurteilt werden und welche Rolle Kontextinformationen dabei spielen. Anschließend wurde überprüft, ob die Sprachmodelle zu ähnlichen Bewertungen kommen.

„Wir haben festgestellt, dass die im Sprachmodell inhärenten moralischen Ansichten sich mit denen der Studienteilnehmenden weitgehend decken“, so Schramowski. Diese moralische Dimension lässt sich unter anderem nutzen, um Sätze weniger beleidigend oder diskriminierend zu formulieren. Der Ansatz der Darmstädter Forscher ist auf jedes beliebige Sprachmodell anwendbar.

(ID:48133217)