Suchen

Menschliche Vorurteile bei der KI-Entwicklung Human Bias – die kognitive Verzerrung in der KI

| Autor / Redakteur: Christian Rentrop / Stephan Augsten

Künstliche Intelligenzen sind immer nur so intelligent, wie ihre Algorithmen und Datensätze es erlauben. Sind die bereits von unbewussten Vorurteilen gefärbt, übernimmt die Maschine diese kritiklos.

Menschliche Vorurteile finden via Deep Learning ihren Weg in KI-Systeme, wo sie sich als „human bias“ niederschlagen.
Menschliche Vorurteile finden via Deep Learning ihren Weg in KI-Systeme, wo sie sich als „human bias“ niederschlagen.
(Bild: geralt / Pixabay )

Niemand ist frei von Vorurteilen: Wer hat wohl nicht schon einmal kurz gezögert, weil der Name des Autohändlers einen arabischen Anklang hatte, die Reisebus-Lenkerin weiblich oder der Kindererzieher männlich war.

Selbst Menschen, die sich für vorurteilsfrei halten, sortieren Menschen automatisch in Kategorien ein. Jede und jeder von uns schätzt das Gegenüber aufgrund von Namen, Hautfarbe, Körpergröße, Stimme oder Attraktivität als ungefährlicher, klüger oder sympathischer ein – oder umgekehrt.

Dagegen ist nicht viel zu machen, denn diese sogenannte kognitive Verzerrung („cognitive bias“) ist das Bauchgefühl, das in wilderen Zeiten evolutionsbiologisch sinnvoll war und vor Gefahren durch andere schützte. Inzwischen sorgt diese „interne Heuristik“ von Menschen aber für Vorurteile, die in modernen Gesellschaften unerwünscht sind.

Die kognitive Verzerrung lässt sich zwar durchaus kontrollieren, dennoch findet sie oftmals un- oder unterbewusst statt. Genau deshalb besteht auch das Risiko, dass sie via Deep Learning ihren Weg in KI-Systeme findet. Hier wird sie treffend als „human bias“ bezeichnet: Die menschliche Verzerrung.

Wenn der Computer diskriminiert

Bei Systemen aus dem Bereich der künstlichen Intelligenz, die via Mustererkennung arbeiten und Urteile fällen, kann ein solches unbewusst eingeflossenes Vorurteil zu erheblichen Problemen führen. Das liegt einerseits daran, dass kein Entwickler jemals den Gesamtzusammenhang abschätzen kann und dadurch lückenhafte Algorithmen oder bereits mit einer Verzerrung behaftete Datensätze einpflegt.

Andererseits sind KI-Systeme eine Blackbox: Zwar ist grundsätzlich abschätzbar, was am Ende herauskommt, allerdings kann sich das Deep Learning auch in eine völlig andere, logisch möglicherweise richtige, aber in der Praxis diskriminierende Richtung entwickeln.

Vielgescholtener Arbeitsmarkt-Algorithmus

Ein interessantes Beispiel ist in dieser Hinsicht das System des österreichische Arbeitsmarktservices, vergleichbar mit der deutschen Arbeitsagentur: Das auf KI-Technologie basierende System, medial als „AMS-Algorithmus“ diskutiert, soll ab Mitte 2020 die Chancen von Bewerbern auf dem Arbeitsmarkt über ein Punktesystem abschätzen.

Hier hagelte es im Vorfeld bereits Kritik: Der Algorithmus könne systematisch Frauen und ältere Personen benachteiligen und damit Ungleichheit zementieren. Ähnliche Probleme gibt es auch in automatischen Bewerbungs-Systemen, zum Beispiel bei Amazon oder bei Versicherungen und Gesundheitssystemen: Bestimmte Personengruppen werden von der KI benachteiligt, weil der Algorithmus aufgrund der Datenlage zwar die richtigen oder zumindest logisch erklärbare Schlüsse zieht – diese für den Einzelfall aber im Zweifel keinerlei Bedeutung haben.

Diskriminierung durch Logik

Das Problem des AMS-Algorithmus ist das gleiche, unter dem auch alle anderen Systeme mit selbstständiger Datenauswertung leiden: Sie werden normalerweise mit Trainingsdatensätzen trainiert, die einen Ist-Zustand wiedergeben. Diese können durchaus aus der echten Welt stammen, müssen also nicht extra angelegt werden.

Nun ist die echte Welt aber voller kleiner und großer Diskriminierungen, die die KI in ihrer Naivität schnell als Muster erkennt:

  • Frauen sind, um ein einfaches Beispiel zu nennen, seltener voll beschäftigt, weshalb der Algorithmus hier möglicherweise das Muster „weiblich = weniger Chancen am Arbeitsmarkt“ erkennt. Dementsprechend wird sortiert.
  • Oder der Algorithmus bemerkt, dass Menschen mit Migrationshintergrund nicht selten in Stadtteilen mit schlechterer Einkommensverteilung wohnen und stuft diese deshalb bei der Risikobewertung für Kredite hoch.
  • Denkbar ist auch, dass der Algorithmus sieht, dass Männer häufiger bei Autounfällen umkommen und macht für Männer Lebensversicherungen teurer.

Diese computergenerierten „Vorurteile“ mögen logisch korrekt und statistisch relevant sein; für den Einzelnen, der letztlich bewertet werden soll, spielen sie aber keine Rolle.

Datensätze bilden die Vergangenheit ab

Hinzu kommt, dass die Datensätze selbst oft nicht die aktuelle Realität abbilden: So sind gerade der Arbeitsmarkt und das Gesundheitssystem von langfristigen Entwicklungen geprägt: Ein Rauchverbot hier, eine Fördermaßnahme dort – und viele Jahre später gibt es weniger Tabak-Tote oder und mehr Frauen in Top-Positionen.

Wer hier einfach vorliegende Daten verwendet, ohne diese systemischen Änderungen mit ihren Langzeitwirkungen in den Algorithmus einfließen zu lassen, riskiert, dass das System sich nach und nach mit Vorurteilen füllt. Langzeitwirkungen sind im Vorfeld zwar schlecht abschätzbar. Trotzdem können durchaus vergangene Maßnahmen Erfolg gezeigt haben, ohne vom maschinellen Lernprozess erkannt zu werden.

Werden langfristige Daten eingesetzt, muss deshalb korrigierend eingegriffen werden. Amazon musste beispielsweise 2018 eine KI zur Job-Automatisierung deaktivieren, weil sie systematisch Frauen benachteiligte und insbesondere weiße Männer bevorzugte. Der Grund: In der Vergangenheit hatten eben aufgrund gesellschaftlicher Gegebenheiten besonders viele weiße Männer erfolgreich bei Amazon Karriere gemacht.

Diskriminierung durch Betriebsblindheit

Solche Human-Bias-Fehler kommen im KI-Einsatz immer wieder vor. Das liegt auch daran, dass Fehler in der Grundannahme der Datensätze vorhanden sind. Werden zum Beispiel – wie sehr oft in den Vereinigten Staaten – College-Studenten für wissenschaftliche Studien herangezogen, fließen diese Ergebnisse möglicherweise ins Training einer KI ein.

Selbst wenn aus diesen Datensätzen alle Merkmale wie Hautfarbe oder Geschlecht entfernt werden, wird eine Mustererkennung höchstwahrscheinlich falsche Schlüsse ziehen und aktiv diskriminieren. Denn die Gruppe „College-Studenten“ bildet in den USA nur einen bestimmten Teil der Bevölkerung ab – und zwar den, der sich eine College-Ausbildung leisten kann. Psychologen sprechen hier von WEIRD-Kriterien, wobei WEIRD für „western, educated, industrialized, rich and democratic“ steht.

Von der wohlhabenden Gruppe der College-Studenten Schlüsse auf die Gesamtbevölkerung abzuleiten, ist natürlich problematisch. Wer den Computer füttert, muss hier also entweder zusätzliche Daten erheben – oder korrigierend eingreifen. Dummerweise sind auch KI-Entwickler und Planer hier nicht selten betriebsblind, weil sie oft selbst der „WEIRD-Gesellschaft“ angehören.

Der Weg aus dem Human-Bias-Dilemma

Einen Weg aus diesem Dilemma gibt es derzeit nicht: Solange KI-Systeme keinen moralisch-ethischen Kompass haben und nicht wirklich begreifen, was sie da eigentlich auswerten, müssen die Entwickler korrigierend eingreifen und das Training im Auge behalten. Das beginnt bei der Auswahl und Anpassung möglichst diskriminierungsfreier Datensätze, endet aber nicht mit der Programmierung von Kontrollmechanismen.

Wer entsprechende Systeme entwirft, sollte daher neben dem Algorithmus auch die Datenquellen, den eigenen Standpunkt inklusive möglicher Vorurteile und eigne blinde Flecken hinterfragen. Nur so kann sichergestellt werden, dass ein Computersystem nicht irgendwelche versteckten menschlichen Vorurteile übernimmt.

(ID:46640319)

Über den Autor

 Christian Rentrop

Christian Rentrop

IT-Fachautor