Bias – also Voreingenommenheit – gilt als eines der zentralen Probleme Künstlicher Intelligenz (KI). Bias kann Antworten verzerren, Diskriminierung verstärken und damit nicht nur falsche oder unvollständige Antworten erzeugen, sondern auch Schaden anrichten. Fast 80 Prozent der IT-Verantwortlichen erwarten, dass Verzerrungen durch KI künftig zu erheblichen Problemen führen werden. Doch ohne Bias wären KI-Systeme nicht lernfähig. Entscheidend ist daher nicht, ob Bias KI beeinflusst, sondern welche Annahmen und Verzerrungen akzeptabel sind – und welche nicht.
Der Autor: Prof. Michael Berthold ist Informatiker und international anerkannter Experte für Data Science, KI und maschinelles Lernen. Er war Mitgründer und treibende Kraft hinter der Open-Source-Plattform KNIME. Sein Fokus liegt auf transparenter, nachvollziehbarer KI und praxisnaher Anwendung moderner Data-Analytics-Forschung.
(Bild: Michael Berthold)
Inzwischen gibt es zahlreiche Beispiele für Bias in KI-Systemen. Dazu gehören klassische Fälle, bei denen sofort klar ist, dass es sich um ein Problem handelt, und woher es stammt. Etwa, wenn Pflegekräfte überwiegend als weiblich dargestellt werden, während Ärzte meist männlich erscheinen. Das ist offensichtlich ein Resultat historischer und damit veralteter Trainingsdaten. Modelle lernen aus großen Mengen existierender Muster und Wahrscheinlichkeiten, die in diesen Daten enthalten sind, obwohl sie nicht mehr zeitgemäß sind.
Daneben gibt es subtilere Beispiele: Wie KI-Systeme, die übermäßig optimistisch oder auffallend starr reagieren, ohne dass der Ursprung dieser Tendenzen eindeutig bestimmbar ist. Und schließlich existieren noch technische Formen von Bias, etwa die Neigung eines Modells, den Anfang und das Ende eines Prompts stärker zu gewichten.
Gleichzeitig gibt es Bias, die wir bereitwillig akzeptieren und die sogar hilfreich sein können. Ohne jeglichen historisch begründeten Bias hatte die KI-Software Gemini beispielsweise Bilder nicht-weißer Nazi-Soldaten angezeigt. Auch naturwissenschaftliche Fakten, die dafür sorgen, dass Elefanten generell mit vier und nicht mit fünf Beinen dargestellt werden, sind hilfreich. All das sind Bias – nur eben solche, mit denen wir kein Problem haben.
Wie entsteht Bias?
Bias entsteht durch Einschränkungen – etwa begrenzte Flexibilität, Ressourcen oder Zeitmangel. Das ist auf den ersten Blick bei Menschen ähnlich: Wir nutzen Bias, um Situationen nicht jedes Mal neu bewerten zu müssen, sondern auf Erfahrungen zurückzugreifen und schneller Entscheidungen zu treffen. Bei KI geht es dabei jedoch weniger um Geschwindigkeit oder das Sparen von Ressourcen, sondern um nützliche aber teilweise eben auch unbeabsichtigte Einschränkungen, die beim Training der KI eingebaut wurden.
Um diese Mechanismen besser zu verstehen, hilft ein Blick auf die Grundlagen des maschinellen Lernens, da alle modernen KI-Systeme auf Methoden des maschinellen Lernens basieren. Dort unterscheidet man verschiedene Formen von Bias, die durch mehrere Entscheidungen hervorgehen: Durch die Art der zur Verfügung stehenden Modelle, durch die Wahl einer Trainingsmethode und durch die Auswahl der Daten, die zum Training verwendet werden.
Nach der Machine-Learning-Theorie ist eine gewisse Form von Bias notwendig. Nur so kann ein Modell „verallgemeinern“ – also Vorhersagen für Fälle machen, die nicht genau in den Trainingsdaten vorkommen. Ohne Bias würde das Modell die Trainingsdaten einfach auswendig lernen und wäre nicht in der Lage, etwas Neues vorherzusagen.
Abb. 1
(Bild: Michael Berthold)
Dahinter steckt eine komplexe Theorie, aber das Grundprinzip lässt sich leicht erklären. Nehmen wir ein einfaches Beispiel: Anhand einiger Eingabewerte wollen wir Ausgabewerte vorhersagen.
Abb. 2
(Bild: Michael Berthold)
Abbildung 1 zeigt einige Trainingspunkte: Auf der horizontalen Achse sind die Eingaben, auf der vertikalen Achse sind die Ausgaben dargestellt. Ziel ist es, ein Modell zu trainieren, das uns auch Vorhersagen für Werte treffen kann, die zwischen den Datenpunkten oder außerhalb des Trainingsbereichs liegen. Das ist ein klassisches Regressionsproblem. Unser natürlicher Instinkt ist es, eine gerade Linie zu zeichnen und diese als „Modell“ zu verwenden, wie in Abbildung 2. Auf den ersten Blick scheint das die einzige und beste Lösung zu sein.
Aber dadurch haben wir bereits Bias eingeführt: Wir haben die Art der Modelle, die wir verwenden, eingeschränkt (nämlich nur gerade Linien).
Abb. 3
(Bild: Michael Berthold)
Abbildung 3 zeigt zwei Modelle aus einer anderen Modellfamilie: Diese passen die Trainingsdaten zwar besser an, liefern aber gleichzeitig sehr unterschiedliche Vorhersagen für Punkte, die nicht exakt zu unseren Trainingsdaten gehören. Das zeigt deutlich: Die Wahl des Modells hat großen Einfluss darauf, wie gut und auf welche Weise generalisiert wird. Diesen Effekt nennt man „Modell-Bias“.
Abb. 4
(Bild: Michael Berthold)
Abbildung 4 zeigt, dass auch die Art, wie ein Modell trainiert wird, weiteren Bias erzeugt, den sogenannten „Algorithmischen Bias“.
Selbst bei einer einfachen Geraden gibt es viele Möglichkeiten, diese an die Daten anzupassen. Man kann die Linie durch die Mitte der Datenpunkte legen (wie in Abbildung 2), sie am ersten und letzten Datenpunkt ausrichten (die rosa Linie in Abbildung 4) oder sie am mittleren Datenpunkt fixieren und den Winkel so wählen, dass sie möglichst gut zu den übrigen Punkten passt (die gestrichelte Linie in Abbildung 4). Und es gibt noch viele weitere – mehr oder weniger intuitive – Möglichkeiten, eine Linie an Datenpunkten anzupassen. Auch diese Entscheidungen führen zu unterschiedlichen Generalisierungen auf neuen Eingabewerten.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Abb. 5
(Bild: Michael Berthold)
Schließlich gibt es noch Daten-Bias: Werden bestimmte Datenpunkte ignoriert – beispielsweise die gelben Punkte in Abbildung 5 – oder fehlen sie vollständig – verändert sich das Ergebnis erheblich. In der Praxis ist es nicht trivial, sicherzustellen, dass die Trainingsdaten die Realität, die modelliert werden soll, tatsächlich korrekt abbilden.
Die Extreme sind offensichtlich:
Keine Daten führen zu rein zufälligem Verhalten.
Vollständige Daten mit allen denkbaren Varianten (fünfbeinige Elefanten, violette Elefanten usw.) liefern ebenfalls keine verwertbare Information.
Maschinelles Lernen geht davon aus, dass Daten die relevante Realität ausreichend repräsentieren. Daten-Bias bedeutet, dass diese Annahme nicht erfüllt ist.
Warum Bias notwendig ist
Ohne Bias kann ein Modell nicht sinnvoll generalisieren, es kann nur Rauschen produzieren. Bias ist also eine grundlegende Voraussetzung für Lernen – auch für KI-Systeme im Unternehmen.
In der öffentlichen Diskussion wird Bias in KI oft auf Daten-Bias reduziert. Trainingsdaten spiegeln historische Muster wider: Pflegekräfte waren überwiegend weiblich, Ärzte männlich. KI-Systeme übernehmen solche Muster automatisch. Sie können dabei nicht zwischen akzeptablen und problematischen Bias unterscheiden.
Modell- und Algorithmus-Bias werden seltener thematisiert, sind aber ebenso relevant. Große KI-Modelle haben Milliarden von Parametern und dadurch vergleichsweise wenig Modell-Bias, während ihre Trainingsalgorithmen meist numerische Ziele statt semantischer Ziele verfolgen.
Das führt zu großer Freiheit bei den Generalisierungsoptionen (wie oben dargestellt) und erklärt die teilweise bizarren „KI-Halluzinationen“, bei denen es so wirkt, als habe die KI einfach gewürfelt. Letztlich ist das Ergebnis aber das Resultat eines Modells, das in einem ansonsten ungenau definierten Bereich eine ziemlich zufällige Anpassung vorgenommen hat.
Können wir unerwünschten Daten-Bias beheben?
Auf den ersten Blick scheint das einfach. Historische oder naturwissenschaftliche Fakten, wie die vier Beine von Elefanten, sollten unverändert bleiben. Problematisch sind ungewollte Bias, die relevant für die Gegenwart sind, etwa stereotype Rollenbilder bei Berufen.
Doch die Korrektur ist kompliziert. Soll eine KI etwa nicht davon ausgehen, dass bestimmte Merkmale historischen oder naturwissenschaftlichen Fakten zuzuordnen sind? Oder die Annahme aufgeben, dass Elefanten grau sind, obwohl es Albinos gibt?
Viele Bias sind nützlich, um realitätsferne oder schlicht absurde Ergebnisse zu vermeiden – eine Elefantenherde, die genau zur Hälfte aus Albinos besteht, ergibt schlicht keinen Sinn.
Selbst wenn es gelänge, alle unerwünschten Bias zu identifizieren, lassen sie sich nicht immer leicht beheben. Manche Gender-Bias lassen sich durch gezielt erzeugte Trainingsdaten abmildern. Andere sind deutlich komplexer.
Ein gutes Beispiel ist der übermäßige Optimismus vieler KI-Systeme. Das liegt in der Natur von Publikationen. So werden zum Beispiel in der Wissenschaft fast ausschließlich erfolgreiche Experimente publiziert, kaum gescheiterte – obwohl Forscher den Großteil ihrer Zeit genau damit verbringen. Negative Ergebnisse bringen jedoch weder Reputation noch Fördergelder.
Selbst wenn sich dieses System ändern würde, bliebe der heutige, stark verzerrte Publikationsbestand bestehen. Eine KI, die darauf trainiert wird, lernt zwangsläufig: Experimente sind fast immer erfolgreich.
Wie geht es weiter?
Kurz gesagt: KI braucht Bias, um lernen zu können. Ein Großteil dieser Bias beschreibt die Funktionsweise unserer Welt und ermöglicht realistische Generalisierungen. Andere Bias sind unerwünscht und müssen adressiert werden – doch sie zu erkennen ist oft schwierig, und sie auszugleichen meist noch schwieriger.
Menschen können Bias durch Erfahrung, Austausch und Verknüpfung verschiedener Informationsquellen korrigieren. KI-Systeme stehen hier noch am Anfang: Sie können ihre eingebauten Verzerrungen nicht selbstständig korrigieren.
Bis wir lernen, wie das möglich sein könnte – falls es überhaupt möglich ist – bleibt uns nichts anderes, als KI-Antworten weiter kritisch zu hinterfragen. Für Unternehmen bedeutet das: Trainingsdaten und Modelle regelmäßig zu prüfen, Verzerrungen dokumentieren und – soweit möglich – reparieren. Und natürlich, wie ja auch in vielen anderen Bereichen, KI-Ergebnisse stets im Kontext menschlicher Erfahrung bewerten und sorgfältig auf Bias überprüfen. Genau wie man einem KI-generierten Inhalt nie blind vertrauen sollte, darf man ebenfalls nie annehmen, dass nicht doch indirekt – oder ziemlich offensichtlich – Bias eine Rolle gespielt hat.