Machine Learning (ML) wird schon lange als wichtiger Trend gehandelt und dank einfach zugänglicher Tools bekommen dieses Jahr endlich mehr Unternehmen die Chance, Kapital aus ML zu schlagen. Dadurch können sie einerseits selbst größte Datenmengen nutzen und andererseits zu tiefergehenden Erkenntnissen gelangen, die fürs bloße Auge unsichtbar bleiben würden. Doch wie immer gibt es einen entscheidenden Haken, den Unternehmen unbedingt beachten sollten.
Der Autor: Kent Graziano ist Chief Technical Evangelist bei Snowflake
(Jack Goras)
Einer Umfrage von IDG zufolge setzen bereits zwei Drittel der Unternehmen in Deutschland auf Lösungen wie Machine Learning. Tatsächlich handelt es sich hierbei um keine Raketenwissenschaft – ganz im Gegenteil. Stattdessen verbirgt sich dahinter ein algorithmischer Ansatz, der dieselben Regeln wie in der bisher angewandten, manuellen Analyse befolgt. Der einzige Unterschied ist, dass auf diese moderne Weise Daten sehr viel schneller ausgewertet werden können – und das wiederum kann ungeahnte Erkenntnisse zu Tage fördern.
Damit dies funktioniert und genaue Erkenntnisse liefert, müssen die verwendeten ML-Modelle trainiert werden. Dabei spielt der Datensatz, der zum Trainieren des Modells verwendet wird, eine entscheidende Rolle. Nehmen wir zum Beispiel an, ein Algorithmus wird mit einem Datensatz gefüttert, der nur Bilder von Katzen enthält. Das bedeutet, alles, was das Modell hierdurch lernt, hat am Ende mit den pelzigen Vierbeinern zu tun. Die einzige Frage, die man ihm also stellen kann, lautet: „Ist das eine Katze oder ist das keine Katze?“
In der Welt der Daten wird dieses Phänomen als Verzerrung bezeichnet – und es kann fatale Folgen haben. ML-Modelle müssen sich auf große Mengen unterschiedlicher und vielfältiger Datensätze stützen, um ein genaues Bild der Realität zu erhalten. Wenn wir die Daten einschränken, werden wir die Ergebnisse nur verzerren. Angesichts dessen ist es nicht verwunderlich, dass letztendlich auch die Ergebnisse diese gewisse Verzerrung beinhalten. Im genannten Beispiel sticht die Problematik der überproportional verwendeten Katzenbilder schnell ins Auge. Doch wie sieht es hiermit aus, wenn es um vielfältigere Datensätze geht, mit deren Hilfe sehr viel komplexere Fragestellungen gelöst werden sollen?
Wenn ein Algorithmus zu Ungerechtigkeit führt
Ein praktisches Beispiel für die Fehleinschätzungen, die aus verzerrten Datensätzen resultieren können, liefert der Handelsriese Amazon. Das Unternehmen führte eine automatische Kandidatenbewertung ein, um dafür zu sorgen, dass Bewerbungen schneller bearbeitet werden. In der Theorie eine gute Idee, doch in der Praxis stellte sich innerhalb kürzester Zeit heraus, dass Frauen systematisch benachteiligt und nicht für höhere Positionen vorgeschlagen wurden. Grund dafür war der verwendete Datensatz, aus dem hervorging, dass diese Stellen zuvor überwiegend von Männern besetzt worden waren. Die historischen Informationen, die hier zu ungleichen Chancen zwischen weiblichen und männlichen Mitarbeitenden führte, kann sich natürlich auch in anderer Hinsicht äußern. Zum Beispiel können auf diese Weise auch Menschen mit Migrationshintergrund aus dem Pool an Bewerbungen aussortiert werden, obwohl sie fachlich perfekt für die ausgeschriebene Stelle geeignet wären.
Doch nicht nur die Verzerrungen, die in historischen Datensätzen verborgen liegen, stellen eine große Herausforderung für ihre ethische Verwendung dar. Auch der verwendete Algorithmus selbst, der mit ihnen gefüttert wird, kann problematisch sein. Denn zu welchen Ergebnissen er konkret gelangt, hängt immer von der Denkweise der Person ab, die ihn geschrieben hat. Werden Verzerrungen wie diese nicht bemerkt, kann Machine Learning also dazu führen, dass antiquierte Voreingenommenheiten, die wir eigentlich weitestgehend hinter uns gelassen haben, auch in Zukunft fortgeführt oder sogar zusätzlich verstärkt werden. Und das, obwohl längst bewiesen ist, dass eine diverse Belegschaft positiv zum Erfolg eines jeden Unternehmens beiträgt. Einer McKinsey-Analyse zufolge steigert eine hohe Gender-Diversität die Wahrscheinlichkeit, überdurchschnittlich profitabel zu sein, um 25 Prozent. Bezogen auf die ethnische Vielfalt der Vorstandsmitglieder liegt der Wert sogar bei 36 Prozent.
Datenethik für erfolgsversprechende Ergebnisse
Nicht alles ist automatisierbar – noch nicht. Für Unternehmen, die schon jetzt von den Vorteilen, die ML bietet, profitieren wollen, besteht der erste Schritt darin, die Herausforderung der ethischen Datennutzung anzuerkennen und nach passenden Lösungen zu suchen. Denn der Begriff Ethik hat in der Welt der Daten nicht nur mit der Bevor- und Benachteiligung bestimmter Personengruppen zu tun, es geht hierbei auch um die Frage, woher die Informationen stammen, die zur Analyse herangezogen werden. Ein bekanntes Negativbeispiel in diesem Zusammenhang bildet Cambridge Analytica. Da die User weder über das Sammeln ihrer persönlichen Informationen noch über deren Weitergabe informiert wurden, ist man sich heute allgemein einig, dass es sich bei diesem Skandal um eine unethische Nutzung von Daten handelte.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Datenethik hat viele Facetten. Und aus diesem Grund ist es wichtig, dass Unternehmen zunächst für sich definieren, was genau sie unter diesem Begriff verstehen. Denn nur, wenn dies konkret festgesetzt wurde, kann auch dafür gesorgt werden, dass diese Wertvorstellung offen kommuniziert und durchgesetzt wird – und zwar intern genauso wie extern mit Kunden und Geschäftspartnern. Ist diese Hürde gemeistert, spielt die Kontrolle der verwendeten Datensätze und Algorithmen eine mindestens ebenso zentrale Rolle. An dieser Stelle gibt es eine ganze Reihe an Fragen, die es sich zu stellen gilt: Woher beziehe ich meine Daten? Wie aktuell, vielfältig und vollständig sind sie? Und sind sie für das Problem, das ich mithilfe mit Machine Learning lösen möchte, überhaupt angemessen?
Um diese Faktoren ständig im Blick behalten zu können, ist es sinnvoll, einerseits die Personen unter die Lupe zu nehmen, die die Datensätze erstellen und täglich mit ihnen arbeiten. Ist das Team hier wirklich divers genug oder könnte es durch ihre Einschätzungen – wenn auch unbewusst – zu Verzerrungen kommen? Außerdem lohnt es sich, eine Art Data-Governance-Rat einzuberufen. Hierbei sollte es sich um eine Gruppe von Personen handeln, die die verwendeten Datensätze und Algorithmen, ebenso wie den erzielten Output überprüft, um etwaige Unregelmäßigkeiten erkennen und eliminieren zu können. Ihre Aufgabe besteht darin, für Ausgewogenheit zu sorgen und die Privatsphäre der personenbezogenen Daten zu schützen. Nur mithilfe dieser Vorsichtsmaßnahmen lässt sich letztendlich dafür sorgen, dass Machine Learning sein volles Potenzial entfalten kann – und zwar in einem ethischen Rahmen.