Kommentar von Kent Graziano, Snowflake Machine Learning – warum der Einsatz 2022 zu einer ethischen Frage wird

Von Kent Graziano

Machine Learning (ML) wird schon lange als wichtiger Trend gehandelt und dank einfach zugänglicher Tools bekommen dieses Jahr endlich mehr Unternehmen die Chance, Kapital aus ML zu schlagen. Dadurch können sie einerseits selbst größte Datenmengen nutzen und andererseits zu tiefergehenden Erkenntnissen gelangen, die fürs bloße Auge unsichtbar bleiben würden. Doch wie immer gibt es einen entscheidenden Haken, den Unternehmen unbedingt beachten sollten.

Anbieter zum Thema

Der Autor: Kent Graziano ist Chief Technical Evangelist bei Snowflake
Der Autor: Kent Graziano ist Chief Technical Evangelist bei Snowflake
(Jack Goras)

Einer Umfrage von IDG zufolge setzen bereits zwei Drittel der Unternehmen in Deutschland auf Lösungen wie Machine Learning. Tatsächlich handelt es sich hierbei um keine Raketenwissenschaft – ganz im Gegenteil. Stattdessen verbirgt sich dahinter ein algorithmischer Ansatz, der dieselben Regeln wie in der bisher angewandten, manuellen Analyse befolgt. Der einzige Unterschied ist, dass auf diese moderne Weise Daten sehr viel schneller ausgewertet werden können – und das wiederum kann ungeahnte Erkenntnisse zu Tage fördern.

Damit dies funktioniert und genaue Erkenntnisse liefert, müssen die verwendeten ML-Modelle trainiert werden. Dabei spielt der Datensatz, der zum Trainieren des Modells verwendet wird, eine entscheidende Rolle. Nehmen wir zum Beispiel an, ein Algorithmus wird mit einem Datensatz gefüttert, der nur Bilder von Katzen enthält. Das bedeutet, alles, was das Modell hierdurch lernt, hat am Ende mit den pelzigen Vierbeinern zu tun. Die einzige Frage, die man ihm also stellen kann, lautet: „Ist das eine Katze oder ist das keine Katze?“

In der Welt der Daten wird dieses Phänomen als Verzerrung bezeichnet – und es kann fatale Folgen haben. ML-Modelle müssen sich auf große Mengen unterschiedlicher und vielfältiger Datensätze stützen, um ein genaues Bild der Realität zu erhalten. Wenn wir die Daten einschränken, werden wir die Ergebnisse nur verzerren. Angesichts dessen ist es nicht verwunderlich, dass letztendlich auch die Ergebnisse diese gewisse Verzerrung beinhalten. Im genannten Beispiel sticht die Problematik der überproportional verwendeten Katzenbilder schnell ins Auge. Doch wie sieht es hiermit aus, wenn es um vielfältigere Datensätze geht, mit deren Hilfe sehr viel komplexere Fragestellungen gelöst werden sollen?

Wenn ein Algorithmus zu Ungerechtigkeit führt

Ein praktisches Beispiel für die Fehleinschätzungen, die aus verzerrten Datensätzen resultieren können, liefert der Handelsriese Amazon. Das Unternehmen führte eine automatische Kandidatenbewertung ein, um dafür zu sorgen, dass Bewerbungen schneller bearbeitet werden. In der Theorie eine gute Idee, doch in der Praxis stellte sich innerhalb kürzester Zeit heraus, dass Frauen systematisch benachteiligt und nicht für höhere Positionen vorgeschlagen wurden. Grund dafür war der verwendete Datensatz, aus dem hervorging, dass diese Stellen zuvor überwiegend von Männern besetzt worden waren. Die historischen Informationen, die hier zu ungleichen Chancen zwischen weiblichen und männlichen Mitarbeitenden führte, kann sich natürlich auch in anderer Hinsicht äußern. Zum Beispiel können auf diese Weise auch Menschen mit Migrationshintergrund aus dem Pool an Bewerbungen aussortiert werden, obwohl sie fachlich perfekt für die ausgeschriebene Stelle geeignet wären.

Doch nicht nur die Verzerrungen, die in historischen Datensätzen verborgen liegen, stellen eine große Herausforderung für ihre ethische Verwendung dar. Auch der verwendete Algorithmus selbst, der mit ihnen gefüttert wird, kann problematisch sein. Denn zu welchen Ergebnissen er konkret gelangt, hängt immer von der Denkweise der Person ab, die ihn geschrieben hat. Werden Verzerrungen wie diese nicht bemerkt, kann Machine Learning also dazu führen, dass antiquierte Voreingenommenheiten, die wir eigentlich weitestgehend hinter uns gelassen haben, auch in Zukunft fortgeführt oder sogar zusätzlich verstärkt werden. Und das, obwohl längst bewiesen ist, dass eine diverse Belegschaft positiv zum Erfolg eines jeden Unternehmens beiträgt. Einer McKinsey-Analyse zufolge steigert eine hohe Gender-Diversität die Wahrscheinlichkeit, überdurchschnittlich profitabel zu sein, um 25 Prozent. Bezogen auf die ethnische Vielfalt der Vorstandsmitglieder liegt der Wert sogar bei 36 Prozent.

Datenethik für erfolgsversprechende Ergebnisse

Nicht alles ist automatisierbar – noch nicht. Für Unternehmen, die schon jetzt von den Vorteilen, die ML bietet, profitieren wollen, besteht der erste Schritt darin, die Herausforderung der ethischen Datennutzung anzuerkennen und nach passenden Lösungen zu suchen. Denn der Begriff Ethik hat in der Welt der Daten nicht nur mit der Bevor- und Benachteiligung bestimmter Personengruppen zu tun, es geht hierbei auch um die Frage, woher die Informationen stammen, die zur Analyse herangezogen werden. Ein bekanntes Negativbeispiel in diesem Zusammenhang bildet Cambridge Analytica. Da die User weder über das Sammeln ihrer persönlichen Informationen noch über deren Weitergabe informiert wurden, ist man sich heute allgemein einig, dass es sich bei diesem Skandal um eine unethische Nutzung von Daten handelte.

Datenethik hat viele Facetten. Und aus diesem Grund ist es wichtig, dass Unternehmen zunächst für sich definieren, was genau sie unter diesem Begriff verstehen. Denn nur, wenn dies konkret festgesetzt wurde, kann auch dafür gesorgt werden, dass diese Wertvorstellung offen kommuniziert und durchgesetzt wird – und zwar intern genauso wie extern mit Kunden und Geschäftspartnern. Ist diese Hürde gemeistert, spielt die Kontrolle der verwendeten Datensätze und Algorithmen eine mindestens ebenso zentrale Rolle. An dieser Stelle gibt es eine ganze Reihe an Fragen, die es sich zu stellen gilt: Woher beziehe ich meine Daten? Wie aktuell, vielfältig und vollständig sind sie? Und sind sie für das Problem, das ich mithilfe mit Machine Learning lösen möchte, überhaupt angemessen?

Um diese Faktoren ständig im Blick behalten zu können, ist es sinnvoll, einerseits die Personen unter die Lupe zu nehmen, die die Datensätze erstellen und täglich mit ihnen arbeiten. Ist das Team hier wirklich divers genug oder könnte es durch ihre Einschätzungen – wenn auch unbewusst – zu Verzerrungen kommen? Außerdem lohnt es sich, eine Art Data-Governance-Rat einzuberufen. Hierbei sollte es sich um eine Gruppe von Personen handeln, die die verwendeten Datensätze und Algorithmen, ebenso wie den erzielten Output überprüft, um etwaige Unregelmäßigkeiten erkennen und eliminieren zu können. Ihre Aufgabe besteht darin, für Ausgewogenheit zu sorgen und die Privatsphäre der personenbezogenen Daten zu schützen. Nur mithilfe dieser Vorsichtsmaßnahmen lässt sich letztendlich dafür sorgen, dass Machine Learning sein volles Potenzial entfalten kann – und zwar in einem ethischen Rahmen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

(ID:47936706)