Kommentar von Prof. Dr. Marco Huber, Fraunhofer IPA Vertrauensbildende Maßnahme – Audit eines Machine-Learning-Systems

Von Prof. Dr. Marco Huber

Anbieter zum Thema

Der Weg von der Entwicklung neuer Technologien zu ihrer Umsetzung ist oft verschlungen und lang. Die Methoden der Künstlichen Intelligenz (KI) sind dafür ein gutes Beispiel. Wesentliche Verfahren der KI sind bereits seit den 80er-Jahren des vergangenen Jahrhunderts bekannt. Erst jetzt aber werden sie in größerem Ausmaß eingesetzt, weil es zuvor besonders an der benötigten Rechenkraft mangelte, aber auch an den erforderlichen Datenmengen, um z. B. Machine Learning (ML) sinnvoll einsetzen zu können. Mit dem umfangreicheren Einsatz der neuen Technologien ergeben sich auch neue Fragestellungen für die Anwender und die Gesellschaft im Allgemeinen. Der Einsatz von ML wird vor allem diskutiert, weil diese Systeme wie eine „Black Box“ erscheinen können.

Der Autor: Prof. Dr. Marco Huber ist ordentlicher Professor an der Universität Stuttgart und Leiter der Abteilung Cyber Cognitive Intelligence (CCI), Fraunhofer IPA.
Der Autor: Prof. Dr. Marco Huber ist ordentlicher Professor an der Universität Stuttgart und Leiter der Abteilung Cyber Cognitive Intelligence (CCI), Fraunhofer IPA.
(Bild: Uli Regenscheit Fotografie)

Machine-Learning-Systeme lernen weit gehend eigenständig anhand von Daten, und bei vielen Algorithmen sind die Wirkungszusammenhänge in den resultierenden Modellen nicht offensichtlich. Das mag in manchen Kontexten akzeptabel sein. Jedoch gibt es auch Einsatzbereiche, wie die Online-Betrugsprävention oder Online-Kreditentscheidung, in denen derart intransparente Abläufe nicht zu tolerieren sind.

ML überprüfen

Nicht zuletzt die Europäische Kommission hat den Handlungsbedarf entdeckt. Sie versucht, mit ihrem Entwurf für ein „Gesetz über Künstliche Intelligenz ” allgemeine Leitlinien für die Entwicklung von KI-Anwendungen zu schaffen. Diese Leitlinien sind allerdings sehr abstrakt und bieten keine praktischen Verfahren zur Überprüfung von KI-Systemen. Konkretere Ansätze gibt es vom TÜV Austria und dem Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS. Der TÜV Austria stellt zusammen mit dem Institute for Machine Learning der Johannes Kepler Universität Linz in dem White Paper “Trusted Artificial Intelligence: Towards Certification of Machine Learning Applications” erste Ansätze zur Zertifizierung von ML-Systemen vor.

Ein wesentlicher Bestandteil des Papiers ist ein Katalog zur Auditierung eines ML-Systems, der bestehende Kriterien aus der Softwareentwicklung einfließen lässt, sich allerdings auf bestimmte Problembereiche wie überwachte Lernverfahren beschränkt. Ausführlicher ist der „Leitfaden zur Gestaltung vertrauenswürdiger Künstlicher Intelligenz“ des Fraunhofer IAIS. Er beinhaltet u. a. Vorgaben für die strukturierte Identifikation KI-spezifischer Risiken in Hinblick auf die sechs Dimensionen der Vertrauenswürdigkeit: Fairness, Autonomie und Kontrolle, Transparenz, Verlässlichkeit, Sicherheit und Datenschutz.

ML und gesellschaftliche Verantwortung

Auch die Abteilung Cyber Cognitive Intelligence (CCI) des Fraunhofer-Instituts für Produktionstechnik und Automatisierung IPA widmet sich der Frage, wie man ML-Systeme standardisiert überprüfen und ihnen Nachvollziehbarkeit und Fairness zertifizieren kann. Darum kam es dem CCI gelegen, dass der Informationsdienstleister Experian Kontakt aufnahm, um die ML-Komponente „Transaction Miner“ seiner neuen Betrugspräventionslösung AI:drian überprüfen zu lassen. Der Transaction Miner hilft, ein großes Problem der Online-Betrugsbekämpfung zu adressieren, die „False Positives“.

Traditionelle Betrugspräventionslösungen sind so programmiert, dass sie eher zu viele Transaktionen als Betrug klassifizieren als zu wenig. Das heißt, sie ordnen viele valide Transaktionen fälschlicherweise als Betrug ein. Diese „False Positives“ sind wirtschaftlich nachteilig, weil sie zu vermehrten manuellen Kontrollen und Umsatzverlusten führen. Laut Payment-Beratung CMSPI lagen 2020 die Umsatzverluste durch gezielten Kartenbetrug in Europa bei etwa zwei Milliarden Euro, die Verluste durch False Positives hingegen bei rund 23 Milliarden Euro. Durch den Einsatz des Transaction Miners lässt sich die False-Positive-Rate drastisch reduzieren. Um seiner gesellschaftlichen Verantwortung gerecht zu werden, wandte Experian sich an das CCI, um den Transaction Miner unabhängig überprüfen zu lassen.

Praxisnahe Kontrolle

Auf Basis der Vorarbeiten des TÜV Austria und des Fraunhofer IAIS hat das CCI sich im Audit des Transaction Miners auf vier Komponenten konzentriert, die der eigentlichen Modellentwicklung zugrunde liegen:

  • 1. Feature Engineering: Bei der Überprüfung des Feature Engineering sah das CCI weder eine Gefahr von Target Leaks noch hat es die angewendeten Feature-Transformationen als intransparent bewertet. Target Leaks gehören zu den gängigsten Fehlern im Feature Engineering und treten auf, wenn Informationen der Zielvariable bereits direkt in den Features vorhanden sind (beispielsweise, wenn die Lebensdauer einer Batterie in Jahren berechnet werden soll, die Features allerdings schon die Lebensdauer in Wochen enthalten).
  • 2. Modellauswahl und Training: Damit das System die jeweils neuesten Betrugsmuster zuverlässig erkennen kann, stehen beim Transaction Miner regelmäßig die Auswahl, das Training und die Kalibrierung eines aktualisierten Modells an. Für Training und Modellauswahl sollten möglichst bekannte Frameworks verwendet werden und die Optimierung anhand sinnvoller Metriken durchgeführt werden. Der Einsatz aktueller, bekannter Frameworks sorgt für die notwendige Transparenz und Nachvollziehbarkeit in diesem Schritt. Das CCI konnte feststellen, dass es sich bei allen eingesetzten Methoden um etablierte Verfahren und Frameworks handelt, abgesehen von einer eigens von Experian entwickelten Teilkomponente. Weil Experian eine entsprechende Dokumentation und Begründung für die Wahl der Methode lieferte, konnte das CCI auch Modellauswahl und Training als unkritisch einstufen.
  • 3. Modellevaluation: Das CCI hat auch die abschließende Evaluation des fertigen Modells auf dem Testdatenset beurteilt. Im Falle des Transaction Miners wird am Ende eines vollständigen Trainingszyklus die „Konfusionsmatrix“ für das jeweilige Klassifikationsproblem erstellt. Aus dieser Matrix lässt sich beispielsweise die False-Positive-Rate ablesen. Zudem wird ein Kalibrierungsreport in Form eines Plots erzeugt. Dieser Report ist wichtig, weil er Fairness in Form von Fehlerraten bzgl. sensibler Gruppen berücksichtigt. In einem ersten Schritt werden mittels einer Evaluation entlang unterschiedlicher Gruppen etwaige Benachteiligungen ausgeschlossen bzw. identifiziert. Je nach Ergebnis können dann weitere Schritte eingeleitet werden. Zudem informiert der Report über den Einfluss der einzelnen Features auf die Resultate nach dem Training. Das sorgt für höhere Transparenz bzw. Nachvollziehbarkeit von Entscheidungen.
  • 4. Menschliche Kontrolle: ML und verwandte Verfahren werden nicht zuletzt deshalb kritisch beäugt, weil die Vorstellung besteht, technische Systeme würden sich – weit gehend menschlicher Kontrolle entzogen – in permanenten Selbstoptimierungsschleifen weiterentwickeln. Bei der Modellentwicklung und Modellevaluation sind im Falle des Transaction Miner allerdings menschliche Experten und Risikoprüfer beteiligt, die das Modell auf die Plausibilität der Ergebnisse überprüfen. Darum konnte das CCI auch bezüglich dieses Aspekts grünes Licht geben.

Vertrauen in die Ergebnisse

Das CCI ist zu dem Schluss gekommen, dass der Transaction Miner zuverlässige und für Experten nachvollziehbare Vorhersagen trifft, die zu verbesserten Entscheidungen führen. Das Audit hat darüber hinaus die Grundlage für die Entwicklung entsprechender standardisierter Prüfverfahren geschaffen. Arbeiten wie diese sind Teil des Forschungsschwerpunkts „Zuverlässige KI“ der IPA-Abteilung, in dessen Kontext die Forscher Unternehmen rund um KI-Entwicklungen beraten und unterstützen sowie KI-Anwendungen umsetzen.

Martin Baumann, Director Analytics bei Experian DACH, sieht weitere Vorteile und blickt in die Zukunft: „Das Audit hat unser Standardvorgehen erfreulicherweise durchweg bestätigt und uns auch, gerade mit Blick auf kommende Regularien, ein paar weitere wertvolle Handlungsempfehlungen gegeben. Wir gehen zudem davon aus, dass eine standardisierte Überprüfung von KI-Systemen in der Zukunft für mehr Sicherheit und vor allem Akzeptanz und Vertrauen beim Einsatz dieser neuen Technologien sorgen wird.“

(ID:48476845)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung