Suchen

Kommentar von Sebastian Weyer, Statice So gelingt eine DSGVO-konforme Data Analytics

| Autor / Redakteur: Sebastian Weyer / Nico Litzel

Die Datenschutzgrundverordnung stellt viele Unternehmen vor die Herausforderung, den Spagat zwischen Datenschutz und der Notwendigkeit, Daten-getriebene Innovationen auf den Weg zu bringen, zu meistern. Wie vertragen sich Datenschutz und Datennutzung in einem auf Fortschritt bedachten Unternehmen?

Der Autor: Sebastian Weyer ist CEO und Co-Founder von Statice
Der Autor: Sebastian Weyer ist CEO und Co-Founder von Statice
(Bild: Statice)

Seitdem die DSGVO, die Datenschutzgrundverordnung, im Jahr 2018 in Kraft getreten ist, müssen Unternehmen verstärkt auf die Sicherheit der Daten von Verbrauchern achten. Das stellt jedoch Firmen aller Branchen gerade bei der Analyse und Nutzung eben jener Daten vor erhebliche Probleme, gerade auch im Hinblick auf die Verwendung von Machine Learning.

Mit anderen Worten: Data Protection und Data Analytics lassen sich seit vergangenem Jahr noch schwerer in Einklang miteinander bringen. Doch es gibt einen kleinen Hebel, an dem Unternehmen bei Big-Data-Prozessen ansetzen können: Die Anonymisierung der Daten mit anschließender Nutzung – denn die Verwendung anonymisierter Daten ist von der DSGVO explizit ausgenommen.

Maßgeblich ist in diesem Kontext der Erwägungsgrund 26 der DSGVO, in dem es heißt, dass anonymisierte Daten so modifiziert sein müssen, dass die „betroffene Person nicht oder nicht mehr identifizierbar ist.“ Weiterhin heißt es: „Diese Verordnung betrifft somit nicht die Verarbeitung solcher anonymer Daten, auch für statistische oder für Forschungszwecke.“ Somit könnten Unternehmen mit anderen Partnern anonymisierte Daten frei austauschen.

Anonymisierung ist mangelhaft und mit zahlreichen Risiken verbunden

Doch darin liegt die Krux. Datenanonymisierung ist schwierig. Einerseits ist sie mit einem gewissen Maß an Datenverlust verbunden. Die Auswertung und Nutzung von Informationen ist also nicht in solch hohem Maße möglich wie bei einem originären Datensatz. Zum anderen ist die Anonymisierung nicht in jedem Fall ein Garant für vollständigen Datenschutz. So zeigt eine aktuelle Untersuchung des Imperial College London und der belgischen Université Catholique de Louvain, dass in Eigenregie anonymisierte Daten keineswegs vor Cyber-Attacken sicher sind. Abhängig vom Szenario reichen laut den Forschern wenige personenbezogene Attribute aus, um trotz vorangegangener Anonymisierung eine erneute Identifizierung durchzuführen.

Fraglich ist daher, wie eine adäquate Anonymisierung in DSGVO-Konformität stattfinden kann. Hier sind verschiedene Ansätze mit unterschiedlichem Herausforderungsgrad vorhanden:

  • Pseudonymisierung
  • K-Anonymisierung
  • Nutzung synthetischer Daten

Während bei der Pseudonymisierung hohe Re-Identifikationsrisiken immanent sind, geht die K-Anonymisierung aufgrund ihrer starken Werte-Aggregation zu rigoros vor.

Was passieren kann, wenn Anonymisierung nicht wie geplant funktioniert, zeigt ein Beispiel aus der Praxis. Ein bekanntes Videostreaming-Portal hatte einen großen Pool mit anonymisierten Kundendaten veröffentlicht, damit ein jeder sie zur Analyse verwenden konnte.

Doch es gab einen Nutzer, der den betreffenden Datenpool mit einem anderen existierenden in Verbindung brachte, der ebenfalls Filme targetierte. Dadurch konnte der User etliche Einträge de-anonymisieren und Rückschlüsse auf die dahinterstehende Person ableiten. Die Nutzung synthetischer Daten mit KI bzw. maschinellem Lernen als Mittelweg enthält hingegen keine Originaleinträge mehr.

Ausgangsbasis des maschinellen Lernens ist ein Algorithmus, der statistische Verteilungen und Korrelationen im originalen Datensatz analysiert und auf diesen trainiert wird. Daraus wird anschließend ein komplett neuer Datenpool generiert, der synthetische Datenpunkte enthält. Dies ist vergleichbar mit Deep Fakes, also komplett synthetisch erzeugten Gesichtern, die auf realen Gesichtern basieren und täuschend echt aussehen.

Synthetische Daten mehrfach vorteilhaft

Der große Vorteil synthetischer Daten liegt darin, dass sie keine Eins-zu-Eins-Korrespondenz mit dem ursprünglichen Datensatz mehr aufweisen und daher die Komponenten Anonymisierung, Detailtreue und Privatsphäre miteinander in Einklang bringen.

Mit ihnen kann also optimal gearbeitet werden, ohne dass dabei die Sicherheit und Privatsphäre der Verbraucher beeinträchtigt wird. Rückschlüsse auf die dahinterstehende Person sind nicht mehr möglich, obwohl die Datensätze hoch granular sind.

So ist es Unternehmen nun möglich, auch komplexe statistische Auswertungen, wie zum Beispiel Analysen von Kundenverhalten, auf komplett anonymen synthetischen Daten durchzuführen. Für viele Unternehmen ist dies ein wichtiger Schritt ihrer Digitalisierung, in deren Rahmen Data Analytics eine große Rolle spielt, aber bisher als kompliziert und datenschutzrechtlich bedenklich gesehen wurde.

Fazit: Balance zwischen Dateninnovation und Datenschutz

Daten-Synthetisierung sorgt nicht nur für einen angemessenen Schutz sensibler Daten. Dank innovativer Machine-Learning-Technologien ist der Ansatz mittlerweile auch aus wirtschaftlicher Sicht vielversprechend. Er ermöglicht es, wertvolle Erkenntnisse aus Daten zu generieren, neue Produkte und Geschäftsmodelle zu entwickeln sowie Algorithmen zu trainieren. In Summe kann der Ansatz somit als Lösung eines der drängendsten Unternehmensprobleme des digitalen Zeitalters bezeichnet werden: die Realisierung von Dateninnovationen im Einklang mit den Persönlichkeitsrechten des Menschen.

Artikelfiles und Artikellinks

(ID:46164958)