Kommentar von Sebastian Weyer, Statice

So gelingt eine DSGVO-konforme Data Analytics

| Autor / Redakteur: Sebastian Weyer / Nico Litzel

Der Autor: Sebastian Weyer ist CEO und Co-Founder von Statice
Der Autor: Sebastian Weyer ist CEO und Co-Founder von Statice (Bild: Statice)

Die Datenschutzgrundverordnung stellt viele Unternehmen vor die Herausforderung, den Spagat zwischen Datenschutz und der Notwendigkeit, Daten-getriebene Innovationen auf den Weg zu bringen, zu meistern. Wie vertragen sich Datenschutz und Datennutzung in einem auf Fortschritt bedachten Unternehmen?

Seitdem die DSGVO, die Datenschutzgrundverordnung, im Jahr 2018 in Kraft getreten ist, müssen Unternehmen verstärkt auf die Sicherheit der Daten von Verbrauchern achten. Das stellt jedoch Firmen aller Branchen gerade bei der Analyse und Nutzung eben jener Daten vor erhebliche Probleme, gerade auch im Hinblick auf die Verwendung von Machine Learning.

Mit anderen Worten: Data Protection und Data Analytics lassen sich seit vergangenem Jahr noch schwerer in Einklang miteinander bringen. Doch es gibt einen kleinen Hebel, an dem Unternehmen bei Big-Data-Prozessen ansetzen können: Die Anonymisierung der Daten mit anschließender Nutzung – denn die Verwendung anonymisierter Daten ist von der DSGVO explizit ausgenommen.

EU-DSGVO – so schafft Ihr Unternehmen einen reibungslosen Übergang

Kommentar von Marc Hirtz, Pitney Bowes Deutschland

EU-DSGVO – so schafft Ihr Unternehmen einen reibungslosen Übergang

05.07.17 - In rund einem Jahr wird die neue Datenschutz-Grundverordnung (DSGVO) oder General Data Protection Regulation (GDPR) der EU in Kraft treten. Für Unternehmen steht jetzt eine Bestandsaufnahme ihrer gespeicherten Daten an, denn: Auch wenn sie die bestehenden EU-Datenschutz-Richtlinien des Bundesdatenschutzgesetzes (BDSG) einhalten, muss das nach der neuen Verordnung nicht mehr der Fall sein – und dann drohen massive Sanktionen. lesen

Maßgeblich ist in diesem Kontext der Erwägungsgrund 26 der DSGVO, in dem es heißt, dass anonymisierte Daten so modifiziert sein müssen, dass die „betroffene Person nicht oder nicht mehr identifizierbar ist.“ Weiterhin heißt es: „Diese Verordnung betrifft somit nicht die Verarbeitung solcher anonymer Daten, auch für statistische oder für Forschungszwecke.“ Somit könnten Unternehmen mit anderen Partnern anonymisierte Daten frei austauschen.

Anonymisierung ist mangelhaft und mit zahlreichen Risiken verbunden

Doch darin liegt die Krux. Datenanonymisierung ist schwierig. Einerseits ist sie mit einem gewissen Maß an Datenverlust verbunden. Die Auswertung und Nutzung von Informationen ist also nicht in solch hohem Maße möglich wie bei einem originären Datensatz. Zum anderen ist die Anonymisierung nicht in jedem Fall ein Garant für vollständigen Datenschutz. So zeigt eine aktuelle Untersuchung des Imperial College London und der belgischen Université Catholique de Louvain, dass in Eigenregie anonymisierte Daten keineswegs vor Cyber-Attacken sicher sind. Abhängig vom Szenario reichen laut den Forschern wenige personenbezogene Attribute aus, um trotz vorangegangener Anonymisierung eine erneute Identifizierung durchzuführen.

Fraglich ist daher, wie eine adäquate Anonymisierung in DSGVO-Konformität stattfinden kann. Hier sind verschiedene Ansätze mit unterschiedlichem Herausforderungsgrad vorhanden:

  • Pseudonymisierung
  • K-Anonymisierung
  • Nutzung synthetischer Daten

Während bei der Pseudonymisierung hohe Re-Identifikationsrisiken immanent sind, geht die K-Anonymisierung aufgrund ihrer starken Werte-Aggregation zu rigoros vor.

Was passieren kann, wenn Anonymisierung nicht wie geplant funktioniert, zeigt ein Beispiel aus der Praxis. Ein bekanntes Videostreaming-Portal hatte einen großen Pool mit anonymisierten Kundendaten veröffentlicht, damit ein jeder sie zur Analyse verwenden konnte.

Doch es gab einen Nutzer, der den betreffenden Datenpool mit einem anderen existierenden in Verbindung brachte, der ebenfalls Filme targetierte. Dadurch konnte der User etliche Einträge de-anonymisieren und Rückschlüsse auf die dahinterstehende Person ableiten. Die Nutzung synthetischer Daten mit KI bzw. maschinellem Lernen als Mittelweg enthält hingegen keine Originaleinträge mehr.

Ausgangsbasis des maschinellen Lernens ist ein Algorithmus, der statistische Verteilungen und Korrelationen im originalen Datensatz analysiert und auf diesen trainiert wird. Daraus wird anschließend ein komplett neuer Datenpool generiert, der synthetische Datenpunkte enthält. Dies ist vergleichbar mit Deep Fakes, also komplett synthetisch erzeugten Gesichtern, die auf realen Gesichtern basieren und täuschend echt aussehen.

Synthetische Daten mehrfach vorteilhaft

Der große Vorteil synthetischer Daten liegt darin, dass sie keine Eins-zu-Eins-Korrespondenz mit dem ursprünglichen Datensatz mehr aufweisen und daher die Komponenten Anonymisierung, Detailtreue und Privatsphäre miteinander in Einklang bringen.

Mit ihnen kann also optimal gearbeitet werden, ohne dass dabei die Sicherheit und Privatsphäre der Verbraucher beeinträchtigt wird. Rückschlüsse auf die dahinterstehende Person sind nicht mehr möglich, obwohl die Datensätze hoch granular sind.

So ist es Unternehmen nun möglich, auch komplexe statistische Auswertungen, wie zum Beispiel Analysen von Kundenverhalten, auf komplett anonymen synthetischen Daten durchzuführen. Für viele Unternehmen ist dies ein wichtiger Schritt ihrer Digitalisierung, in deren Rahmen Data Analytics eine große Rolle spielt, aber bisher als kompliziert und datenschutzrechtlich bedenklich gesehen wurde.

Fazit: Balance zwischen Dateninnovation und Datenschutz

Daten-Synthetisierung sorgt nicht nur für einen angemessenen Schutz sensibler Daten. Dank innovativer Machine-Learning-Technologien ist der Ansatz mittlerweile auch aus wirtschaftlicher Sicht vielversprechend. Er ermöglicht es, wertvolle Erkenntnisse aus Daten zu generieren, neue Produkte und Geschäftsmodelle zu entwickeln sowie Algorithmen zu trainieren. In Summe kann der Ansatz somit als Lösung eines der drängendsten Unternehmensprobleme des digitalen Zeitalters bezeichnet werden: die Realisierung von Dateninnovationen im Einklang mit den Persönlichkeitsrechten des Menschen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 46164958 / Recht & Sicherheit)