Big Data und Datenschutz, Teil 1 So klappt die Anonymisierung bei Big Data
Anbieter zum Thema
Eine der ersten Forderungen an Big Data Analytics, die Datenschützer nennen, ist die Anonymisierung der personenbezogenen Daten. Doch wie bekommt man anonyme Daten in Big-Data-Projekten?

Datenschutz und Datensicherheit sind die beiden größten Probleme in Unternehmen, die schon Big-Data-Initiativen in ihren Unternehmensprozessen implementiert haben, so ein zentrales Ergebnis der BARC-Studie „Big Data use cases 2015 – getting real on data monetization“. Wie die Studie ebenfalls zeigt, sind vor allem Auswertungen, die mehr über die Wünsche, Motive, Bedürfnisse sowie das Verhalten der Kunden verraten, eines der häufigsten strategischen Ziele solcher Initiativen und Projekte. Kundenanalysen bedeuten aber, dass die Kundendaten geschützt werden müssen. Das Gleiche gilt natürlich, wenn die Big-Data-Analysen die Daten von Beschäftigten betreffen. Nicht ohne Grund wird von einem „Spannungsfeld zwischen Arbeitnehmer-Datenschutz und Big Data“ gesprochen.
Es sind aber nicht nur die Datenschützer, die auf die erforderliche Anonymisierung bei Big Data verweisen. Auch die Betroffenen selbst machen Unterschiede bei personenbezogenen und anonymen Daten: Befragt nach konkreten Anwendungsgebieten für Big Data, so sind 65 Prozent der Befragten bereit, ihre Daten und die vieler anderer Menschen anonym von Gesundheitsinstitutionen sammeln zu lassen, um Verbesserungen bei der Entdeckung und Behandlung von Krankheiten zu erreichen. Mit der Sammlung, Speicherung und Analyse der Gesundheitsdaten in nicht anonymisierter Form sind im Durchschnitt noch 53 Prozent der befragten Europäer einverstanden, solange dies der eigenen Heilung oder der Heilung anderer dienlich ist. Dass Shops Daten sammeln, um personalisierte Angebote an den jeweiligen Kunden zu verschicken, wird in Deutschland nur von wenigen begrüßt (elf Prozent), so eine Studie des Vodafone Institutes.
Deshalb lautet eine der zentralen Empfehlungen für Big-Data-Projekte, bevorzugt anonymisierte oder pseudonymisierte Daten zu verarbeiten. So schreibt der Digitalverband Bitkom: „Soweit die Verarbeitung von anonymisierten oder pseudonymisierten Daten denselben Nutzen für die Beteiligten hat, sind solche Verfahren vorzuziehen“. Die Aufsichtsbehörden für den Datenschutz betonen ausdrücklich die Bedeutung der Anonymisierung bei der Nutzung von Big Data. „Gerade die Entwicklung von Anonymisierungs- und Pseudonymisierungsverfahren als Privacy-by-default-Lösungen stellen einen wichtigen Beitrag zur Wahrung des Datenschutzes dar“, so die Bundesbeauftragte für den Datenschutz und die Informationsfreiheit.
Anonymisierung ist kein Widerspruch zu Big Data
Ein wichtiges Beispiel für die Auswertung zahlreicher Nutzerdaten und damit für Big-Data-Analysen ist bekanntlich die Webanalyse. Der Datenschutz sieht klare Grenzen bei der Auswertung der Daten von Internetnutzern. So sagt das Telemediengesetz (TMG): „Der Diensteanbieter darf für Zwecke der Werbung, der Marktforschung oder zur bedarfsgerechten Gestaltung der Telemedien Nutzungsprofile bei Verwendung von Pseudonymen erstellen, sofern der Nutzer dem nicht widerspricht“. Webanalysen müssen deshalb mit anonymen oder pseudonymen Daten arbeiten, wenn keine Einwilligung der Nutzer vorliegt.
Das ist aber ohne Weiteres möglich: Als ein positives Beispiel verweist die Bundesdatenschutzbeauftragte auf das Forschungsprojekt „AN.ON-Next“ der Universität Regensburg. Bei diesem soll unter anderem versucht werden, Anonymisierungsverfahren über verschiedene technische Ansätze bereits auf Ebene der Internetzugangsprovider zu implementieren. Auch das Fraunhofer IAIS zeigt auf, dass „Privacy-preserving Data Mining“, also die Integration von Datenschutzgarantien direkt in die Big-Data-Analyse, möglich ist.
Anonymisierungslösungen sind bereits verfügbar
Man muss aber nicht auf die Ergebnisse spannender Forschungsprojekte warten, um die in der Regel notwendige Anonymisierung für Big-Data-Analysen durchführen zu können. Es gibt bereits Lösungen auf dem Markt, die konkrete Hilfe anbieten. Je nach Anwendungsgebiet passende Tools und Lösungen sind zum Beispiel Aircloak, DICOM Anonymizer&Masker, IRI FieldShield (Data Masking), Dynamic Data Masking und Persistent Data Masking von Informatica.
:quality(80)/p7i.vogel.de/wcms/fd/16/fd16d449bcd222fccba898841eb40e9e/49712045.jpeg)
Nachbericht zum Insider Talk „Data Scientists“
Data Scientists – große Chancen, hohe Anforderungen
Festzustellen bleibt, dass die genannten Lösungen bereits einige Zeit auf dem Markt sind und dass Unternehmen trotzdem Schwierigkeiten sehen, eine Anonymisierung in ihren Big-Data-Projekten zu implementieren. Deshalb sollte man auch die anderen Hemmnisse in Big-Data-Projekten betrachten, das fehlende technische und fachliche Know-how. Der Fachkräftemangel und damit der Mangel an Data Scientists führt ebenso dazu, dass die Anonymisierung in Big-Data-Analysen nicht recht vorankommt. Da sich der Mangel an Know-how so schnell nicht ändern wird, kommt es auf Tools an, die die Anonymisierung so einfach wie möglich machen. Unternehmen sollten deshalb prüfen, wie sie mit den verfügbaren Anonymisierungstools umgehen können, eine passende Lösung wählen und die Grundlage für datenschutzgerechte Big-Data-Analysen legen. Abwarten, bis es mehr Data Scientists gibt, ist dagegen keine Lösung.
(ID:44006477)