Suchen

Kommentar von Stefan Müller, IT-Novum Leben retten mit pseudonymisierten Daten

| Autor / Redakteur: Stefan Müller / Nico Litzel

Geoinformationssysteme ermöglichen immer bessere Sicherheits-Anwendungen. So lassen sich zum Beispiel Panik-Potenziale bei Menschenversammlungen frühzeitig erkennen. Dabei muss der Datenschutz beachtet werden. Das gelingt mit dynamischer Pseudonymisierung.

Firmen zum Thema

Der Autor: Stefan Müller ist Director Big Data Analytics bei IT-Novum
Der Autor: Stefan Müller ist Director Big Data Analytics bei IT-Novum
(Bild: IT-Novum)

Karten sind heute vor allem wegen GPS keine statischen Dinge mehr, sondern sie „leben“. Polizeiautos lassen sich ebenso orten wie Lieferfahrzeuge und Menschen. Sie können mittels GPS-Tracker oder ihrem Smartphone lokalisiert werden. Neben GPS werden immer mehr Datenlieferanten genutzt, um interaktive Karten mit hoher Aussagekraft zu erstellen. Videokameras speisen heute Bewegtbilder in Karten ein, um beispielsweise die Auslastung von Straßen oder Menschenansammlungen zu analysieren. Und durch die zunehmende Nutzung von IoT-Informationen werden weitere spannende Einsatzfelder entstehen.

Die gewonnen Daten werden mittels Datenintegration aus verschiedensten Quellen erfasst, bereinigt und in das Geoinformationssystem (GIS) eingespeist. So lassen sich im Anschluss Karten erstellen, mit denen vielfältigste Ansichten und Auswertungen möglich sind. Wichtig ist dabei das Zusammenspiel zwischen GIS und Datenintegrations-Plattform.

Herausforderung Datenschutz

Natürlich ist es praktisch, wenn Karten live optimiert werden können, z. B. in einer Routenplanung. Auch dass bei Menschenansammlungen eine mögliche Panik im Vorfeld aufgedeckt und so eventuell vermieden werden kann, ist ein großer Fortschritt. Aber bei vielen dieser Einsatzfelder existiert eine Herausforderung, die nicht unterschätzt werden darf – das Recht auf Privatsphäre und damit die Einhaltung der DSGVO.

Durch GPS-Tracker, das Erfassen und Auswerten von Mobilfunkdaten oder gar die Aufnahme von Gesichtern oder Fahrzeugen durch Videokameras entstehen gesetzliche Konflikte. Auf der einen Seite benötigt man diese Daten, um mittels Big Data und Analytics intelligente Karten, Anwendungen und Services zu schaffen. Auf der anderen Seite muss das wegen der DSGVO in den meisten Fällen anonym passieren. Und wenn Gefahr im Verzug ist oder bei einer Verbrechensaufklärung sollte es trotz Anonymisierung der Daten möglich sein, herauszufinden wer wann wo war.

Anonymisierung allein reicht nicht aus

Ursprünglich versuchte man, mit Datenanonymisierung den Anforderungen der DSGVO gerecht zu werden. Technisch gesehen ist das kein Problem, denn man kann einfach alle personenbezogenen Daten vom Datensatz trennen und löschen. Aber eine endgültige Löschung dieser Informationen kann kontraproduktiv sein. Angenommen, man würde für behördliche Ermittlungen irgendwann bei bestimmten Datensätzen Detailinformationen benötigen, wären diese Informationen nicht mehr vorhanden.

Gesucht ist daher eine Lösung, die einerseits alle Verbindungen zwischen Daten und der betroffenen Person trennt, die es aber andererseits erlaubt, in gewissen Situationen dennoch auf die Person zurückzuschließen. Dies gelingt, wenn man statt Anonymisierung auf Pseudonymisierung setzt.

Pseudonymisierung als erster Schritt

Pseudonymisierung bedeutet, dass man zwar personenbezogene Daten verarbeitet, diese jedoch nicht mehr ohne weiteres einer spezifischen Person zuordnen kann. Hierfür ersetzt die Pseudonymisierung Identifikationsmerkmale wie Namen durch andere Kennzeichen wie Schlüssel oder Pseudonyme (meist Token genannt). Die grundlegende Zuordnungsvorschrift bleibt nach der Pseudonymisierung in den pseudonymen Daten erhalten, sie ist aber ausgelagert. Die jeweiligen Schlüssel oder Pseudonyme und die zugehörigen Informationen, wie beispielsweise der Name, werden in einer externen Datei gespeichert. Auf diese Datei kann nur unter bestimmten Sicherheitsbedingungen und nur von einem kleinen autorisierten Personenkreis zugegriffen werden.

Allerdings ist in Zeiten von KI, Big Data und Machine Learning auch die Pseudonymisierung nicht mehr ausreichend. Wie kann das sein, wenn der Datensatz keine persönlichen Informationen mehr enthält und Merkmale wie der Name „Michael Maier“ durch so etwas Anonymes wie ABCDE ersetzt werden und die echten Daten in einer sicheren externen Datei ausgelagert sind?

Das kann verschiedene Gründe haben. Liegen ausreichend viele Datensätze aus unterschiedlichen Quellen vor, dann lassen sich mit Software und Rechenpower relativ leicht Querverbindungen herstellen. So ist es nach wie vor möglich, Datensätze einzelner Personen herauszugreifen, da die Person weiterhin anhand eines einzigartigen Merkmals identifiziert wird, das im Zuge der Pseudonymisierungsfunktion erzeugt wurde. Das statische Token ABCDE taucht ja in allen anonymisierten Datensätzen auf und selbst wenn es viele Menschen mit dem Namen „Michael Maier” innerhalb der Datenmenge geben sollte, so lässt sich doch relativ leicht auf eine einzige Person zurückschließen.

Solche Inferenzangriffe auf die reale Identität einer betroffenen Person sind innerhalb des Datensatzes oder über verschiedene Datenbanken hinweg möglich, die dasselbe pseudonymisierte Attribut für eine Person verwenden. Sie können auch passieren, wenn Pseudonyme selbsterklärend sind und die ursprüngliche Identität der betroffenen Person nicht richtig maskieren. Darüber hinaus werden oft sehr viele Daten erfasst, die nicht alle pseudonymisiert werden. Verbleiben genügend Quasi-Identifikatoren im Datensatz, kann es gelingen, am Ende auf die reale Person zurückzuschließen.

Erst dynamische Pseudonymisierung bringt wirklich Anonymität

Eine echte DSGVO-konforme Pseudonymisierung muss daher auf zwei Arten umgesetzt werden: Auf der einen Seite müssen statische Token durch dynamische Token ersetzt werden. „Michael Maier“ muss also an unterschiedlichen Stellen auch unterschiedlich kodiert werden, also bei jedem Auftreten des Namens ein anderer dynamischer Token anstelle des statischen Tokens ABCDE erhalten. Darüber hinaus müssen neben direkten Identifikatoren wie Name oder Adresse auch indirekte Identifikatoren explizit angesprochen und maskiert werden. Diese beiden Schritte sind notwendig, um das Risiko einer unbefugten Reidentifizierung durch Verknüpfungs- und Inferenzangriffe (allgemein bekannt als „Mosaik-Effekt“) zu verringern.

Der Vorgang der dynamischen Pseudonymisierung ist allerdings nicht trivial, vor allem nicht, wenn große Datenmengen nahezu in Echtzeit zusammengeführt, analysiert und pseudonymisiert werden sollen.

Durch die Kombination der Geointelligenzlösung ArcGIS Tracker mit der Datenintegrations- und Analyseplattform Pentaho lassen sich auch größte Datenmengen aus beliebigen Quellen aufrufen, aufbereiten und analysieren. Pentaho ist streamingfähig und liest die Daten von den unterschiedlichsten Datenbanken ein. Mithilfe von Anonos BigPrivacy wird im Anschluss eine dynamische Pseudonymisierung durchgeführt. Die Metadaten werden jetzt angepasst und die pseudonymisierten Daten wieder auf ArcGIS zurückgeschrieben, wo sie mit den entsprechenden Karteninformation verknüpft werden. Innerhalb der jeweiligen Anwendung auf ArcGIS sind dann alle personenbezogenen Daten verschwunden und man kann nicht mehr auf eine Person oder ein Objekt, wie ein bestimmtes Fahrzeug, zurückschließen.

Anwendungsbeispiel – Video Analytics & Smart Spaces

Sehr gut lässt sich der Nutzen von GIS und zusätzlich gewonnenen Daten, wie zum Beispiel Videodaten, am Beispiel Stauvermeidung auf Autobahnen verdeutlichen. Fragen rund um Staubildung und -vermeidung lassen sich beantworten, wenn man an neuralgischen Punkten Kameras installiert, die das Verkehrsgeschehen kontinuierlich aufnehmen. Für optimale Ergebnisse müssen die aufgenommenen Videos live an einer zentralen Stelle zusammenführt, diese Big Data aggregiert und dann mit vergangenen Daten verglichen und analysiert werden. Natürlich alles in Echtzeit, denn nur dann kann man rechtzeitig eingreifen.

Mit Lösungen wie Video Analytics von Hitachi Vantara lässt sich eine intelligente und automatisierte Videoüberwachung realisieren. Diese Software nimmt wichtige Daten aus einer Vielzahl von Quellen kontinuierlich auf und überträgt sie an einen zentralen Speicherort in der Cloud. Und mittels Pentaho Data Integration lassen sich die angefallenen Big Data dann aggregieren und für umfassende Analysen und interaktive ArcGIS-Karten nutzen. Damit dies DSGVO-konform geschieht, werden die Daten wie oben beschrieben dynamisch pseudonymisiert. Visuelle Details wie Gesichter lassen sich dabei ebenso automatisch verpixeln wie Autokennzeichen oder Beschriftungen auf LKWs.

Anwendungsbeispiel – Pandemien bekämpfen

Sogar Leben lassen sich mit einer solchen Lösung retten. Im Falle einer Pandemie können die Bewegungsdaten, die ja allen Mobilfunkanbietern vorliegen, genutzt werden, um zu sehen, wer sich wann wo aufgehalten hat und vor allem, wen er getroffen hat. Dazu könnten Mobilfunkdaten in die Cloud transferiert und dort aggregiert und analysiert werden. Im Anschluss lassen sich die gewonnen Daten dynamisch pseudonymisieren und in interaktive ArcGIS-Karten einspeisen. Erkrankt nun jemand zum Beispiel an Covid19, dann lassen sich die Bewegungsdaten dieser Person, deren Einwilligung vorausgesetzt, zurückübersetzen und man kann genau sehen, wann sich dieser Nutzer wo aufgehalten hat und vor allem, wem er begegnet ist. So lassen sich andere warnen und Infektionsketten frühzeitig erkennen.

Bewegungsdaten stellen die optimale Grundlage für Anwendungen dar, die das private oder öffentliche Leben verbessern. „Lebende“ Karten bringen das Business voran, optimieren die Arbeit von Behörden und können helfen, Leben zu retten, wie das Beispiel Corona-Karte verdeutlicht. Mit einer GIS-Plattform wie ArcGIS und einer Datenintegrationsplattform wie Pentaho ist das sicher und vor allem DSGVO-konform möglich.

(ID:46899514)