Big-Data-Sicherheit – Integrität der Daten

Wie die Integritätskontrolle bei Big Data möglich wird

| Autor / Redakteur: Oliver Schonschek / Nico Litzel

Datenanalysen werden zu geschäftskritischen Zwecken eingesetzt. Die Integrität der Daten ist deshalb nicht nur eine Forderung von Datenschutz und Datensicherheit.
Datenanalysen werden zu geschäftskritischen Zwecken eingesetzt. Die Integrität der Daten ist deshalb nicht nur eine Forderung von Datenschutz und Datensicherheit. (Bild: KPMG)

Veränderungen an Daten müssen auch bei Big Data zuverlässig erkannt werden. Das verlangen der Datenschutz und jede sinnvolle Auswertung großer Datenbestände. Spezielle Tools helfen bei der Integritätsüberwachung.

Die Integrität der Daten als eines der drei klassischen Schutzziele stellt bei Big Data besonders hohe Anforderungen, ist aber sowohl für den Datenschutz als auch für den Wert der Analysen von Big Data unerlässlich. Wenn nicht sichergestellt ist, dass die Daten wirklich unversehrt, vollständig, zurechenbar und aktuell sind, so sind Big-Data-Analysen als Entscheidungsgrundlage kaum noch sinnvoll. Im Datenschutz ist die Integrität personenbezogener Daten eng verknüpft mit der sogenannten Eingabekontrolle. Diese bedeutet, dass nachträglich überprüft werden können muss, ob und von wem personenbezogene Daten eingegeben, verändert oder gelöscht worden sind.

Wie das Unabhängige Landeszentrum für Datenschutz Schleswig-Holstein (ULD) in einem Vortrag zu Big Data und Datenschutz erklärt, ist das Ziel der Integrität angesichts des Ausmaßes der bei Big Data verwendeten Daten in der Praxis nur annähernd zu erreichen. Die schiere Masse der verarbeiteten Daten verursacht eine hohe „Datenunsicherheit“, so die Datenschützer. Trotzdem führt kein Weg daran vorbei, die Datenintegrität auch bei Big Data zu überwachen.

Veränderungen erkennen und nachvollziehen

Für die Integritätskontrolle werden üblicherweise Verfahren wie Prüfsummen-Check (Bildung und Abgleich von Hashwerten), Protokollierung und Identitäts- und Zugriffsmanagement (IAM, Identity and Access Management) eingesetzt. Will man diese Verfahren auf Big-Data-Szenarien ausweiten, bedeutet dies, dass die Verfahren sehr leistungsstark und ausreichend schnell sein müssen. Bedenkt man, dass es sich bei Big-Data-Analysen meist um Echtzeitanwendungen handelt, muss die Kontrolle der Datenintegrität natürlich möglichst schnell erfolgen.

Für die Integritätsüberwachung bei großen Datenmengen werden somit hochperformante Werkzeuge aus dem Bereich der Prüfsummen-Ermittlung, des Loggings und des Zugriffsmanagements benötigt. Ein Blick auf den Lösungsmarkt zeigt, dass es zum Beispiel spezielle Logging- und Zugriffskontrolllösungen gibt, die die Herausforderungen durch Big Data adressieren.

Integritätskontrolle bedeutet zuerst Zugriffsüberwachung bei Big Data

Wenn man feststellen will, wer welche Änderungen an einem großen Datenbestand vorgenommen hat, geht es um besonders komplexe Zugriffskontrollen. Wie die Cloud Security Alliance (CSA) in dem Bericht „Top Ten Big Data Security and Privacy Challenges“ feststellt, ist für Big Data eine besonders granuläre Zugriffskontrolle erforderlich. Die Vielzahl an verschiedenen Datenelementen, möglichen Berechtigungen und Rollen muss von einer Zugriffskontrolllösung zuverlässig abgebildet werden können.

Speziell für den Einsatz in Big-Data-Umgebungen entwickelt sind Lösungen wie Teradata Enterprise Access to Hadoop, das einen abgesicherten Zugriff auf die in Hadoop gespeicherten Daten bietet. Zu der Lösung gehört Teradata Viewpoint, ein webbasiertes Portal für die Systemverwaltung, mit dem die Performance und Integrität überwacht werden können. Eine weitere Lösung für den Zugriffsschutz und damit auch den Schutz vor unerlaubten Änderungen in Hadoop-Umgebungen bietet Cloudera Sentry. Mit Apache Ranger ist eine granuläre Zugriffskontrolle für Hadoop-Umgebungen in Verbindung mit Apache Hive oder Apache HBase möglich.

Integritätskontrolle braucht auch Logging und Analyse von Big Data

Neben der Zugriffskontrolle und bei Bedarf der Identifizierung der zugreifenden Nutzer sind es die Protokollierung und die Audits auf Basis der Protokollauswertung, die die Eingabekontrolle und Integritätsüberwachung bei Big Data möglich machen, vorausgesetzt, die Logging-Lösungen adressieren Big-Data-Umgebungen.

Lösungen, die oftmals mit Big Data Security Analytics in Verbindung gebracht werden, die also Bedrohungsanalysen auf Basis sicherheitsrelevanter Informationen vornehmen, eignen sich in aller Regel auch für die Integritätskontrolle bei Big Data. Die SIEM-Lösungen neuer Generation (Security Information and Event Management) suchen nach Anzeichen für Attacken. Dazu gehören natürlich auch solche Spuren, die man an der Veränderung an den Daten nachvollziehen kann.

Log-Management und Log-Analyse mit Lösungen wie Splunk, LogLogic oder LogRhythm sind somit wichtiger Teil einer Integritätsüberwachung bei Big Data. LogRhythm zum Beispiel beschreibt den Einsatz seiner Lösung für File Integrity Monitoring (FIM) zur Integritätsüberwachung verschiedener Dateitypen. Hilfreich kann eine FIM-Funktion auch für besonders kritische Datenkategorien sein, zum Beispiel zur Überwachung der Integrität der Log-Dateien selbst. Nur wenn die Log-Dateien manipulationssicher überwacht werden, lassen sich mögliche Änderungen an Big Data zuverlässig erkennen.

Integritätsschutz bei Big Data braucht hohe Performance

Es zeigt sich, dass die generellen Konzepte und Methoden zur Integritätsüberwachung auch bei Big Data zum Einsatz kommen können. Die enormen Datenmengen und die komplexen Berechtigungsstrukturen machen allerdings schnelle, leistungsstarke Lösungen erforderlich. Big-Data-Integrität ist somit sehr anspruchsvoll, aber nicht unmöglich, trotz der Vielfalt und Komplexität.

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Kommentar abschicken

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 43374436 / Recht & Sicherheit)