Big Data und Information Governance Datenflutsteuerung mit Verantwortung

Autor / Redakteur: Michael Matzer / Nico Litzel

Die Zusammenführung zahlreicher Datenquellen in Kombination mit Big-Data-Analyse-Anwendungen ermöglichen den gläsernen Kunden. Die Sorge, wie Datenbestände im Umfang von Petabyte geschützt werden können, ist verknüpft mit der Expertenforderung nach einer verbesserten Information Governance im Umgang mit solchen Daten.

Firmen zum Thema

Es gibt zahlreiche Fragestellungen bei der Information Governance im Hinblick auf Big Data.
Es gibt zahlreiche Fragestellungen bei der Information Governance im Hinblick auf Big Data.
(Bild: IBM)

Seit 2004 das Information Governance Council gegründet wurde, gilt folgende Definition für diese Disziplin: „Information Governance ist die Orchestrierung von Personen, Prozessen und Technologien, die eine Organisation befähigt, Information wie ein Wirtschaftsgut zu nutzen.“ Massendaten sind also das „neue Erdöl“, wie es einmal Carsten Bange, der Geschäftsführer des BARC-Instituts, genannt hat. Somit sind Daten ein wertvoller Rohstoff und damit Kapital.

Doch wie beim Öl darf auch hier nicht gezündelt werden: Vorsicht und Schutzmaßnahmen sind geboten. Darüber hinaus gilt auch hier: Erst nach dem Raffinieren wird aus Öl nutzbarer Kraftstoff. Erst Analyseanwendungen machen aus Daten Informationen und erst diese lassen sich im Einklang mit Erfahrungswerten zu klugen Entscheidungen verwenden. Information Governance schützt nicht nur schützenswerte und wertvolle Daten (es gibt ja auch wertlose Daten), sondern stellt sie in einem gesteuerten Prozess den befugten Nutzern zur Verfügung. Diesen Prozess steuert der Data Steward.

Bildergalerie

Information Governance

Holger Kisker
Holger Kisker
(Bild: Forrester Group)
Die IT-Disziplin der Information Governance legt fest, wer in einem Unternehmen oder einer Organisation was, wann und wie mit den vorhandenen Daten machen darf. In einer Zeit, in der sowohl die gesetzlichen Vorgaben steigen als auch Gefahren von außen und innen zunehmen, kommt dieser Disziplin eine wachsende Bedeutung zu. „Sie ist für manche Szenarien leider noch eine Grauzone“, moniert Holger Kisker, Berater bei der Forrester Group. Die deutschen Unternehmen seien verunsichert, was die Umsetzung angehe. „Das führt zu einer erheblichen Investitionsblockade, insbesondere in Deutschland, viel mehr als in den USA.“ Dort wurden die Sammlung und die Zusammenführung von Daten bislang wesentlich weniger restriktiv gehandhabt.

Um wenigstens in den Unternehmen selbst die Unsicherheit zu beseitigen, fordert Kisker mit einem Chief Data Officer (CDO) die Einrichtung eines Vorstandsmitglieds, das für alle Belange des Datenschutzes im Sinne der Information Governance zuständig ist. Bislang ist lediglich die Stelle des Data Stewards bzw. Dateneigners genauer beschrieben.

Wertschöpfung optimieren

Der Unternehmensberater Wolfgang Martin definiert dessen Rolle so: „Die Aufgabe eines CDOs besteht darin, die Wertschöpfung von Daten und Informationen im Unternehmen zu optimieren.“ Er stelle sicher, dass im Unternehmen die richtigen Daten gesammelt, analysiert und von befugten Personen zum Entscheiden genutzt werden können. Er stelle ebenfalls sicher, „dass dazu eine Ethik im Unternehmen entwickelt wird und im Rahmen der Unternehmens-Compliance eingehalten wird.“ Sowohl Martin als auch Kisker merken an, dass eine solche Ethik derzeit vielfach nicht vorhanden sei. Auch herrsche große Unsicherheit bei deutschen Unternehmen hinsichtlich ihrer rechtlichen Spielräume.

Information Governance ist also primär eine organisatorische Angelegenheit. Aber um die Vorgaben überhaupt erst einmal mit technischen Mitteln umzusetzen, gilt es, einige Aspekte zu beachten. Man kann nämlich eine Big-Data-Architektur auch so aufbauen, dass sie lediglich ein einziges großes Silo bildet, einen sogenannten Data Lake.

„Ein Data Lake sammelt alle von Maschinen oder Personen erzeugten Daten und speichert sie als Rohmaterial im Originalformat“, erläutert Stephen Brobst, CTO bei Teradata. „Diese erste Phase der Datenverarbeitung ist mit sehr niedrigen Kosten für die BI- und Storage-Infrastruktur verbunden. Aber sie erfordert ETL-Prozesse, um wertvolle von wertlosen Daten zu scheiden.“ Die Kriterien legt unter anderem der Data Scientist fest.

Die zweite Phase besteht nach den Worten von Stephen Brobst in „Discovery sowie Forschung & Entwicklung: Hier arbeiten Data Scientists zu erheblich höheren Kosten, indem sie suchen, was interessant und verwertbar sein könnte“.

Data Manufacturing

Die dritte Phase besteht laut Brobst im Data Manufacturing, bei dem alle anderen Nutzer involviert sind. Dazu gehören ETL-Prozesse, eine Data-Warehouse-Verwaltung und obendrein eine Zertifizierung von Daten, Informationen und den damit verbundenen Systemen. „Diese Phase generiert hohe Kosten“, sagt der Teradata-Cheftechnologe. Man tut also gut daran, die Kostenfallen so früh wie möglich auszumerzen.

In einer Zwischenstufe vor der Endauswertung ist es notwendig, Metadaten zu erzeugen, zu integrieren und an geeigneter Stelle, etwa in einem zentralen Repository, zur Verfügung zu stellen. „Durch diese Metadatenintegration wird es möglich, die Vielzahl an neuen Datenquellen zu überblicken und zu bewerten“, sagt Uwe Nadler von IBM Deutschland.

„Ein entsprechendes Information Governance Dashboard erlaubt eine Bewertung dieser Daten in Bezug auf die Regeln und Richtlinien, die die Data Stewards definiert haben.“ Information Governance ist immer auch Policy Management und Information Lifecycle Management. Die so freigegebenen Daten kann der Data Steward in einem unternehmensweit verfügbaren Informationsportal für befugte Nutzer zugreifbar machen.

Sprache ist unlogisch

Wenn Daten nicht von Maschinen, sondern von Menschen kommen, gibt es stets eine gewisse semantische Unschärfe, etwa durch die Verwendung von Humor und Ironie. Data Stewards müssen Regeln erarbeiten und zur Anwendung bringen, wie solche Unschärfen zu definieren sind. Die Frage ist beispielsweise auch, ob es sinnvoll oder zulässig ist, Informationen aus Social Media überhaupt mit RFID- und anderen Maschinendaten zu verknüpfen. „Die Daten sind vollständig durchsuchbar, sodass passende Mitarbeiter die richtigen Fragen an die geeigneten Daten stellen können“, merkt Olav Strand an, Director Central EMEA bei Splunk. Äpfel sollten also nicht mit Birnen verglichen werden.

Der Data Steward muss auch entscheiden, welche Daten im Zuge der Datenbewirtschaftung zu löschen und welche zu schützen sind. „Daten sollten nur für die geeignete Dauer für die Zwecke von Governance, Compliance und Auditierung vorgehalten werden“, empfiehlt Strand. Werden beispielsweise personenbezogene Daten aus Hadoop- und anderen NoSQL-Systemen für Entwicklungs- und Testzwecke benötigt, ist es unabdingbar, diese Daten zu schützen, indem sie anonymisiert oder zumindest maskiert werden. In der Regel verfügen alle Datenbankanbieter über entsprechende Technologien. Sie sind nämlich die Voraussetzung, um überhaupt für Unternehmen zugelassen zu werden.

Strand warnt davor, Daten zu ignorieren, nur weil sie mal nicht in Hadoop gespeichert sind. Alle Daten sollten für die befugte Selbstbedienung durch nicht technisch geschultes Personal bereitgehalten werden. „Auch Daten, die momentan nicht relevant erscheinen, könnten sich künftig als potenziell wichtig im Hinblick auf Governance erweisen“, rät Strand. „Nur weil sie Beschränkungen durch herkömmliche ETL-Prozesse und starre Daten-Schemata unterworfen sind, ist das kein Grund, sie zu wegzuwerfen.“ Nur so lassen sich nämlich lange Zeitreihen-Analysen über mehrere Jahre hinweg anstellen.

Datenschutzethik

Data Stewards formulieren ihre Richtlinien und Zugriffsrechte anhand der Unternehmensstrategie einerseits und der gesetzlichen Vorgaben (Compliance) andererseits. Aber nicht alles, was Unternehmen wünschen und was das Recht erlaubt, ist auch das, was der Bürger akzeptiert. Vorratsdatenspeicherung ist hierzulande immer noch ein Reizwort. Es müsste also eine Art Ethik für den Datenschutz innerhalb der Information Governance geben.

Eine Ethik für Information Governance kann durchaus mit den Anforderungen des Datenschutzes als auch der Notwendigkeit zur Innovation in Einklang zu bringen sein. „Das deutsche Datenschutzrecht ist in vielen Punkten vorbildlich“, urteilt Susanne Dehmel, Bereichsleiterin Datenschutz beim Branchenverband BITKOM, „bedarf aber der Anpassung an neue technische Entwicklungen.“ Hinzu komme die Notwendigkeit, sich in einer vernetzten Welt international auf datenschutzrechtliche Grundsätze zu einigen.

Zumindest in Europa befindet sich eine gemeinsame Plattform für Datenschutz-Ethik in Arbeit. Diese EU- Datenschutz-Grundverordnung sollte nach Auskunft des inzwischen ausgeschiedenen Bundesdatenschutzbeauftragten Peter Schaar in Europa gleiche Spielregeln für alle Beteiligten schaffen, was die Berücksichtigung des Datenschutzes anbelangt. „Diese Spielregeln betreffen dann auch außereuropäische Firmen, die in Europa Geschäfte tätigen und dabei die Daten europäischer Bürger verarbeiten.“ Eine Aussage mit einer Menge Zündstoff.

Zeitbombe „Datenschutz-Folgenabschätzung“?

Eine der Neuerungen, die die EU-Datenschutz-Grundverordnung mit sich bringen soll, ist die Datenschutz-Folgenabschätzung. „Im Hinblick auf dieses Privacy Impact Assessment“, so Susanne Dehmel vom BITKOM-Verband, „haben wir in unseren Leitfaden, Management von Big Data Projekten‘ anhand einer Checkliste skizziert, wie es durchgeführt werden könnte. Peter Schaar empfiehlt deutschen Unternehmen, sich frühzeitig mit dessen Bestimmungen vertraut zu machen. Sie gestalten die geforderte Ethik nämlich mit.

Ein konkretes Beispiel dafür, wie sich sicherheitsbewusste deutsche Unternehmen bereits eigene Ethikregeln vorstellen und ihnen selbst unterwerfen, liefert die SYSS GmbH in Tübingen. In elf Punkten formuliert deren Kodex Prinzipien wie Schweigepflicht und Altruismus, weist aber Beraterprovisionen und den Ausschluss von Wettbewerb weit von sich – heutzutage sind das keineswegs selbstverständliche Grundsätze.

(ID:43048675)