Suchen

Big Data und Information Governance

Datenflutsteuerung mit Verantwortung

Seite: 2/3

Firmen zum Thema

Information Governance ist also primär eine organisatorische Angelegenheit. Aber um die Vorgaben überhaupt erst einmal mit technischen Mitteln umzusetzen, gilt es, einige Aspekte zu beachten. Man kann nämlich eine Big-Data-Architektur auch so aufbauen, dass sie lediglich ein einziges großes Silo bildet, einen sogenannten Data Lake.

„Ein Data Lake sammelt alle von Maschinen oder Personen erzeugten Daten und speichert sie als Rohmaterial im Originalformat“, erläutert Stephen Brobst, CTO bei Teradata. „Diese erste Phase der Datenverarbeitung ist mit sehr niedrigen Kosten für die BI- und Storage-Infrastruktur verbunden. Aber sie erfordert ETL-Prozesse, um wertvolle von wertlosen Daten zu scheiden.“ Die Kriterien legt unter anderem der Data Scientist fest.

Bildergalerie

Die zweite Phase besteht nach den Worten von Stephen Brobst in „Discovery sowie Forschung & Entwicklung: Hier arbeiten Data Scientists zu erheblich höheren Kosten, indem sie suchen, was interessant und verwertbar sein könnte“.

Data Manufacturing

Die dritte Phase besteht laut Brobst im Data Manufacturing, bei dem alle anderen Nutzer involviert sind. Dazu gehören ETL-Prozesse, eine Data-Warehouse-Verwaltung und obendrein eine Zertifizierung von Daten, Informationen und den damit verbundenen Systemen. „Diese Phase generiert hohe Kosten“, sagt der Teradata-Cheftechnologe. Man tut also gut daran, die Kostenfallen so früh wie möglich auszumerzen.

In einer Zwischenstufe vor der Endauswertung ist es notwendig, Metadaten zu erzeugen, zu integrieren und an geeigneter Stelle, etwa in einem zentralen Repository, zur Verfügung zu stellen. „Durch diese Metadatenintegration wird es möglich, die Vielzahl an neuen Datenquellen zu überblicken und zu bewerten“, sagt Uwe Nadler von IBM Deutschland.

„Ein entsprechendes Information Governance Dashboard erlaubt eine Bewertung dieser Daten in Bezug auf die Regeln und Richtlinien, die die Data Stewards definiert haben.“ Information Governance ist immer auch Policy Management und Information Lifecycle Management. Die so freigegebenen Daten kann der Data Steward in einem unternehmensweit verfügbaren Informationsportal für befugte Nutzer zugreifbar machen.

Sprache ist unlogisch

Wenn Daten nicht von Maschinen, sondern von Menschen kommen, gibt es stets eine gewisse semantische Unschärfe, etwa durch die Verwendung von Humor und Ironie. Data Stewards müssen Regeln erarbeiten und zur Anwendung bringen, wie solche Unschärfen zu definieren sind. Die Frage ist beispielsweise auch, ob es sinnvoll oder zulässig ist, Informationen aus Social Media überhaupt mit RFID- und anderen Maschinendaten zu verknüpfen. „Die Daten sind vollständig durchsuchbar, sodass passende Mitarbeiter die richtigen Fragen an die geeigneten Daten stellen können“, merkt Olav Strand an, Director Central EMEA bei Splunk. Äpfel sollten also nicht mit Birnen verglichen werden.

Der Data Steward muss auch entscheiden, welche Daten im Zuge der Datenbewirtschaftung zu löschen und welche zu schützen sind. „Daten sollten nur für die geeignete Dauer für die Zwecke von Governance, Compliance und Auditierung vorgehalten werden“, empfiehlt Strand. Werden beispielsweise personenbezogene Daten aus Hadoop- und anderen NoSQL-Systemen für Entwicklungs- und Testzwecke benötigt, ist es unabdingbar, diese Daten zu schützen, indem sie anonymisiert oder zumindest maskiert werden. In der Regel verfügen alle Datenbankanbieter über entsprechende Technologien. Sie sind nämlich die Voraussetzung, um überhaupt für Unternehmen zugelassen zu werden.

(ID:43048675)