Auf die richtige Mischung kommt es an Data Governance und Sicherheit bei Big Data Analysen

Autor / Redakteur: Barbara Radatz / Ulrike Ostler

Dass Big Data wichtig ist, bezweifelt keiner mehr. Die eigentliche Wertschöpfung für Anwender entsteht aus den Informationen, die sich aus der Kombination verschiedenster Datenquellen ergibt. Aber: Daten-Aktualität, Qualität und Integrität müssen gewährleistet sein.

Firmen zum Thema

So einfach ist das nicht, wenn Anwender verschiedene Datenquellen mixen wollen.
So einfach ist das nicht, wenn Anwender verschiedene Datenquellen mixen wollen.
(Bild: Pentoho)

Unternehmen und Institutionen, die Geschäftsentscheidungen nur auf der Basis von Daten aus ihren relationalen Datenbanken treffen, können in einer Zeit, wo der Anteil von unstrukturierten Daten stetig wächst, schnell ins Hintertreffen geraten.

Um die bestmöglichste Entscheidung zu treffen, müssen Unternehmen auf eine möglichst große Anzahl von aktuellsten Informationen zugreifen können – auf die logische Verknüpfung von Daten aus operativen Unternehmensanwendungen, sozialen Netzwerken, Sensoren oder Weblogs kommt es also an.

(Bild: Pentoho)

In Zeiten wo ganze Branchen, wie Banken und Finanzdienstleister, Medien, die Musikindustrie oder Telcos ihre schrumpfenden Gewinnspannen gegen neue flexiblere digitale Startups verteidigen müssen, wird es für diese traditionellen Akteure unerlässlich, die Fülle ihrer Kundendaten zu nutzen, um ihren Status Quo mindestens wahren zu können.

Das Verknüpfen von Kundendaten, Social Media Feeds, Transaktionsdaten und Kundendiensteinträgen hilft diesen Branchen, die Kunden besser zu verstehen. Mit gezielten personalisierten Dienstleistungen und Service-Erlebnissen kann durch dieses Verständnis die Kundenloyalität gesteigert und das Abwandern zu anderen neuen Anbietern verhindert werden.

Das Verbinden von vielen Datentöpfen

Das Verknüpfen verschiedener Datenquellen erlaubt es den traditionellen Branchen, ihren Umsatz zu schützen und auszubauen. Eine Mischung, die es in sich hat und auch die klassischen Informationsarchitekturen mit dem Data Warehouse an seine Grenzen bringt.

Große und unstrukturierte Datenmengen in ein zentrales Data Warehouse zu laden ist nicht nur unpraktisch, sondern wird auch schnell zu teuer und die Performanz leidet erheblich. In unser schnelllebigen Zeit können es sich Unternehmen nicht mehr leisten, zu warten, dass Daten erst extrahiert, gereinigt, transformiert und gespeichert werden, bevor sie gemischt und analysiert werden können.

Aus diesem Grund stehen heute die traditionellen relationalen Data Warehouses neben den neuen Big Data Infrastrukturen wie „Hadoop“ oder NoSQL und es gibt neue agilere Informationsarchitekturen, die den Datenfluss von der Quelle bis zur Analyse managen.

Wo entsteht die Verbindung?

Eine wichtige Fragestellung hierbei ist, wo die Daten aus den verschiedenen Quellen verknüpft werden. Einige Anbieter ermöglichen den Endanwendern, die verschiedenen Daten am Bildschirm zu mischen und zu analysieren.

Erst einmal müssen die Daten versiegelt bleiben.
Erst einmal müssen die Daten versiegelt bleiben.
(Bild: Pentaho)

Dieser Ansatz hat drei schwerwiegende Nachteile: Erstens, werden die Daten in diesem Falle nicht direkt an der Quelle abgeschöpft, sind also unter Umständen bereits nicht mehr aktuell. Zweitens verstehen Endanwender in den meisten Fällen nicht die den Daten unterliegende Semantik, was Data Governance und Sicherheit beeinträchtigten kann. Im schlimmsten Fall führt das drittens zu falschen Schlussfolgerungen und falschen Geschäftsentscheidungen.

Auch bei der Arbeit mit Big Data gilt, dass Daten-Aktualität, Qualität und Integrität gewährleistet sein müssen. Big Data Analyse ist kein magischer Prozess, wo aus der Haselnuss ein Ballkleid gezaubert wird. Fehlerhafte Daten bleiben fehlerhafte Daten, nur im größeren Ausmaße.

Fehler bleibt Fehler

Einen besseren Ansatz verspricht daher “Data Blending at the Source”, also das logische Verknüpfen der Daten möglichst nah an ihrer ursprünglichen Quelle.

Pentahos Data Blending ermöglicht zum Beispiel das Verknüpfen der Daten in der Transformationsphase des ETL-Prozesses. Der Daten Integrationsnutzer mischt dabei die verschiedenen Daten an ihrer Quelle und fasst sie in einer Transformation zusammen. Dabei lässt sich mit Pentaho die Transformation in einer automatisierten SQL-Umgebung durchführen, obwohl die Daten verschiedenster Herkunft sein können, wie z.B. NoSQL, Spreadsheets, Big Data, XML oder Web Services, um nur einige zu nennen.

Pentahos Data Blending ermöglicht zum Beispiel das Verknüpfen der Daten in der Transformationsphase des ETL-Prozesses.
Pentahos Data Blending ermöglicht zum Beispiel das Verknüpfen der Daten in der Transformationsphase des ETL-Prozesses.
(Bild: Pentaho)

Da die meisten Business Intelligence Tools sozusagen by-Default SQL nutzen, können die mit Pentaho erstellten logischen Datenverknüpfungen über eine Webschnittstelle jedem beliebigen BI Tool zur weiteren Analyse oder Reporting zur Verfügung gestellt werden.

Das Verknüpfen an der Datenquelle hat darüber hinaus den Vorteil, dass die zugrunde liegende Datensemantik gewahrt wird, so dass Datenqualität und –Integrität und damit Data Governance und Sicherheit gewährleistet bleibt.

Direkt an der Quelle

Durch das Data Blending direkt an der Quelle liegen die Daten beinahe in Echtzeit vor, da sie nicht erst zeitaufwendig in eine relationale Datenbank ein- und ausgelesen werden müssen. Geschäftsentscheidungen basieren damit auch tatsächlich auf den aktuellsten Daten.

Unternehmen und Institutionen, für die Datenaktualität, Data Governance und Sicherheit wichtig sind, sollten daher bei ihrer Wahl von Big Data Analyse Lösungen auf Anwendungen setzen, bei denen die Daten nicht vom Endanwender am Bildschirm gemischt werden, sondern die Data Blending an der Quelle erlauben.

Gerade wenn es darum geht mit sensiblen Kundendaten zu arbeiten, sollte dies oberste Priorität haben, damit die durch die Einsicht in die Datenverknüpfung gewonnenen Erkenntnisse über die Kunden nicht durch einen Mangel an Vertrauen wieder verspielt werden.

Die Autorin:

Barbara Radatz ist Territory Sales Manager bei Pentaho Deutschland.

(ID:42613685)