BigData Analytics: Datenintegration vs. Data Lakes Datenintegration oder Datenozean?

Autor / Redakteur: Michael Matzer / Florian Karlstetter

Bislang werden große Datenmengen in Data Warehouses und DataMarts gespeichert. Doch seit wenigen Jahren befürworten führende Internet-, Analytics- und Datenbankanbieter das Konzept des "Data Lakes". Was es damit auf sich hat wird in folgendem Artikel erläutert.

Firmen zum Thema

In der Digitalwirtschaft treffen Big Data in unterschiedlichem Format und mit verschiedener Größe, Geschwindigkeit und Zuverlässigkeit auf die empfangenden und speichernden Systeme eines Unternehmens.
In der Digitalwirtschaft treffen Big Data in unterschiedlichem Format und mit verschiedener Größe, Geschwindigkeit und Zuverlässigkeit auf die empfangenden und speichernden Systeme eines Unternehmens.
(© T. L. Furrer - Fotolia.com)

Der Unterschied ist bedeutend: Denn bei diesen "Datenozean" fällt jede Art der Aufbereitung, Filterung und Zuordnung von Informationen weg. Der Nutzer hantiert also mit Rohdaten. Über die Vorteile streiten sich die Experten.

Der Sinn und Zweck von Datenbanken und Datenbankanwendungen im Business Intelligence-Bereich besteht bislang darin, bestimmte Fragen zu beantworten. Der Nutzer in einer Fachabteilung weiß bereits, was er fragen will, und er verfügt über die entsprechende Anwendung, um die Antwort aus dem "System" holen zu können. So etwa die Frage: "Wie hoch war im Vorjahr der Gesamtumsatz für Deutschland?"

Die Antworten liefert eine bestimmte transaktionale Datenbank, die in einem bestimmten Schema aufgebaut ist und deren Inhalte bereinigt und konsolidiert sind. Der Nutzer kann also mit hoher Zuversicht davon ausgehen, dass er eine Antwort geliefert bekommt, die belastbar, konsistent, widerspruchsfrei und aktuell ist, und das zudem in einem Format, das seine anderen Anwendungen, wie etwa Excel, reibungslos bearbeiten können.

Um all diese Qualitätsbedingungen erfüllen zu können, mussten die ETL-Systeme, die dem zentralen Data Warehouse vorgelagert sind, alle nötigen Datenquellen zusammenführen ("extract"), bereinigen bzw. transformieren ("transform") sowie in die Bereitstellungsebene der Datenbank laden ("load). Das ist ein komplexer Prozess, für dessen Entwurf und Pflege Spezialisten notwendig sind.

Will der Sachbearbeiter jedoch in rascher Folge weitere Fragen stellen, so stößt er mit seinem Analysewerkzeug bald an die Grenzen des Systems. Er möchte beispielsweise nur Kunden aus Bayern aus einer bestimmten Alters- oder Einkommensschicht herausfiltern. Diese Daten bekommt er aus dem CRM-System. Will er herausfinden, ob seine Anzeigenkampagnen diese Zielgruppe wirksam erreicht haben, so muss er die entsprechende Marketing- und Kampagnen-Software nutzen. Schon die nächste Frage, ob diese Käuferschicht auch Wiederholungskäufe getätigt hat, könnte das System ins Straucheln bringen - dafür sind GPS-Daten der Logistikunternehmen vonnöten. Hat der ETL-Experte vorausgesehen, dass diese Daten eines Tages gewünscht werden und sie entsprechend bereitgestellt? Die Wahrscheinlichkeit ist nicht besonders hoch.

Big Data in unterschiedlichsten Formaten

Es sind diese Einschränkungen durch vorgegebene Zwecke, Anwendungen und Systeme, die im Zeitalter der digitalisierten Wirtschaft nicht mehr mit den Anforderungen an Entscheidungshilfen Schritt halten. In der Digitalwirtschaft treffen Big Data in unterschiedlichem Format und mit verschiedener Größe, Geschwindigkeit und Zuverlässigkeit auf die empfangenden und speichernden Systeme eines Unternehmens. Dies erfolgt mit zunehmender Geschwindigkeit aus einer wachsenden Zahl von Datenquellen.

Statt nun alle Datenkategorien aufwändig zu filtern und in spezialisierten Systemen zu speichern, bietet das Konzept des Data Lakes auf den ersten Blick mehrere Vorteile:

  • 1. Die empfangenen Rohdaten stehen nahezu in Echtzeit für die Verarbeitung, Weiterleitung und Analyse zur Verfügung, denn sie werden nicht erst gefiltert.
  • 2. Es sind keine Spezialsysteme nötig, um sie zu speichern, sondern lediglich eine Distribution von Apache Hadoop mit seinen Begleitwerkzeugen.
  • 3. Ein Hadoop-Cluster ist so skalierbar, dass er im Prinzip unendliche Mengen von Daten aufnehmen kann. Man braucht sich also nicht zu sorgen, es könnte einen Datenstau geben oder gar eine Blockade. Das Facebook-Beispiel belegt die Belastbarkeit im Petabyte-Bereich. Ob jedoch die Speicherkosten sinken werden, ist eine offene Frage.
  • 4. Die Analyse dieses Datenozeans kann mit jedem beliebigen Werkzeug erfolgen, das Hadoop lesen kann, und zwar so flexibel, dass es keine Einschränkung hinsichtlich der FRAGEN gibt.
  • 5. Ein Hadoop-Cluster lässt sich heute mit jedem DBMS integrieren, von IBM bis SAP Hana. Praktisch jeder Datenbankhersteller hat inzwischen eine Plattform as a Service im Angebot, die Big Data Analytics on-demand ermöglicht. Zu diesem Kreis gehören auch Anbieter wie Cloudera, Hortonworks und Pivotal .

Datenzentrische Analysemethode

Mit anderen Worten: Erst das Data-Lake-Konzept erlaubt eine datenzentrische Analysemethode, wirklich freie Data Discovery und entsprechend flexible Lösungen aus unterschiedlichsten Anwendungen. "Die Daten werden nur einmal gespeichert, lassen sich aber auf mannigfaltige Weise zugreifen", erläutert Chris Twogood, ein Marketingleiter beim Datenbankanbieter Teradata. "Sie sind immer da in ihrer ursprünglichen Qualität, damit Nutzer auf sie zurückgreifen, sie bearbeiten, ändern und verfeinern können."

Single, verheiratet, geschieden, verwitwet ...

Es ist leicht zu verstehen, dass beispielsweise die Auswertung von Callcenter-Daten, Web-Logdaten, Cookies, Tweets, Bankomatendaten und mehr dazu beitragen kann, den gläsernen Bankkunden zu erzeugen. Dieses Profil ermöglicht den Bankmitarbeitern genaueres Risk Management und im günstigen Fall auch Betrugserkennung. Die Identität des Kunden wird mit seinen Statusdaten verknüpft, um einzuschätzen, ob sich sein privater Status verändert: Single, verheiratet, geschieden, verwitwet - alles hat Einfluss auf die Kampagnen, mit denen die Bank oder Versicherung ihnen "beglücken" möchte. Und die Anzahl der Empfangskanäle mit Kundendaten tendiert eher dazu, zuzunehmen statt weniger zu werden.

Aber: "Wir sehen nicht, dass Hadoop ein neues Data Warehouse wird oder umgekehrt", sagt Twogood. Wer also die "single version of the truth" sucht, ist wohl weiterhin gut beraten, ein umfassendes Data Warehouse mit entsprechenden ETL-und Analysewerkzeugen zu betreiben.

Denn folgende Probleme gehen mit Data Lakes einher:

  • 1. Das Anlegen von Indizes und Beziehungen zwischen Daten.
  • 2. Damit lassen sich die Daten beschleunigt durchsuchen und aufbereiten. Ist die Suchmaschine entsprechend leistungsfähig?
  • 3. Die Anwendung von Textanalyse und Data Mining usw. muss möglich sein, um unstrukturierte Daten (Blogs, Sensordaten, Wikis usw.) überhaupt verständlich zu machen.
  • 4. Gibt es eine Abfragesprache in natürlicher Sprache oder in Not-only SQL?
  • 5. Wie gut ist die Kompression der Rohdaten? Bei SAP Hana lassen sich angeblich sehr gute Verdichtungsraten erzielen. Das ist nötig, wenn man Daten in den Hauptspeicher laden und dort CPU-nah verarbeiten will.
  • 6. Mit welchen Mechanismen lassen sich die Rohdaten wirksam schützen? Da es sich häufig um personenbezogene Daten handelt, unterliegen sie - zumindest in Deutschland - strengen gesetzlichen Vorgaben.

"Ohne ein Mindestmaß an Information Governance", sagt Andrew White, ein Analyst bei der Gartner Group, "wird aus dem See schließlich nur eine Ansammlung von unverbundenen Datenteichen oder Informationssilos, die sich zufällig am gleichen Ort befinden." Seine Sorge bezieht sich zudem auf mangelnde Schutzmechanismen und Zugangskontrolle für sensible Daten, mangelnde Datenqualität, fehlende Metadaten (beschreibende Daten) und last but not least Performance. "Werkzeuge und Schnittstellen können mit einem riesigen Datenozean nicht genauso performant umgehen wie mit einer zweck-optimierten und dedizierten Dateninfrastruktur."

Data Lakes sind also erst der Anfang und nicht der Schluss einer Entwicklung, die mit Hadoop begonnen hat. Aber ihre rasche Verbeitung, etwa unter Clouderas Bezeichnung "Enterprise Data Hub", dürfte unausweichlich sein.

(ID:43127935)