BigData Analytics: Datenintegration vs. Data Lakes Datenintegration oder Datenozean?
Anbieter zum Thema
Bislang werden große Datenmengen in Data Warehouses und DataMarts gespeichert. Doch seit wenigen Jahren befürworten führende Internet-, Analytics- und Datenbankanbieter das Konzept des "Data Lakes". Was es damit auf sich hat wird in folgendem Artikel erläutert.

Der Unterschied ist bedeutend: Denn bei diesen "Datenozean" fällt jede Art der Aufbereitung, Filterung und Zuordnung von Informationen weg. Der Nutzer hantiert also mit Rohdaten. Über die Vorteile streiten sich die Experten.
Der Sinn und Zweck von Datenbanken und Datenbankanwendungen im Business Intelligence-Bereich besteht bislang darin, bestimmte Fragen zu beantworten. Der Nutzer in einer Fachabteilung weiß bereits, was er fragen will, und er verfügt über die entsprechende Anwendung, um die Antwort aus dem "System" holen zu können. So etwa die Frage: "Wie hoch war im Vorjahr der Gesamtumsatz für Deutschland?"
Die Antworten liefert eine bestimmte transaktionale Datenbank, die in einem bestimmten Schema aufgebaut ist und deren Inhalte bereinigt und konsolidiert sind. Der Nutzer kann also mit hoher Zuversicht davon ausgehen, dass er eine Antwort geliefert bekommt, die belastbar, konsistent, widerspruchsfrei und aktuell ist, und das zudem in einem Format, das seine anderen Anwendungen, wie etwa Excel, reibungslos bearbeiten können.
Um all diese Qualitätsbedingungen erfüllen zu können, mussten die ETL-Systeme, die dem zentralen Data Warehouse vorgelagert sind, alle nötigen Datenquellen zusammenführen ("extract"), bereinigen bzw. transformieren ("transform") sowie in die Bereitstellungsebene der Datenbank laden ("load). Das ist ein komplexer Prozess, für dessen Entwurf und Pflege Spezialisten notwendig sind.
Will der Sachbearbeiter jedoch in rascher Folge weitere Fragen stellen, so stößt er mit seinem Analysewerkzeug bald an die Grenzen des Systems. Er möchte beispielsweise nur Kunden aus Bayern aus einer bestimmten Alters- oder Einkommensschicht herausfiltern. Diese Daten bekommt er aus dem CRM-System. Will er herausfinden, ob seine Anzeigenkampagnen diese Zielgruppe wirksam erreicht haben, so muss er die entsprechende Marketing- und Kampagnen-Software nutzen. Schon die nächste Frage, ob diese Käuferschicht auch Wiederholungskäufe getätigt hat, könnte das System ins Straucheln bringen - dafür sind GPS-Daten der Logistikunternehmen vonnöten. Hat der ETL-Experte vorausgesehen, dass diese Daten eines Tages gewünscht werden und sie entsprechend bereitgestellt? Die Wahrscheinlichkeit ist nicht besonders hoch.
Big Data in unterschiedlichsten Formaten
Es sind diese Einschränkungen durch vorgegebene Zwecke, Anwendungen und Systeme, die im Zeitalter der digitalisierten Wirtschaft nicht mehr mit den Anforderungen an Entscheidungshilfen Schritt halten. In der Digitalwirtschaft treffen Big Data in unterschiedlichem Format und mit verschiedener Größe, Geschwindigkeit und Zuverlässigkeit auf die empfangenden und speichernden Systeme eines Unternehmens. Dies erfolgt mit zunehmender Geschwindigkeit aus einer wachsenden Zahl von Datenquellen.
Statt nun alle Datenkategorien aufwändig zu filtern und in spezialisierten Systemen zu speichern, bietet das Konzept des Data Lakes auf den ersten Blick mehrere Vorteile:
- 1. Die empfangenen Rohdaten stehen nahezu in Echtzeit für die Verarbeitung, Weiterleitung und Analyse zur Verfügung, denn sie werden nicht erst gefiltert.
- 2. Es sind keine Spezialsysteme nötig, um sie zu speichern, sondern lediglich eine Distribution von Apache Hadoop mit seinen Begleitwerkzeugen.
- 3. Ein Hadoop-Cluster ist so skalierbar, dass er im Prinzip unendliche Mengen von Daten aufnehmen kann. Man braucht sich also nicht zu sorgen, es könnte einen Datenstau geben oder gar eine Blockade. Das Facebook-Beispiel belegt die Belastbarkeit im Petabyte-Bereich. Ob jedoch die Speicherkosten sinken werden, ist eine offene Frage.
- 4. Die Analyse dieses Datenozeans kann mit jedem beliebigen Werkzeug erfolgen, das Hadoop lesen kann, und zwar so flexibel, dass es keine Einschränkung hinsichtlich der FRAGEN gibt.
- 5. Ein Hadoop-Cluster lässt sich heute mit jedem DBMS integrieren, von IBM bis SAP Hana. Praktisch jeder Datenbankhersteller hat inzwischen eine Plattform as a Service im Angebot, die Big Data Analytics on-demand ermöglicht. Zu diesem Kreis gehören auch Anbieter wie Cloudera, Hortonworks und Pivotal .
(ID:43127935)