BigData Analytics: Datenintegration vs. Data Lakes

Datenintegration oder Datenozean?

Seite: 2/2

Firmen zum Thema

Datenzentrische Analysemethode

Mit anderen Worten: Erst das Data-Lake-Konzept erlaubt eine datenzentrische Analysemethode, wirklich freie Data Discovery und entsprechend flexible Lösungen aus unterschiedlichsten Anwendungen. "Die Daten werden nur einmal gespeichert, lassen sich aber auf mannigfaltige Weise zugreifen", erläutert Chris Twogood, ein Marketingleiter beim Datenbankanbieter Teradata. "Sie sind immer da in ihrer ursprünglichen Qualität, damit Nutzer auf sie zurückgreifen, sie bearbeiten, ändern und verfeinern können."

Single, verheiratet, geschieden, verwitwet ...

Es ist leicht zu verstehen, dass beispielsweise die Auswertung von Callcenter-Daten, Web-Logdaten, Cookies, Tweets, Bankomatendaten und mehr dazu beitragen kann, den gläsernen Bankkunden zu erzeugen. Dieses Profil ermöglicht den Bankmitarbeitern genaueres Risk Management und im günstigen Fall auch Betrugserkennung. Die Identität des Kunden wird mit seinen Statusdaten verknüpft, um einzuschätzen, ob sich sein privater Status verändert: Single, verheiratet, geschieden, verwitwet - alles hat Einfluss auf die Kampagnen, mit denen die Bank oder Versicherung ihnen "beglücken" möchte. Und die Anzahl der Empfangskanäle mit Kundendaten tendiert eher dazu, zuzunehmen statt weniger zu werden.

Aber: "Wir sehen nicht, dass Hadoop ein neues Data Warehouse wird oder umgekehrt", sagt Twogood. Wer also die "single version of the truth" sucht, ist wohl weiterhin gut beraten, ein umfassendes Data Warehouse mit entsprechenden ETL-und Analysewerkzeugen zu betreiben.

Denn folgende Probleme gehen mit Data Lakes einher:

  • 1. Das Anlegen von Indizes und Beziehungen zwischen Daten.
  • 2. Damit lassen sich die Daten beschleunigt durchsuchen und aufbereiten. Ist die Suchmaschine entsprechend leistungsfähig?
  • 3. Die Anwendung von Textanalyse und Data Mining usw. muss möglich sein, um unstrukturierte Daten (Blogs, Sensordaten, Wikis usw.) überhaupt verständlich zu machen.
  • 4. Gibt es eine Abfragesprache in natürlicher Sprache oder in Not-only SQL?
  • 5. Wie gut ist die Kompression der Rohdaten? Bei SAP Hana lassen sich angeblich sehr gute Verdichtungsraten erzielen. Das ist nötig, wenn man Daten in den Hauptspeicher laden und dort CPU-nah verarbeiten will.
  • 6. Mit welchen Mechanismen lassen sich die Rohdaten wirksam schützen? Da es sich häufig um personenbezogene Daten handelt, unterliegen sie - zumindest in Deutschland - strengen gesetzlichen Vorgaben.

"Ohne ein Mindestmaß an Information Governance", sagt Andrew White, ein Analyst bei der Gartner Group, "wird aus dem See schließlich nur eine Ansammlung von unverbundenen Datenteichen oder Informationssilos, die sich zufällig am gleichen Ort befinden." Seine Sorge bezieht sich zudem auf mangelnde Schutzmechanismen und Zugangskontrolle für sensible Daten, mangelnde Datenqualität, fehlende Metadaten (beschreibende Daten) und last but not least Performance. "Werkzeuge und Schnittstellen können mit einem riesigen Datenozean nicht genauso performant umgehen wie mit einer zweck-optimierten und dedizierten Dateninfrastruktur."

Data Lakes sind also erst der Anfang und nicht der Schluss einer Entwicklung, die mit Hadoop begonnen hat. Aber ihre rasche Verbeitung, etwa unter Clouderas Bezeichnung "Enterprise Data Hub", dürfte unausweichlich sein.

(ID:43127935)