Hybride Datenhaltung in Datenbanken und in Hadoop Auch ein Enterprise Data Warehouse lässt sich optimieren

Autor / Redakteur: Davy Nys / Ulrike Ostler

Wer kennt das nicht? Vorhandene Implementierungen von Enterprise Data Warehouses (EDWs) kämpfen mit rasant wachsendem Datenvolumen. Das führt zu Leistungsproblemen und im schlimmsten Fall gefährdet es die Einhaltung von Qualitätsvereinbarungen.

Firmen zum Thema

Der Verfasser des Artikels: Davy Nys ist Vice President, zuständig für die Regionen Europa, Naher Osten und Afrika sowie Asien und dem Pazifischen Raum bei Pentaho.
Der Verfasser des Artikels: Davy Nys ist Vice President, zuständig für die Regionen Europa, Naher Osten und Afrika sowie Asien und dem Pazifischen Raum bei Pentaho.
(Bild: Pentaho)

Das Problem durch ein Hinzufügen zusätzlicher EDW-Kapazitäten anzugehen, ist für viele Unternehmen aufgrund der damit verbunden Kosten nicht immer eine Lösung. Besonders dann nicht, wenn der Datenzuwachs so enorm ist, das vorauszusehen ist, dass die zusätzlichen Kapazitäten in kürzester Zeit wieder an ihre Grenzen stoßen.

Das sind fünf untrügliche Anzeichen dafür, dass Unternehmen ihr Data Warehouse optimieren sollten.
Das sind fünf untrügliche Anzeichen dafür, dass Unternehmen ihr Data Warehouse optimieren sollten.
(Bild: Pentaho)

Dazu kommt, dass Datenspeicherkosten sind mit Hadoop im Vergleich zu einem Data Warehouse also geringer sind. Nach der Studie von Cloudera und Syncsort „How to Leverage Mainframe Data with Hadoop“ liegen die Kosten für ein Terabyte Speicher bei traditionellen EDWs zwischen 15.000 und 80.000 Dollar, während der Preis für die gleiche Kapazität bei Hadoop sich zwischen 250 bis 2.500 Dollar bewegt.

Daher verwundert es nicht, dass immer mehr Unternehmen, um den Druck auf die vorhandene Data Warehouse-Infrastruktur zu verringern und Datenkosten zu reduzieren, auf eine hybride Struktur setzen, bei der das traditionelle EDW durch Big Data Stores wie Hadoop optimiert werden. Diese Optimierungslösungen zielen darauf ab, den Druck von der vorhandenen Infrastruktur zu nehmen.

Ein zweistufiges Konzept

Zugleich lassen sich EDW-Kosten durch verminderten Bedarf an Data Warehouse-Infrastruktur reduzieren und Verwaltungskosten durch den Einsatz von Datenspeichern mit niedriger Latenz sparen. Hierfür werden weniger genutzte Daten nach Hadoop ausgelagert und die Leistung wird durch das Verschieben von Datentransformationen nach Hadoop erhöht.

Mithilfe von Hadoop lassen selbst vorhandene Data-Warehouse-Strukturen besser nutzen.
Mithilfe von Hadoop lassen selbst vorhandene Data-Warehouse-Strukturen besser nutzen.
(Bild: Pentaho)

Und so sieht die Optimierung des EDW auf architektonischen Ebene aus: Auf der einen Seite gibt es die traditionellen Datenquellen wie CRM-, ERP- oder andere Alt-Systeme, die via Extract Transform Load (ETL) Prozess ins das EDW geladen werden. Dabei stellt das EDW eine zuverlässige und gut durchdachte Produktionsumgebung dar, der als Datenquelle vertraut wird, auch weil die Anwendung von Datenqualität und Data Governance in diesem Umfeld die Regel ist.

Die Auslagerung von Daten aus dem EDW in ein Hadoop Cluster, gestaltet sich mit Hilfe moderner Datenintegrationswerkzeuge, die native Konnektivität für Hadoop und seine Distributionen bieten und die Orchestrierung des Prozesses visuell ähnlich wie in einer klassischen ETL-Umgebung darstellen einfacher als vielleicht von einer komplexen Technologie wie Hadoop erwartet wird.

Keine Einbahnstraßen

Hochentwickelte visuelle Integrationswerkzeuge erlauben zum Beispiel die Auslagerung der Daten nach Hadoop ohne Programmierung oder die Verwendung von Legacy-Skripts aber auch ohne von ETL-Produktbeschränkungen abhängig zu sein. Wichtig ist dabei, dass diese Integrationswerkzeuge einen bidirektionalen Zugriff ermöglichen, so dass auch Daten von Hadoop ins EDW geladen werden können. Dieses Szenario ist besonders deshalb interessant, weil Hadoop es ermöglicht, auch unstrukturierte oder andere neue Datentypen in Mengen aufzunehmen, die nicht oder nur schwierig in klassische relationale EDW abgelegt werden können, wie Webdaten, Maschinendaten oder Sensordaten.

Oftmals sind auch analytische Datenbanken Teil dieses neuen hybriden Systems. Diese abfrageorientierten Datenbanken sind für das schnelle Verarbeiten großer Datenmengen für analytische Anwendungen konzipiert.

So sieht das Ganze aus von der architektonischen Ebene aus.
So sieht das Ganze aus von der architektonischen Ebene aus.
(Bild: Pentaho)

Dazu ein Praxisbeispiel: Ein Unternehmen im Bereich Netzwerkspeicher lagert eine sehr große Menge an Geräteleistungsdaten in ein Hadoop-Cluster aus, um operative Engpässe zu vermeiden und die Servicelevel-Vereinbarungen zu erfüllen. Die Daten werden regulär in Hadoop eingespeist und verarbeitet und anschließend an RDMS und Data Marts verteilt.

Die Vorteile für das Unternehmen sind Einsparungen bei den Datenverwaltungs- und Speicherkosten, kostengünstige Datenskalierbarkeit und erhöhte Leistung bei der Erfüllung von Servicelevel.

Der Autor:

Davy Nys ist Vice President, zuständig für die Regionen Europa, Naher Osten und Afrika sowie Asien und dem Pazifischen Raum bei Pentaho.

(ID:42920356)