Kommentar von Martin Zlaty, Datavard Big Data rückt Datenmanagement wieder in den Fokus

Autor / Redakteur: Martin Zlaty / Nico Litzel

Die aktuellen Trends Big Data und ln-memory Computing rücken die Bedeutung des Data Warehouses wieder in den Vordergrund. Im Hinblick auf beständig wachsende Datenmengen ist ein intelligentes Datenmanagement mehr denn je essenziell. Neue Technologien wie Nearline Storage eröffnen hierbei neue Möglichkeiten.

Firmen zum Thema

Die Prognose für die nächsten Jahre zeigt einen steigenden Bedarf an regelmäßiger Datenbereinigung durch wachsende Datenmengen (Werte in GByte).
Die Prognose für die nächsten Jahre zeigt einen steigenden Bedarf an regelmäßiger Datenbereinigung durch wachsende Datenmengen (Werte in GByte).
(Bild: Datavard)

Der Begriff Big Data ist in aller Munde, ist aber auf das Business Warehouse vieler Unternehmen so nicht anwendbar. Ein Business Warehouse verdient streng genommen erst bei einer Systemgröße von über 50 Terabyte das Prädikat Big Data.

Entscheidend ist jedoch nicht die absolute Größe, sondern das relative Datenwachstum. „Wenn ein System in einem Jahr mehr als 30 Prozent wächst, dann ist das groß und das Management dieses Systems sollte überdacht werden, damit Kosten und Performance nicht aus dem Ruder laufen“, erläutert Gregor Stöckler, Geschäftsführer des Software- und Beratungsunternehmen Datavard.

Herausforderung Datenwachstum

Doch was sind die Ursachen für das enorme Datenwachstum? Die Gründe für immer größer werdende Data Warehouses sind vielfältig. Einerseits steigt das zugrunde liegende operative Datenvolumen durch vermehrte Geschäftstransaktionen und durch den Aufbau neuer nationaler und internationaler Standorte.

Zusätzlich steigen die Anforderungen der Benutzer nach mehr Daten mit immer detaillierterer Granularität. Und auch der Nutzungsumfang durch neue Anwendungsfälle und Applikationen wächst. Hinzukommt, die Sicherstellung der Hochverfügbarkeit der Daten, die viel Speicherkapazität verschlingt. Bedingt durch Spiegelung, Hochverfügbarkeit, Umsysteme und Backups benötigen beispielsweise ein Terabyte strukturierte Daten zehn bis zwanzigmal so viel Speicherplatz.

Andererseits spielen auch rechtliche Gründe und Regularien wie beispielsweise der Sarbanes-Oxley Acts für börsennotierte Unternehmen oder die Data Retention Directive der Europäischen Union eine signifikante Rolle. Diese machen ein cleveres Datenmanagement nötig, das granulare Daten für eine lange Historie speichert, auf deren Basis schnell neue Applikationen zur Berücksichtigung neuer Geschäftsanforderungen bereitgestellt werden können.

„Das beschleunigte Datenwachstum ist eine Herausforderung für die Verwaltung des Systems, die verfügbaren Zeitfenster für Ladeprozesse und die performanten Auswertungen. Datenwachstum ist darüber hinaus der Hauptgrund für Leistungsverlust und steigende Betriebskosten“, beschreibt Michael Hahne, Geschäftsführender Gesellschafter von Hahne Consulting die Problematik.

Wie das Kuchendiagramm in der Bildergalerie veranschaulicht, sind nicht alle Daten wertvolle Daten, die aktiv im System vorgehalten werden müssen. Eine Analyse (BW Fitness Test) in über 200 Kundensystemen zeigt, dass produktiv genutzte und berichtsfertige Daten in Infocubes nur rund sieben bis elf Prozent der Systemgröße ausmachen. Der Rest sind Stammdaten (vier bis zehn Prozent), temporäre Daten (20 bis 31 Prozent), Daten in DSOs (30 bis 48 Prozent) und Daten in Cubes, die älter als zwei Jahre sind (drei bis sieben Prozent).

Mit zunehmendem Datenvolumen nimmt der Anteil der aktiv genutzten Daten rapide ab. Gerade ältere historische (kalte) Daten werden oftmals nur noch für eventuelle Prüfungen vorgehalten. Sie werden jedoch weiterhin in gleicher Weise wie die aktiv genutzten (warmen und heißen) Daten verwaltet. Das heißt, ein Terabyte aktiv genutzter Daten verursacht die gleichen Kosten wie ein Terabyte unregelmäßig genutzter oder sogar ungenutzter temporärer Daten. Diese überflüssigen Daten verursachen jedoch nicht nur hohe Betriebskosten, sie stehen zudem einer optimalen Performance des Systems im Weg. Die Folge sind oftmals Verzögerungen in den täglichen Auswertungen, die wichtige Entscheidungen blockieren können. Im cleveren Datenmanagement liegt daher enormes Potenzial.

Information Lifecycle Management räumt Datendschungel auf

Um dieses Potenzial zu realisieren, sollten Unternehmen eine Strategie entwickeln, die sowohl effektiv als auch zielgerichtet ist. Sie muss aufräumen, die Daten richtig klassifizieren, den Wert der Daten richtig erkennen und in Einklang mit den verursachten direkten und indirekten Kosten bringen.

Mithilfe eines durchdachten Information Lifecycle Management können eine Reihe wichtige und wohltuende Effekte erzielt werden. Durch Reduktion der Systemgröße und Verlangsamung des Datenwachstums lassen sich beispielsweise eine direkte und indirekte Kostenersparnis erzielen.

Darüber hinaus wird die Leistungsfähigkeit des Systems gesteigert und die Systemadministration erleichtert. Die effektivere Verwaltung hat nicht zuletzt direkte und indirekte Kosteneinsparungen beim Betrieb von Business Warehouse, Accelerator oder SAP HANA zur Folge. Ein Argument, das im Zuge steigender Infrastrukturkosten an Bedeutung gewinnt. Erfolgskritisch ist neben einem intelligenten Information Lifecycle Management schließlich auch die sinnvolle Speicherung beziehungsweise Archivierung der Daten gemäß ihrer Nutzung und Aussagekraft.

Für ein Data Warehouse gibt es im Hinblick auf das physische Speichermanagement mehrere Möglichkeiten. Neben der normalen Speicherung (online) können die Daten klassisch in einem festen Speichermedium archiviert werden (offline). Es gibt aber auch noch eine Zwischenform, die Nearline-Speicherung (NLS). Sie zeichnet sich durch zwei wesentliche Eigenschaften aus: Zum einen können die Daten mithilfe effizienter Komprimierungstechniken und dedizierter Systemlösungen besonders kostengünstig vorgehalten werden.

Zum anderen, und das ist für Analyse und Reporting von Bedeutung, haben die Benutzer durch die Integration der NLS-Schnittstelle in die OLAP-Engine weiterhin darauf Zugriff. Die Daten können daher in einem ihrem Alter und ihrer Stellung im Informationslebenszyklus entsprechenden optimalen Speichermedium abgelegt werden und damit die unterschiedlichen Anforderungen an deren Service Level Agreements (SLAs) adressieren.

NLS empfiehlt sich vor allem für Daten aus Infocubes und DataStore Objects (DSOs

Nearline-Speicherung für Daten aus Infocubes und DSOs

Gerade für die Verwaltung großer Datenmengen mit den dabei auftretenden besonderen Anforderungen an Performance und Skalierbarkeit gibt es Konzepte, die für die unterschiedlichen Speicherstrategien große Verbesserungspotenziale versprechen. Um die Komplexität der Verfahren für Hochverfügbarkeit, Betrieb und die Erstellung von Systemkopien zu reduzieren, hat sich die Nutzung eines Nearline-Repositories innerhalb des Business Warehouse-Systems bewährt. Dabei erfolgt die komprimierte Ablage der NLS-Daten in spezifischen komprimierten Speicherbereichen der BW-Datenbank.

Im Zuge der Big-Data-Diskussion sind darüber hinaus Technologien wie SAP IQ und Hadoop zukunftsträchtig, da sie große Datenvolumina effizient managen und diese mit sehr guter Performance bereitstellen können. Die klassische Datenarchivierung hingegen bietet eine kostengünstige Lösung für sehr alte Daten, Daten aus der Akquisitionsschicht und einige temporäre Daten. Durch das hohe Kosten-Nutzen-Verhältnis bietet es sich an, temporäre Daten nur kurz aufzubewahren und regelmäßig zu löschen.

Fazit

Nicht erst seit dem Aufkommen des Big-Data-Begriffs sind schnell lesende und schreibende Zugriffe auf den Datenbestand, Flexibilität und kostenoptimales Datenmanagement für Unternehmen erfolgskritisch. Mit einem umfassenden Konzept für ein Business Warehouse-Datenmanagement können versteckte Potenziale aufgedeckt und genutzt werden.

Ausgangspunkt ist die Analyse des Lebenszyklus‘ von Informationen. Darauf aufbauend können Speicheroptimierungsmöglichkeiten wie Nearline-Storage (NLS) das Datenvolumen deutlich verringern und gleichzeitig den Zugriff auf archivierte Daten erleichtern. Die aktuellen Herausforderungen rasant wachsender Datenmengen, langsamerer Zugriffszeiten und unnötig hohen administrativen Aufwands in Data-Warehouse-Umgebungen lassen sich damit besser als durch traditionelle Herangehensweisen lösen.

(ID:42992690)