Das Hybridmodell – eine zukunftsorientierte Lösung für BI?

Kommentar von Wahid Bayat, Adesso Das Hybridmodell – eine zukunftsorientierte Lösung für BI?

06.07.2016Autor / Redakteur: Wahid Bayat / Nico Litzel

Der Bedarf an neuen Zugriffsmethoden auf Daten, die auf Grundlage von Standard-Datenhalden wie relationalen Datenbanken nicht länger realisierbar sind, wächst. Dieser Artikel beschreibt die Grundlagen und Einsatzmöglichkeiten sogenannter Hybridmodelle, die als Kombination aus mehreren Datenbanktechnologien deren Vorteile vereinen.

Anbieter zum Thema

Disy Informationssysteme GmbH

QUNIS GmbH

Fivetran Germany GmbH

Hybrid-Datenbanken basieren auf dem ACID-Prinzip wie nahezu alle gängigen relationalen Datenbanken – Beispiel IBM TM1, eine der Vorreiter der In-Memory-Datenbanken. Nach der Behebung anfänglicher Einschränkungen auf der Hardware-Ebene (Mehrkern-CPU, Caches, RAM) wurden die Software-Anpassungen (zeitlich-räumliche Skalierbarkeit) zum Erreichen der im Konzept vorgesehenen Performance durchgeführt, welche dann die signifikanten Unterschiede zwischen Standard- und Hybrid-Datenbanken hervorheben konnten. Nachfolgend eine kurze Beschreibung der Unterschiede:

Die Daten auf Festplatte werden zeilen-/spaltenorientiert verwaltet, das ist die Aufgabe von sogenannten Relational Database Management Systems (RDBMS). Die konventionellen (relationalen) Datenbanken arbeiten größtenteils zeilenweise. Die zeilenorientierte Datenhaltung erlaubt einen schnellen Schreibzugriff, während das Lesen der Daten, insbesondere bei Big-Data-Anwendungen, länger dauert, da beispielsweise auf der Suche nach einem bestimmten Namen „gesprungen“ werden muss. Dieser Vorgang verzögert die Suche und verringert somit die Performance.

Der spaltenorientierte Zugriff ist hingegen deutlich schneller beim Lesen der Daten, insbesondere bei der Realisierung von Realtime-Lösungen, aber auch beim Zugriff auf OLAP-Systeme, die von der In-Memory-Technologie profitieren. Die Spaltenorganisation hat zudem den Vorteil, dass sich die so abgelegten Daten stark komprimieren lassen.

Aufgrund enorm wachsender Datenvolumina in den Unternehmen wächst auch der Bedarf an performanten Lösungen, welche die technischen Anforderungen insbesondere an analytische Methoden wie Business Intelligence erfüllen und somit die erforderliche Performance gewährleisten müssen. Exemplarisch beschreiben die nachfolgenden Abbildungen schematisch die Darstellung von Hybrid-Datenbanken und deren Architektur:

1. Oracle TimesTen

2. Google F1 für AdWords Business

Abb. 2: Google-F1-Hybrid-Datenbank
(Bild: Google)

3. SAP HANA

Wertstellung von Hybrid-Datenbanken

Der Begriff „Hybrid-Datenbank“ mag auf den ersten Blick nicht ganz einleuchtend sein. Dabei ist der Unterschied einer Hybrid-Datenbank zu einer relationalen Datenbank klar. Hybrid-Datenbanken vereinen verschiedene Techniken der Appliance (Hard- und Software). Hierbei wird ein „Hybrid“ softwareseitig aus In-Memory-Datenbanken eingesetzt, welches verschiedene Datenbanktechnologien wie zeilenbasiert, spaltenbasiert und objektbasiert miteinander kombinieren kann.

Darüber hinaus ersetzen Arbeitsspeicher und CPU-Caches den Festplattenspeicher zum Erreichen schnellerer Zugriffszeiten. Diese Technologie erhöht die Leistungsfähigkeit von Datenbanken bei der Ausführung der Rechenaufgaben. Das belegen zum Beispiel die Angaben der Hersteller wie SAP (SAP HANA) mit einer Performance-Steigerung um das 10.000-Fache, IBM DB2 durch BLU Acceleration um den Faktor 25 bis 45, Oracle TimesTen um das n-fache usw.

Insbesondere für das Informationsmanagement und für die Informationsverteilung von Massendaten spielt diese charakteristische Eigenschaft der Hybrid-Datenbank im Vergleich zur Plattenspeicherung eine signifikante Rolle, da sie die Performance bei zum Beispiel mobilen Endgeräten deutlich erhöht. Nachstehend eine Gegenüberstellung von (objektbasierten) Hybrid- und relationalen Datenbanken:

Hybrid-Datenbanken (bspw. objektbasierte)

Bessere Darstellung komplexer Objektstrukturen,

Performance,

Skalierbarkeit,

Methoden,

SQL- und NoSQL-basiert sowie eine

einfachere Programmieranbindung.

Relationale Datenbanken

Relationale Algebra,

Tabellenform,

SQL-basiert und eine

breite Nutzerbasis.

Einsatzgebiete von Hybrid-Datenbanken

Die Hybrid-In-Memory-Technologien wie SAP HANA, Google F1, Hadoop, Xerox Parc, Apple und einige andere sind sowohl im Zusammenhang mit ihrer Architektur als auch im Rahmen ihrer Nutzung in der Cloud-Technologie zur Bewältigung der zu verarbeitenden Massendaten bekannt. Das wesentliche Hauptmerkmal von Hybrid-Datenbanken ist ihr systematischer Aufbau als In-Memory-Plattform, welche die Daten, im Vergleich zu den üblichen Datenbanken, vollständig im Arbeitsspeicher behält, anstatt sie von der Festplatte in den Arbeitsspeicher zu kopieren. Dabei werden sowohl die transaktionalen als auch die analytischen Abläufe mit Unterstützung von Hardware nahezu in Echtzeit durchgeführt – ungeachtet der Datenmengen.

Verhalten der Hybrid-Datenbank bei teilweiser „Nicht-Persistierung“:

Da Hybrid-Datenbanken auf In-Memory-Technologie setzen und somit ihre Daten in einem flüchtigen Arbeitsspeicher ablegen, kann ein möglicher Systemabsturz zum Datenverlust führen, der die Anforderung der dauerhaften Persistierung erfolgreich abgeschlossener Transaktionen nicht ohne weiteres erfüllt. Zum Vermeiden dieses Engpasses wurden Methoden wie parallel geführter „nichtflüchtiger RAM-Speicher“ (z. B. DRAM), „Schreiben von zusätzlichen Protokolldateien“ (um den letzten stabilen Zustand einer Datenbank wieder herzustellen) unter der Prämisse von Hochverfügbarkeitskriterien wie Replikation (Dauerhaftigkeit) und Failover (Wechselmodus auf eine herkömmliche Datenbank) entwickelt, um eine dauerhafte Datenhaltung zu garantieren.

Besonderheit von Hybrid-Datenbanken

Die Hybrid-Datenbank (auch hybrides Datenlayout genannt) basiert auf einer vertikalen Partitionierung der Datenbanktabellen. Anders als bei der spaltenorientierten Datenorganisation werden jedoch nicht die kompletten Datenbanktabellen spaltenweise zerlegt, sondern lediglich einzelne Spalten (Attribute) aus den Datenbanktabellen gelöst und als zusammenhängende Einheiten gespeichert. Die restlichen Attribute werden dagegen wie bei der zeilenorientierten Datenorganisation segmentweise (Tupel) auf dem Datenspeicher abgelegt. Das hybride Datenlayout soll einen Kompromiss zwischen transaktionalen und analytischen Abfragen schaffen.

Allerdings stellt sich die Frage, welche Attribute spaltenorientiert gespeichert werden sollen, als eine neue Herausforderung dar. Diese Entscheidung kann mitunter auch erst während des operativen Einsatzes einer In-Memory-Datenbank getroffen werden, wenn Statistiken über die Nutzung der einzelnen Datenbanktabellen vorliegen. Allerdings ist dann eine aufwendige Neuorganisation der bereits gespeicherten Daten erforderlich.

Vorteile von Hybrid-Datenbanken vs. relationalen Datenbanken

Die Vorteile von Hybrid-Datenbanken sind von ihrem funktionalen Einsatz abhängig. Die Entwicklungslogik von Hybrid-Datenbanken lehnt sich stark an die Verschmelzung von objektbasierten, spaltenbasierten und zeilenbasierten Datenbanktechnologien an. Die spaltenorientierte Datenbank-Technologie wird künftig in die Bereiche Data Warehousing, Big Data und Data Analytics verstärkt Einzug nehmen und existierende operative Datenbanken ergänzen.

Fazit

Die Hybrid-Datenbank kombiniert In-Memory- und relationale Datenbanktechnologie. Diese befähigen OLTP und OLAP dazu, einen schnellen Zugriff auf Quelldaten zu gewährleisten, einerseits mithilfe von leistungsfähiger Hardware und andererseits mit softwarebasierten Lösungen. Somit verkürzt eine Hybrid-Datenbank die Latenzzeit bei der Extraktion, der Transformation und dem Ladevorgang im Voll- bzw. Delta-Modus. Da Massendaten für analytische Zwecke gemäß einem ETL-Prozess im Arbeitsspeicher gehalten werden, lassen sich Zielobjekte wie Pivot-Tabellen oder Grafiken direkt in den Berichten in Echtzeit mit angereicherten Daten befüllen und ungeachtet vom Umfang der Datenvolumina bereitstellen.

Ergänzendes zum Thema

Der Autor:

Wahid Bayat ist Senior-Berater im Bereich Business Intelligence und Data Warehouse. Er ist seit über 14 Jahren im IT-Umfeld als Software-Engineer, System-Architekt, Analyst und Prozessberater tätig. Dabei konzentriert er sich vor allem auf die Software-Entwicklung in heterogenen IT-Landschaften.

Das ist aber nur der technische Aspekt dieses Konzeptes. Große Unternehmen haben zwar bereits in großem Maßstab mit der Einführung von Hybrid-Datenbanken begonnen. Solche Projekte brauchen jedoch Zeit. Denn die meisten Unternehmen möchten die Möglichkeiten durch die Einführung solch einer komplexen Technologie nutzen, um parallel ihre kundenspezifischen Erweiterungen auf den Prüfstand zu stellen, mit dem Ziel, künftig die Wartungskosten zu verringern und Geschäftsprozesse zu optimieren.

(ID:44111233)