Big Data und Virtual Data Warehouse Das Virtual Data Warehouse verhilft zur schnelleren digitalen Transformation

Autor / Redakteur: Michael Matzer / Nico Litzel |

Das traditionelle Data Warehouse ist auf die Verarbeitung strukturierter Daten ausgelegt, welche es effizient und performant erledigt. Doch Big Data besteht aus unstrukturierten Daten, Datenströmen, die in großen Mengen und mit hoher Geschwindigkeit eintreffen. Um Leistung und Effizienz zu erhalten, aber Flexibilität hinzuzugewinnen, bietet das Virtual Data Warehouse eine vielversprechende Alternative.

Anbieter zum Thema

Position der Datenvirtualisierungsschicht in der Enterprise-Architektur.
Position der Datenvirtualisierungsschicht in der Enterprise-Architektur.
(Bild: Forrester 2015)

Innerhalb einer traditionellen BI-Architektur spielt das Data Warehouse bislang eine zentrale Rolle, wenn die Aufgabe im Vordergrund steht, eine 360-Grad-Sicht auf den Kunden sowie eine konsolidierte Datenhaltung mit ausgeprägten ETL-Datenprozessen zur Verfügung zu stellen. Seit 2014 findet die Vorstellung des Virtual oder Logical Data Warehouse (VDW, LDW) zunehmend Anhänger und Nutzer.

Die moderne, bimodale IT- und BI-Architektur, wie sie vor allem die Gartner Group beschreibt, erlaubt die Realisierung von Entitäten traditioneller BI wie etwa Reports oder Dashboards wie auch die Integration von Kombinationen aus BI-Anwendungen mit Big Data Analytics, wie sie etwa in Data Mining, Text Mining oder Machine Learning vorzufinden sind.

Bildergalerie
Bildergalerie mit 12 Bildern

Dadurch sind bestimmte Fachbereiche des Unternehmens in der Lage, sowohl historische Daten etwa aus einem Hadoop-Cluster oder Data Warehouse, als auch Echtzeitdaten aus Sensorik, Cloud, Mobile oder Fertigung miteinander zu integrieren und einer zeitnahen oder gründlichen Analyse zuzuführen. Diese Analyse lässt sich unter Einsatz von Machine Learning beschleunigen und individuell anpassen.

Abstraktion von Datenquellen

Den Kern eines virtuellen oder logischen Data Warehouses bildet die Virtualisierung respektive Abstraktion von Datenquellen auf einer entsprechenden Server-Plattform (nicht zuletzt auch in der Cloud). Die Virtualisierung von Datenquellen abstrahiert die zahlreichen, unterschiedlichen und meist verteilten Datenquellen durch eine integrierende Schicht von semantischen Metadaten und Logik.

Auf diese semantische Schicht, die in einem Repository abgelegt ist, beziehen sich künftig alle Anwendungen und Services als gemeinsamen Nenner. Die Datenvirtualisierungsplattform stellt verschiedenen Nutzern Metadaten und den Zugriff auf jegliche Datenquellen bereit, orchestriert diese Zugriffe und optimiert gleichzeitig die Performance der Abfragen und sonstigen Operationen auf den virtualisierten Datenbeständen.

Das Virtual oder Logical Data Warehouse dient der Self-Service BI, der Erstellung von Daten-Services für Applikationen zur Umsetzung datengetriebener Lösungen, aber auch von abgesicherten Sandboxes, wie sie etwa Entwickler benötigen. Durch die Virtualisierung der Datenquellen lassen sich nach Ansicht der Experten von Forrester, Gartner und anderen in wirtschaftlicher Hinsicht zahlreiche Vorteile erzielen. Agile Anwendungsentwicklung für Big Data Analytics und Business Analytics ist gleichermaßen möglich. So lässt sich auch die digitale Transformation im Hinblick auf IoT und ML auf den Weg bringen.

Es dürfte nicht verwundern, dass jeder Anbieter von BI-Technologie seine jeweils eigene Variante des Virtuellen Data Warehouse hat. Meist wird es überhaupt nicht so genannt, sondern unter ganz anderen Aspekten vermarktet. IBM nennt die zentrale Technik „Federation“, Informatica stellt seine Integrationsfunktionen im Produkt PowerCenter ins Zentrum, doch vor allem Denodo Technologies hat eine klare Vorstellung von einem VDW vermarktet. Die drei Varianten haben jedoch mehrere Komponenten gemeinsam: Entkopplung und Abstraktion, eine semantische Schicht, Datentransfer und Security. Ein nicht repräsentativer Vergleich soll diese Aspekte beleuchten.

IBM InfoSphere Federation Server v10.5

Der Federation Server weist zahlreiche Merkmale eines VDW auf. Auf Basis der relationalen Datenbank DB2 verarbeitet der Server die Abfragesprache SQL. Daher können BI-Nutzer von DB2 aus verteilte SQL-Skripte in die Quellsysteme verschicken, etwa Microsoft SQL Server oder Oracle. Diese Push-down-Skripte können Selektionen, etwa um ausgewählte Zeiträume miteinander zu vergleichen, und Joins enthalten. Joins koppeln Tabellen und Datensätze, ja, sogar einzelne Felder miteinander und führen darauf eine Operation aus. Die Joins werden im Federation Server von der DB2-Datenbank-Funktionalität übernommen, die auch den Query Optimizer umfasst, der für die Performance einer SQL-Abfrage in den Quellsystemen von hoher Bedeutung ist.

Nun ergibt sich der Sinn der Entkopplung: Die zu den jeweiligen Datenquellen geschickten Teil-SQL-Statements liefern lediglich die benötigten Selektionsdaten zurück, nicht aber komplette Tabellen. Mit dem eng verwandten Produkt Big SQL kann man auf Hadoop etc. zugreifen, etwa um einen Data Lake in Hadoop mit SQL, das auch Spark SQL beinhalten kann, abzufragen. Auf diese Weise braucht kein BI-Nutzer mehr große Datenquellen zusammenzuführen.

Zumindest theoretisch, denn der IBM-Experte Harald Gröger berichtet: „Bei einem großen deutschen Industrieunternehmen wird ein Data Lake auf Basis Hadoop mit Kopien von SAP Daten betrieben, um SAP-Daten ohne Zusatzlast auf den SAP-Systemen analysieren zu können.“ Dass dabei doppelte Storage-Kapazität, erhöhte Netzwerkbelastung und doppelte Wartungsarbeit anfällt, nimmt das Unternehmen in Kauf. Andere Firmen wollen genau dies durch das VDW vermeiden.

Big SQL

Mit Big SQL, einem mit Federation Server eng verwandten Produkt, ist die SQL-basierte Analyse von Hadoop-, Hive- und Spark-Daten in einem Data Lake usw. realisierbar. „Will man etwa Echtzeitdaten aus Wetter-Servern oder Social Media einbinden, könnten diese im JSON-Format in Hadoop gespeichert und dann für Big SQL zugreifbar gemacht werden“, erläutert Gröger. Die Performance lässt sich durch Caching bzw. Buffering in DB2 erhöhen. Kritisch sind laut Gröger die Updates dieses Speicherpuffers, etwa wenn es um Echtzeitdaten geht.

Was nun die Entwicklungsarbeit und BI-Abfrage stark vereinfacht, sind die Views. Diese Sichten basieren auf den Metadaten, die im DB2 Catalog verwaltet werden. Ändern sich die Basisdaten, ändern sich auch die Daten, die eine Sicht anzeigt. Folglich sind Views stets aktuell. Ihre Inhalte kann jeder BI-Nutzer nach seinen Wünschen – etwa für Dashboards – nutzen.“ Views werden indes von den DB-Admins definiert und können nicht von BI-Nutzern geändert werden. Sollen weitere Apps erstellt werden, stellt der IBM Information Services Director, ein Bestandteil von IBM InfoSphere Information Server, entsprechende APIs bereit. Dieses Produkt erlaubt die Kapselung von Federation, ETL-Prozesse und die Datenqualitätsbereinigung als Web Services.

Security und Datenschutz

Ab Mai 2018 wird durch die Europäische Datengrundschutzverordnung (DSGVO alias GDPR) die technische Fähigkeit zu Löschung von Nutzerdaten bei jedem Unternehmen Pflicht, das Kundendaten verarbeitet. Also muss auch ein VDW selektiv Daten löschen bzw. verbergen können. Dies lässt sich mit der Federation Server Security realisieren, etwa durch die Einschränkung der Sichtbarkeit von (Teil-) Daten in Tabellen mithilfe von Label Based Access Control. „Über Benutzerrechte lässt sich der Datenzugriff sowohl im Federation Server als auch in BigSQL für Hadoop-Daten feingranular einschränken“, so Gröger.

Das selektive Löschen von Daten dürfte mit SQL wohl kein Problem sein, aber wie sieht es etwa mit Verschlüsselung von Kundendaten aus? Harald Gröger versichert, dass über Big SQL auch die Hadoop Transparent Data Encryption unterstützt wird.“

Denodo Platform v6.0

Der Softwarehersteller Denodo Technologies wurde bereits 2002 gegründet, die aktuelle Version 6.0 seiner VDW-Plattform wurde im März 2016 veröffentlicht. Die VDW-Plattform erschließt dem BI- und Enterprise-Architekten eine breite Palette von Datenquellen und -formaten, wobei sie zahlreiche Programmiersprachen und Programmierschnittstellen (APIs) unterstützt.

Das erweiterte relationale Datenmodell, das intern unterstützt wird, soll es erlauben, auch nicht-relationale Datenstrukturen auf effiziente Weise zu verarbeiten. Die Konnektivität dieses Servers erstreckt sich daher auch auf Big-Data-Quellen wie Amazon Redshift, Cloudera Impala und Apache Spark.

Die Plattform unterstützt komplexe Datentypen wie etwa XML, JSON, Key-Value-Pairs und sogar SAP-BAPIs (Business Application Programming Interfaces), im Datenmodell selbst sowie in der Bereitstellung von Webservices. Denodo reklamiert für sich, damit das breiteste Angebot an Konnektoren und Publishing-Methoden am Markt zu bieten. Zudem lässt sich Denodo 6.0 auch auf Amazon AWS in der Cloud nutzen, ähnlich wie die Produkte von IBM.

Bei der Optimierung von Queries hinsichtlich Kosten und Performance arbeitet der dynamische Query Optimizer auch kostenbasiert. Mithilfe von statistischen Methoden berechnet der Optimizer den kostengünstigsten und performantesten Ausführungsplan für die jeweilige Abfrage. Dabei bezieht der Optimizer spezielle Charakteristika von Big Data ein, wozu unter anderem Anzahl von Verarbeitungseinheiten (Prozessoren) und Partitionen auf Speichergeräten gehören. Während er eine beliebige Anzahl von inkrementellen Abfragen handhaben kann, lässt sich dieses Workload-Management mit einem spezifischen Workload Manager noch verfeinern.

Das VDW, das sich damit erstellen und betreiben lässt, unterstützt Data Scientists und Admins dabei, logische und semantische Business Views zu generieren, zum Beispiel im Zuge von Data Discovery und Data Profiling. Unter dem Aspekt der Datensicherung bietet das VDW zudem Schutzmechanismen für Autorisierung und Authentifizierung. Die Belange von Compliance (siehe DSGVO) und Governance sind ebenfalls berücksichtigt.

Informatica PowerCenter & Intelligent Data Platform

Informatica bietet weltweit über 7.000 Kunden eine erprobte, stabile Integrationsplattform an: die Informatica Intelligent Data Platform. Durch Universalzugriffstechnologie kann damit nahezu jeder Datentyp verarbeitet und durch ETL-Prozesse an die Wünsche des Nutzers angepasst werden. Der Zugriff ist durch native APIs performant und die Datenmenge fast beliebig skalierbar.

„Die Technologie bietet auch Funktionalität zur Virtualisierung von Datenquellen, kann aber auch mit externen virtuellen Datenquellen arbeiten“, erläutert Frank Waldenburger, Director Sales Consulting bei Informatica Central EMEA. „In Richtung der Datenverbraucher gibt es darüber hinaus den sogenannten Data Integration Hub (DIH). Diese Technologie arbeitet nach dem Publish & Subscribe-Prinzip und kann Daten als eine Art Abonnement aus allen angeschlossenen Datenlieferanten aufbereiten und bereitstellen.“ Das bedeute das Ende der Punkt-zu-Punkt-Verbindungen der traditionellen Datenintegration durch Entkoppelung, so der Hersteller. Das ist genau der Sinn der Datenvirtualisierung.

Durch die nativen APIs lassen sich Abfrage- und ETL-Funktionen direkt auf Hadoop ausführen, sodass auf Wunsch nur die Resultate dieser Operationen geliefert werden. „Generell“, so Waldenburger, „besteht immer die Möglichkeit, die für die Extraktion aus Datenbankobjekten generierten SQL-Statements anzupassen, also auch hinsichtlich der Performance zu optimieren.“

Die Version Big Data Integration Hub unterstützt Hadoop-Repositorys wie etwa von Cloudera oder Hortonworks. Der Hub abstrahiert die Komplexität des Speicherns und Verwaltens roher und bearbeiteter Datenmengen in einem Hadoop-Data-Lake oder -Hub. Das DIH indiziert alle in Spark, Hadoop oder Hive gespeicherten Daten, um so die Daten zugänglich und für Analysewerkzeuge und andere Apps abfragbar zu machen.

Zur Nutzung großer Datenmengen auf Hadoop, Hive, Cloudera und weiteren stellt Informatica neben dem DIH auch den Enterprise Information Catalog (EIC) bereit. Der Katalog erlaubt die Erfassung sämtlicher Datentypen im Unternehmen, die semantische Suche und das Entdecken der Abstammung und Beziehungen der Informationen. Datenbestände lassen sich mit Geschäftskontext anreichern und sogar mit Crowdsourcing-Tags versehen. Der EIC ist auf Big-Data-Bereitstellungen etwa in Hadoop-Clustern ausgelegt. Die parallele Metadatenaufnahme und die schnelle verteilte Indexierung ermöglichen eine zeitnahe Aktualisierung der Kataloginhalte und eine gesteigerte Such-Performance, so der Hersteller.

Resümee

Umfangreiche Datenübertragungen, um Analysen auszuführen, sollten heute der Vergangenheit angehören: Die Daten bleiben idealerweise in den Quellsystemen, wo entsprechende Skripte die nötigen Selektionen, Transformationen usw. erledigen, statt in einem Data Lake unbehandelt abgelegt zu werden.

Dass das Virtual Data Warehouse als Plattform für die Datenintegration, für Self-Service BI und moderne BI-Apps eine vielversprechende Zukunft hat, belegt die wachsende Zahl von Kunden, die es – unter dieser oder jener Bezeichnung – nutzen: Autodesk, Swiss Re, Electronics Arts, deutsche Industrieunternehmen.

Wie vielfältig die Ausprägungen (noch) sind, konnte hoffentlich diese kleine Auswahl belegen. Sie sollte zeigen, auf welche Funktion und Leistungsmerkmale der Interessent achten sollte, wenn er solch eine Lösung in Betracht zieht. Im Mittelpunkt der Überlegungen sollte die effiziente, kostengünstige und gesetzeskonforme Bewirtschaftung von Massendaten stehen.

(ID:44746120)