Was ist Datenvirtualisierung?

Definition Was ist Datenvirtualisierung?

27.06.2019Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

Die Datenvirtualisierung ist ein Ansatz des Datenmanagements, der von der klassischen Datenaufbereitung abweicht. Daten lassen sich in Echtzeit abfragen und analysieren, ohne dass Information zu technischen Details oder physischen Speicherorten vorliegen. Die Daten werden zum Abfragezeitpunkt ohne Replikation aus verteilten Quellen bereitgestellt.

Anbieter zum Thema

Disy Informationssysteme GmbH

QUNIS GmbH

Fivetran Germany GmbH

Der Begriff der Datenvirtualisierung beschreibt einen im Bereich des Datenmanagements angesiedelten Ansatz der Datenbereitstellung und Datenintegration. Anwendern oder Applikationen werden zum Abfragezeitpunkt Daten aus unterschiedlichen Quellen bereitgestellt, ohne dass technische Details oder physische Speicherorte bekannt sein müssen.

Häufig findet das Konzept der Datenvirtualisierung im Bereich des Data Warehousings und der Business Intelligence Anwendung. Anstatt Daten klassisch zu extrahieren, zu transformieren und in einem Data Warehouse oder Data Lake gespeichert den Anwendungen zur Weiterverarbeitung oder Analyse bereitzustellen, findet die Extraktion und Transformation der Daten direkt zum Abfragezeitpunkt statt. Für die Anwendung verhält sich die Datenvirtualisierung wie ein Data Warehouse oder ein Data Lake, allerdings stammen die Daten in Echtzeit aus den eigentlichen Quellsystemen. Die Informationen werden in verschiedenen Formaten aus den verteilten Systemen integriert und müssen für die Speicherung in einem Data Warehouse nicht extra repliziert werden. Es entsteht eine virtualisierte Datenebene, auf die die weiteren Anwendungen direkten Zugriff haben.

Diese Vorgehensweise hat den Vorteil, dass sie im Vergleich zur klassischen Datenintegration wesentlich agiler ist und weniger Datenkopien notwendig sind. Der Speicherplatzbedarf sinkt und Systeme sind weniger stark ausgelastet. Um die Daten den Applikationen oder Anwendern in der gewünschten Form bereitzustellen, werden verschiedene Transformations- und Abstraktionstechniken angewandt.

Funktionsweise der Datenvirtualisierung

Datenvirtualisierung extrahiert und transformiert die benötigten Informationen aus den verteilten Quellen dynamisch in Echtzeit. Die Virtualisierung findet in mehreren Schritten statt. Zunächst sind die Verbindungen zu den jeweils benötigten strukturierten oder unstrukturierten Datenquellen über spezielle Konnektoren aufzubauen und die Daten der Virtualisierungsebene bereitzustellen. In einem nächsten Schritt werden die Daten abhängig von der benötigten Datenansicht und den vorhandenen Metadaten transformiert, kombiniert und integriert. Abschließend erfolgt die eigentliche Bereitstellung der Daten für die Applikation beispielsweise in eine im SQL-Schema oder in einer grafischen Form. Folgende Funktionen muss die Datenvirtualisierung ausführen:

Herstellung der Verbindung zu den verschiedenen verteilten Datenquellen und Speicherorten

Extraktion und Zusammenführung der Daten

Integration strukturierter und unstrukturierter Daten

Transformation der Daten in das gewünschte Format

dynamische Bereitstellung der Daten in der für den Anwender oder die Applikation benötigten Form

Vorteile durch den Einsatz der Datenvirtualisierung

Der Einsatz der Datenvirtualisierung bietet einem Unternehmen eine ganze Reihe von Vorteilen. Entstehen Anforderungen für neue BI-Auswertungen, sind nicht erst neue Tabellen im Data Warehouse anzulegen und Daten aus den verschiedenen Quellen zu integrieren, sondern die Anforderungen lassen sich sehr schnell direkt innerhalb der Datenvirtualisierung umsetzen. Die Datenvirtualisierung bietet für Anwendungen die gleichen Funktionen wie die klassische Datenintegration nur schneller, dynamischer und mit geringerem Ressourcen- und Kostenaufwand. Es entsteht eine hohe Flexibilität. Da Daten nicht mehr repliziert werden müssen, steigt ihre Qualität und Integrität. Kurz zusammengefasst sind die Vorteile der Datenvirtualisierung folgende:

Zugriff auf Daten in Echtzeit

Daten aus unterschiedlichsten Quellen integrierbar

schnelle und dynamische Umsetzung neuer Business-Intelligence-Anforderungen

geringerer Entwicklungsaufwand für Analysen

mehr Flexibilität im Vergleich zum klassischen Data Warehouse

keine Notwendigkeit der Datenreplikation durch Verbleib der Daten im originalen Quellsystem

bessere Qualität und Integrität der Daten durch die Vermeidung der Datenreplikation

Reduzierung der Kosten und der benötigten Speicherressourcen

Reduzierung der Systemlast

hohe Agilität der Analysemöglichkeiten und tiefe Einblicke in die Unternehmensdaten

Nachteile durch den Einsatz der Datenvirtualisierung

Neben den vielen Vorteilen kann die Datenvirtualisierung einige Nachteile mit sich bringen. Langsame Quellsysteme können die Geschwindigkeit der virtuellen Datenintegration stark reduzieren. Viele Quellsysteme sind nicht für dynamische Abfragen in großer Zahl konzipiert. Unter Umständen sind durch die Abfragen der Datenvirtualisierung in den Quellsystemen die Performance, Antwortgeschwindigkeit und Verfügbarkeit der eigentlichen Anwendung beeinträchtigt. Weitere Nachteile können das Fehlen einer Änderungshistorie der Daten und die mangelnde Homogenität des Datenmodells sein.

Einsatzmöglichkeiten der Datenvirtualisierung

Die Datenvirtualisierung ist in vielen Bereichen einsetzbar. Überall dort, wo Daten aus vielen verschiedenen Quellen zu analysieren sind, bietet Datenvirtualisierung eine Lösung. Anstatt eine zusätzliche Datenhaltung in einem Data Warehouse oder Data Lake zu implementieren, bildet die Datenvirtualisierung die direkte Schnittstelle zu den Quellsystemen. Der Ansatz der Datenvirtualisierung ist eine echte Alternative zu klassischen ETL-Prozessen (Extract, Transform, Load) und zum Data Warehouse. Anwendungen des Business-Intelligence- und Big-Data-Umfelds profitieren von der Agilität, der Flexibilität und den geringen Ressourcenanforderungen der virtualisierten Datenintegration.

(ID:45992195)