Kommentar von Mathias Golombek, Exasol Daten-Virtualisierung ist eine Ergänzung, aber kein Ersatz
Große Datenmengen aus mehreren Quellen werden mithilfe von Data Analytics zu geschäftsrelevanten Zusammenhängen. Üblicherweise werden die dafür benötigten Daten aus den verschiedenen Quellen in die Datenbank repliziert. Doch gerade, wenn die Menge der Daten und die Anzahl der Quellen wachsen, kann es sinnvoll sein, eine virtuelle Datenebene zu schaffen.
Anbieter zum Thema

Die Daten sind da – ihre Erfassung und Speicherung sind technisch kein Problem. Der Wert dieser Daten steigt mit ihrer Aussagekraft: Zusammenhänge erkennen, weitere Datenquellen hinzuziehen, Entscheidungen mit Daten untermauern, Trends frühzeitig erkennen. Hinter Data Analytics steckt schon jetzt in den meisten Unternehmen mehr als ein wöchentlicher Management-Report.
Doch sowohl die Menge der Daten als auch die Anzahl der Quellen, die integriert werden sollen, wächst. Immer mehr Nutzer aus den Fachabteilungen sollen Zugriff auf brandaktuelle Daten haben und die für ihren Bereich notwendigen Schlüsse daraus ziehen. Mit fest definierten Abfrage-Vorgaben und einem starren Datenmodell lassen sich diese Anforderungen kaum mehr umsetzen.
Daten-Virtualisierung bringt Flexibilität
Um Daten aus verschiedenen Quellen miteinander in Zusammenhang zu bringen, werden diese normalerweise in einem Data Warehouse zusammengeführt. Bei dieser klassischen Datenintegration werden die Daten in eine Datenbank repliziert, um von einem Business-Intelligence-Tool nach Bedarf verarbeitet, sprich den Abfrage-Kriterien entsprechend geladen, verknüpft, und visualisiert zu werden. Die Ergebnisse speichert das System ebenfalls in Tabellen wieder ab.
Bei der Daten-Virtualisierung findet diese Datenintegration erst dann statt, wenn eine Abfrage vorliegt. Das bedeutet, die Daten aus den Quellsystemen werden nicht regelmäßig und systematisch in das eigene Date Warehouse überspielt. Das Daten-Virtualisierungs-Tool lädt Daten nur für den Zeitpunkt, an dem sie für eine Analyse benötigt werden, hält sie aber darüber hinaus nicht vor. Es erstellt eine logische Abbildung der Daten mit Verweis auf die Quellen. Die meisten Daten-Virtualisierungs-Werkzeuge bieten die Anbindung über Datenbank-Protokolle, Web Services oder Messaging-Lösungen und ermöglichen so die Integration verschiedenster Datenformate und -strukturen.
Dieser Ansatz bietet Vorteile: Es ist deutlich einfacher, neue Quellen zu integrieren. Das bedeutet gleichzeitig, dass sich neue BI-Anforderungen schneller umsetzen lassen – im Kontext einer zunehmenden datenbasierten Ausrichtung kann das essentiell sein. Die Daten sind im Moment der Analyse aktuell, da keine Replikations-Mechanismen für Latenzen sorgen. Außerdem – und das ist ein bedeutender Aspekt, wenn im ganzen Unternehmen Entscheidungen aufgrund von Daten getroffen werden sollen – vergrößert sich die Zahl derer, die mit den Analyse-Werkzeugen arbeiten. Fachabteilungen beispielweise sind dann in der Lage, eigene Quellen einzubinden und übergreifende Analyse zu generieren, für die bisher deutlich mehr Data-Analytics-Know-how erforderlich gewesen wäre.
Auch technisch gesehen verspricht die Daten-Virtualisierung Vorteile. Vor allem Kosteneinsparungen werden ins Feld geführt. Wenn weniger Daten repliziert werden müssen, sinkt der Speicherplatzbedarf. Die kürzere Implementierungszeit bei der Umsetzung neuer Analyse-Prozesse wirkt sich ebenfalls kostensparend aus. Darüber hinaus rechnen viele Anbieter von Daten-Virtualisierungs-Lösungen mit einer geringeren Systembelastung, da das Data Warehouse selbst nun weniger beansprucht wird. Hin und wieder wird die Daten-Virtualisierung sogar als Alternative zu Data-Warehouse-Lösungen genannt.
Veränderte Ansprüche an verteilte Infrastrukturen
Die Praxis zeigt, dass sich die genannten Vorteile nicht immer hundertprozentig einstellen. Denn gerade die direkte Anbindung der Datenquellen macht die Gesamt-Performance einer Abfrage von eben jenen abhängig. Mit wachsender Zahl der Anbindungen steigt die Abhängigkeit von verteilten, bisweilen auch externen IT-Systemen. Oft müssen Quellsysteme zunächst für die Ad-hoc-Abfrage meist größerer Datenmengen umgerüstet werden, gerade wenn sie bisher beispielsweise nur zu einem festen Zeitpunkt Daten bereitstellten. Jede einzelne Quelle muss zudem regelmäßig geprüft werden, um die Seriosität der Daten, Datensicherheit und Datenintegrität zu gewährleisten.
Ob sich die Systembelastung hinsichtlich Netzwerk-Traffic tatsächlich signifikant senken lässt, entscheidet das konkrete Anwendungsszenario. Je nachdem wie viele Quellen, welche Menge an Daten liefern, wo diese Quellen IT-System-technisch verankert sind und schließlich wie viele Nutzer komplexe Analysen erstellen, umso höher oder niedriger fällt die System-Beanspruchung aus. Data Warehouses übernehmen jedoch nicht nur das Speichern und Vorhalten der Daten. Vielmehr finden hier bereits erste logische Zuordnungen, Filterungen, Konsolidierungen und nicht zuletzt die historisch sinnvolle Ablage der Analyse-Ergebnisse in entsprechendem Kontext statt.
Gerade, wenn sie klug aufgesetzt sind und auf Datenbank-Technologien beruhen, die auf analytische Business-Cases spezialisiert sind, können Data Warehouses mit verlässlicher Verfügbarkeit und Performance Analyse-Ergebnisse liefern. So hat sich hier die In-Memory-Technologie, wie sie beispielsweise der Datenbank-Hersteller Exasol aus Nürnberg anbietet, etabliert: Die Daten, die gerade oder demnächst verwendet werden – die sogenannten heißen Daten – werden im Hauptspeicher gecacht und stehen damit einer hoch performanten Verarbeitung zur Verfügung.
Anwender können darüber hinaus „virtuelle“ Schemas nutzen, um Daten verschiedenster externer Datenquellen zu analysieren, ohne diese zuvor in die Exasol-Datenbank replizieren zu müssen. Die Daten bleiben in den zugehörigen Datenhaltungssystemen. Eine redundante Datenhaltung und komplexe ETL-Prozesse werden vermieden, wobei der Zugriff auf die Daten durch die Anwender erhalten bleibt. Auf diese Weise lassen sich Datenquellen-übergreifende Analysen auf der Gesamtansicht aller betriebskritischen Daten durchführen. Zudem ermöglicht Exasol durch die flexible Unterstützung zahlreicher Datenquellen und Datenformate eine nahezu nahtlose Integration in diverse heterogene Infrastrukturen. Ein gemeinsames Framework für Datenimport und Daten-Virtualisierung ermöglicht es Partnern und Nutzern, existierende Datenquellenadapter anzupassen oder bei Bedarf neue zu erstellen und über die Open-Source-Plattform GitHub mit anderen Nutzern zu teilen.
Ohne Daten-Strategie führt Daten-Virtualisierung in ein Durcheinander
Daten und deren geschäftsrelevante, Echtzeit-nahe Bereitstellung und Analyse sind längst entscheidende Wettbewerbsfaktoren. Mithilfe der Daten-Virtualisierung werden Daten aus verschiedenen Quellen möglichst vielen Nutzern in Echtzeit zur Verfügung gestellt. Unternehmen sollten jedoch das Gesamtbild nicht aus den Augen verlieren. Gemeint ist die Notwendigkeit einer übergreifenden und an den Geschäftszielen ausgerichteten Daten-Strategie. Diese definiert den Umgang mit Daten und deren Wert für die künftige Entwicklung des Unternehmens. Gleichzeitig ordnet sie die entsprechenden Prozesse zu, deckt Automatisierungs-Potenziale auf und definiert Zugangsrechte für verschiedene Nutzergruppen und Rollen.
Was zunächst schematisch und ausbremsend klingen mag, ist in der täglichen Unternehmens-Praxis sehr sinnvoll. Gerade geschäftsrelevante Entscheidungen können selten auf der Basis von Ad-hoc-Analysen getroffen werden. Manche Datenabfragen greifen auf Systeme zu – wie beispielsweise Produktionssteuerungen, die für analytische Massenabfragen kaum ausgelegt sind – und verursachen damit unter Umständen Störungen im Ablauf. Und auch die Analyse der Daten selbst ist keineswegs trivial – Data Scientists beschäftigen sich ausführlich damit, welche Zusammenhänge zufällig und welche aussagekräftig sind. Soll heißen: Wenn es grundsätzlich sinnvoll ist, mehr Nutzern die Möglichkeit zu geben, Echtzeit-nahe Analysen zu erstellen, sollten diese Nutzer entsprechendes Know-how mitbringen.
Die Daten-Virtualisierung kann ein umfassend strategisch aufgesetztes Datenkonzept samt Data Warehouse deshalb nicht vollständig ersetzen. Sehr wohl steht aber mit der Technologie eine sinnvolle Ergänzung zur Verfügung, die mehr Agilität und Flexibilität in den Bereich der Data Analytics bringt.
(ID:46160365)