Suchen

Kommentar von Stefan Müller, IT-Novum Mit Data Vault zu mehr Agilität im Data Warehouse

Autor / Redakteur: Stefan Müller / Nico Litzel

Data Vault ist eine Modellierungstechnik, mit der sich bestehende Data Warehouses (DWH) modernisieren und damit den aktuellen Anforderungen an Datenhaltung und Analytics anpassen lassen. DWH-Verantwortliche stehen unter immer größeren Druck, ihre Systeme anpassen zu müssen. Klassische DWH-Konzepte nach Inmon oder Kimball sind nicht dafür geeignet, weil sie schnell immer komplexer werden und sehr teuer sind.

Firmen zum Thema

Der Autor: Stefan Müller ist Director Big Data Analytics bei IT-Novum
Der Autor: Stefan Müller ist Director Big Data Analytics bei IT-Novum
(Bild: IT-Novum)

Grund: Die benötigten Implementierungs- und Testzyklen für klassische DWH-Konzepte nach Inmon oder Kimball sind sehr umfangreich, zudem fällt eine lange Liste an Auswirkungen oder Abhängigkeiten an, was den Aufwand unverhältnismäßig hoch macht.

Es muss also ein neuer Ansatz her. Data Vault erlaubt es, die Architektur und die Methodik des DWHs bedarfsgerecht an geänderte Anforderungen anzupassen. Die Modellierungstechnik erlaubt es, zielgerichtete Entwicklungen voranzutreiben bzw. die Time-to-Market zu verkürzen. Data Vault liefert damit eine Antwort auf viele Herausforderungen, mit denen DWH-Architekten und -Verantwortliche derzeit konfrontiert werden.

Data Vault: Was ist das?

Data Vault bietet eine hohe Flexibilität bei Erweiterungen, eine bitemporale, vollständige Historisierung der Daten und ermöglicht eine starke Parallelisierung von Datenladeprozessen. Wer sich mit dem Begriff des agilen Data Warehouse beschäftigt, landet schnell bei Data Vault. Das Besondere an der Technik ist, dass sie auf die Bedürfnisse von Unternehmen fokussiert ist, weil sie flexible, aufwandsarme Anpassungen eines Data Warehouse ermöglicht.

Data Vault 2.0 betrachtet den gesamten Entwicklungsprozess sowie die Architektur und besteht aus den Komponenten Methode (Implementierung), Architektur sowie Modell. Vorteil ist, dass dieser Ansatz alle Aspekte von Business Intelligence mit dem zugrunde liegendem Data Warehouse bei der Entwicklung berücksichtigt.

Die Architektur von Data Vault besteht im Wesentlichen aus drei Schichten (Layer):

Staging Layer: sammelt die Rohdaten aus den Quellsystemen, etwa CRM oder ERP

Data Warehouse Layer: Wird diese Schicht als Data Vault-Modell modelliert, beinhaltet sie:

  • Raw Data Vault: speichert die Rohdaten.
  • Business Data Vault: beinhaltet harmonisierte und transformierte Daten auf Basis von Geschäftsregeln (optional).
  • Metrics Vault: speichert Laufzeitinformationen (optional).
  • Operational Vault: speichert die Daten, die direkt aus operativen Systemen in das Data Warehouse fließen (optional.)

Information Mart Layer: Diese Schicht modelliert Daten als Star-Schema und/oder anderen Modellierungsverfahren. Sie stellt Informationen für die Analyse und das Berichtswesen zur Verfügung.

Die Hauptkomponenten des Data-Vault-Modells

Data Vault unterteilt bei der Modellierung alle zum Objekt gehörenden Informationen in drei verschiedene Kategorien – im Unterschied zu Klassikern der Modellierung der dritten Normalform (3NF). Diese Informationen werden anschließend strikt getrennt voneinander abgelegt. Die funktionalen Bereiche lassen sich in Data Vault in sogenannten Hubs, Links und Satelliten abbilden:

  • Hubs sind das Herzstück des Kerngeschäfts (core business concept) wie Kunde, Verkäufer, Verkauf oder Produkt. Die Hub-Tabelle wird um den Business Key (Vertrags- oder Kundennummer) herum gebildet, wenn zum ersten Mal eine neue Instanz dieses Business Keys im Data Warehouse eingeführt wird. Der Hub enthält keine beschreibenden Informationen und keine FKs. Er besteht nur aus dem Business Key, mit einer im Warehouse erzeugten Sequenz von ID- oder Hash-Schlüsseln, Ladedatum/Zeitstempel und der Datensatzquelle.
  • Links stellen Beziehungen zwischen den Business Keys her. Jeder Eintrag in einem Link modelliert n-m Beziehungen einer beliebigen Anzahl von Hubs. Das erlaubt es dem Data Vault, flexibel auf Änderungen in der Business Logik der Quellsysteme, wie zum Beispiel Änderungen in der Kordialität von Beziehungen, zu reagieren. Genau wie der Hub enthält der Link keine beschreibenden Informationen. Er besteht aus den Sequenz-IDs der Hubs, auf die er sich bezieht, einer im Warehouse generierten Sequenz-ID, Ladedatum/Zeitstempel und Datensatzquelle.
  • Satelliten enthalten die beschreibenden Informationen (Kontext) für einen Business Key, der in einem Hub gespeichert ist, oder einer Beziehung, die in einem Link gespeichert ist. Satelliten funktionieren „insert only“, das bedeutet, dass die komplette Datenhistorie im Satelliten abgespeichert ist. Es können mehrere Satelliten zur Beschreibung eines einzelnen Business Key (oder einer Beziehung) verwendet werden. Ein Satellit kann jedoch nur einen Schlüssel (Hub oder Link) beschreiben.

Die Vorteile von Data Vault

Anwender sollten wissen: Data Vault ist kein IT-Selbstzweck. Ziel ist es, die Organisation bei der schnellen Bereitstellung von integrierten Daten für Analysen und Berichte zu unterstützen. Data Vault hat daher technisch wie organisatorisch viele große Vorteile:

  • Vorteile für Unternehmen: Der größte Vorteil von Data Vault ist die starke Reduzierung der Entwicklungszeit, z. B. bei der die Umsetzung von Business-Anforderungen. Zudem wird ein höherer Return on Investment erzielt und das DWH durch den Einsatz von Data Vault skalierbar. Unternehmen können außerdem alle Daten bis zu ihrem Quellsystem nachverfolgen. Von Data Vault profitieren besonders Organisationen, die große Datenvolumina in kurzer Zeit laden müssen, ihre BI-Applikationen agil entwickeln wollen oder ein vorgelagertes Core Data Warehouse innerhalb einer bestehenden Silo-Architektur aufbauen möchten.
  • Vorteile in technischer Hinsicht: Data Vault unterstützt klassische Batch-Verarbeitung ebenso wie Near-Realtime-Loads. Dabei können Unternehmen auch unstrukturierte/NoSQL-Datenbanken anbinden. Im Vergleich zu klassischen DWH-Architekturen werden die Geschäftsregeln im Business Data Vault und in der Information Mart Layer eingesetzt. Damit sind sie möglichst nah beim End-User implementiert. Entsprechend werden Geschäftsregeln „spät“ abgebildet und das DWH exakt mit den Daten beladen, wie sie im Quellsystem vorliegen. Man spricht daher von „Source of Facts“ und nicht von der „Source of Truth“. Darüber hinaus lässt sich das DWH dank eines iterativen, agilen Entwicklungszyklus inkrementell ausbauen, um das Datenmodell bedarfsgerecht für alle Themen zu erweitern. Durch „Time Traveling“, also stichtagsbezogene Auswertungen bzw. Zeitreisen, lassen sich Daten aus dem Altbestand zu einem bestimmten Stichtag darstellen oder auswerten. Unternehmen können Berichtsstände direkt miteinander vergleichen. Durch das unveränderte, vollständige und historisierte Laden werden überdies Compliance- und Auditanforderungen erfüllt.

Einfache Umsetzung von Data Vault

Data Vault erfordert kein neues Aufsetzen der Architektur. Neue Funktionen können mit den Konzepten und Methoden von Data Vault direkt aufgebaut werden. Dabei ist ein paralleles Anwenden von Data Vault möglich und bereits existierende Bestandteile gehen nicht verloren.

Frameworks können dabei die Arbeit bedeutend erleichtern: sie ziehen einen Layer zwischen DWH und Entwickler und verringern damit die Komplexität bei der Umsetzung. Ein einfach anzuwendendes Framework ist das Pentaho Data Vault Framework. Es wurde speziell entwickelt, um Unternehmen bei der Entwicklung, Bereitstellung und dem Betrieb von Data Vaults zu unterstützen. Das Framework erlaubt einfaches Anbinden neuer Datenquellen, ohne selbst ETL-Strecken entwickeln zu müssen. Die ETL-Jobs zum Beladen von Hubs, Links und Satelliten sind dazu vollständig parametrisiert. Dabei werden auch knifflige Fälle berücksichtigt, etwa, wie man mit fehlenden Datensätzen, multiaktiven Satelliten oder der fachlichen Gültigkeit von Daten umgeht.

Ein grafisches Interface ermöglicht eine einfache Konfiguration. Satelliten lassen sich an beliebiger Stelle in das Data Vault einfügen, ohne dabei das Modell zu verändern. Das Konfigurations-Cockpit ermöglicht eine bequeme Steuerung und eine einfache Anbindung neuer Datenquellen. Daneben gibt es Werkzeuge, die historisierte Daten einfach zusammenfügen und in den Data Marts zur Analyse zur Verfügung stellen. Schließlich wollen Unternehmen auf die Daten bedarfsgerecht zugreifen können. Durch den PIT Merge Join Step können zum Beispiel Daten aus verschiedenen Satelliten chronologisch korrekt zusammengebracht werden, ohne dass dafür unflexible Point-In-Time-Tabellen benötigt werden.

Wer profitiert von Data Vault?

Vor allem Unternehmen, die große Datenvolumen in kurzer Zeit laden müssen sowie Unternehmen, die ihre Business Intelligence-Applikationen agil entwickeln, profitieren von Data Vault. Auch Unternehmen, die ein vorgelagertes Core Data Warehouse innerhalb einer existierenden Silo-Architektur aufbauen, gewinnen dadurch große Vorteile.

Zusammenfassend lässt sich festhalten: Mit Data Vault erhalten Unternehmen ein leistungsfähiges Werkzeug an die Hand, um durchgängige, abgestimmte Datenmodelle für ihr Data Warehouse aufzubauen. Veränderungen sind sehr einfach vorzunehmen, sodass Data Vault sehr gut geeignet ist, um Data Warehouses für zukünftige Herausforderungen agil aufzustellen.

Artikelfiles und Artikellinks

(ID:46734407)