Data Vault ist eine Modellierungstechnik, mit der sich bestehende Data Warehouses (DWH) modernisieren und damit den aktuellen Anforderungen an Datenhaltung und Analytics anpassen lassen. DWH-Verantwortliche stehen unter immer größeren Druck, ihre Systeme anpassen zu müssen. Klassische DWH-Konzepte nach Inmon oder Kimball sind nicht dafür geeignet, weil sie schnell immer komplexer werden und sehr teuer sind.
Der Autor: Stefan Müller ist Director Big Data Analytics & IoT bei IT-Novum
(Bild: IT-Novum)
Grund: Die benötigten Implementierungs- und Testzyklen für klassische DWH-Konzepte nach Inmon oder Kimball sind sehr umfangreich, zudem fällt eine lange Liste an Auswirkungen oder Abhängigkeiten an, was den Aufwand unverhältnismäßig hoch macht.
Es muss also ein neuer Ansatz her. Data Vault erlaubt es, die Architektur und die Methodik des DWHs bedarfsgerecht an geänderte Anforderungen anzupassen. Die Modellierungstechnik erlaubt es, zielgerichtete Entwicklungen voranzutreiben bzw. die Time-to-Market zu verkürzen. Data Vault liefert damit eine Antwort auf viele Herausforderungen, mit denen DWH-Architekten und -Verantwortliche derzeit konfrontiert werden.
Data Vault: Was ist das?
Data Vault bietet eine hohe Flexibilität bei Erweiterungen, eine bitemporale, vollständige Historisierung der Daten und ermöglicht eine starke Parallelisierung von Datenladeprozessen. Wer sich mit dem Begriff des agilen Data Warehouse beschäftigt, landet schnell bei Data Vault. Das Besondere an der Technik ist, dass sie auf die Bedürfnisse von Unternehmen fokussiert ist, weil sie flexible, aufwandsarme Anpassungen eines Data Warehouse ermöglicht.
Data Vault 2.0 betrachtet den gesamten Entwicklungsprozess sowie die Architektur und besteht aus den Komponenten Methode (Implementierung), Architektur sowie Modell. Vorteil ist, dass dieser Ansatz alle Aspekte von Business Intelligence mit dem zugrunde liegendem Data Warehouse bei der Entwicklung berücksichtigt.
Die Architektur von Data Vault besteht im Wesentlichen aus drei Schichten (Layer):
Staging Layer: sammelt die Rohdaten aus den Quellsystemen, etwa CRM oder ERP
Data Warehouse Layer: Wird diese Schicht als Data Vault-Modell modelliert, beinhaltet sie:
Raw Data Vault: speichert die Rohdaten.
Business Data Vault: beinhaltet harmonisierte und transformierte Daten auf Basis von Geschäftsregeln (optional).
Operational Vault: speichert die Daten, die direkt aus operativen Systemen in das Data Warehouse fließen (optional.)
Information Mart Layer: Diese Schicht modelliert Daten als Star-Schema und/oder anderen Modellierungsverfahren. Sie stellt Informationen für die Analyse und das Berichtswesen zur Verfügung.
Die Hauptkomponenten des Data-Vault-Modells
Data Vault unterteilt bei der Modellierung alle zum Objekt gehörenden Informationen in drei verschiedene Kategorien – im Unterschied zu Klassikern der Modellierung der dritten Normalform (3NF). Diese Informationen werden anschließend strikt getrennt voneinander abgelegt. Die funktionalen Bereiche lassen sich in Data Vault in sogenannten Hubs, Links und Satelliten abbilden:
Hubs sind das Herzstück des Kerngeschäfts (core business concept) wie Kunde, Verkäufer, Verkauf oder Produkt. Die Hub-Tabelle wird um den Business Key (Vertrags- oder Kundennummer) herum gebildet, wenn zum ersten Mal eine neue Instanz dieses Business Keys im Data Warehouse eingeführt wird. Der Hub enthält keine beschreibenden Informationen und keine FKs. Er besteht nur aus dem Business Key, mit einer im Warehouse erzeugten Sequenz von ID- oder Hash-Schlüsseln, Ladedatum/Zeitstempel und der Datensatzquelle.
Links stellen Beziehungen zwischen den Business Keys her. Jeder Eintrag in einem Link modelliert n-m Beziehungen einer beliebigen Anzahl von Hubs. Das erlaubt es dem Data Vault, flexibel auf Änderungen in der Business Logik der Quellsysteme, wie zum Beispiel Änderungen in der Kordialität von Beziehungen, zu reagieren. Genau wie der Hub enthält der Link keine beschreibenden Informationen. Er besteht aus den Sequenz-IDs der Hubs, auf die er sich bezieht, einer im Warehouse generierten Sequenz-ID, Ladedatum/Zeitstempel und Datensatzquelle.
Satelliten enthalten die beschreibenden Informationen (Kontext) für einen Business Key, der in einem Hub gespeichert ist, oder einer Beziehung, die in einem Link gespeichert ist. Satelliten funktionieren „insert only“, das bedeutet, dass die komplette Datenhistorie im Satelliten abgespeichert ist. Es können mehrere Satelliten zur Beschreibung eines einzelnen Business Key (oder einer Beziehung) verwendet werden. Ein Satellit kann jedoch nur einen Schlüssel (Hub oder Link) beschreiben.
Die Vorteile von Data Vault
Anwender sollten wissen: Data Vault ist kein IT-Selbstzweck. Ziel ist es, die Organisation bei der schnellen Bereitstellung von integrierten Daten für Analysen und Berichte zu unterstützen. Data Vault hat daher technisch wie organisatorisch viele große Vorteile:
Vorteile für Unternehmen: Der größte Vorteil von Data Vault ist die starke Reduzierung der Entwicklungszeit, z. B. bei der die Umsetzung von Business-Anforderungen. Zudem wird ein höherer Return on Investment erzielt und das DWH durch den Einsatz von Data Vault skalierbar. Unternehmen können außerdem alle Daten bis zu ihrem Quellsystem nachverfolgen. Von Data Vault profitieren besonders Organisationen, die große Datenvolumina in kurzer Zeit laden müssen, ihre BI-Applikationen agil entwickeln wollen oder ein vorgelagertes Core Data Warehouse innerhalb einer bestehenden Silo-Architektur aufbauen möchten.
Vorteile in technischer Hinsicht: Data Vault unterstützt klassische Batch-Verarbeitung ebenso wie Near-Realtime-Loads. Dabei können Unternehmen auch unstrukturierte/NoSQL-Datenbanken anbinden. Im Vergleich zu klassischen DWH-Architekturen werden die Geschäftsregeln im Business Data Vault und in der Information Mart Layer eingesetzt. Damit sind sie möglichst nah beim End-User implementiert. Entsprechend werden Geschäftsregeln „spät“ abgebildet und das DWH exakt mit den Daten beladen, wie sie im Quellsystem vorliegen. Man spricht daher von „Source of Facts“ und nicht von der „Source of Truth“. Darüber hinaus lässt sich das DWH dank eines iterativen, agilen Entwicklungszyklus inkrementell ausbauen, um das Datenmodell bedarfsgerecht für alle Themen zu erweitern. Durch „Time Traveling“, also stichtagsbezogene Auswertungen bzw. Zeitreisen, lassen sich Daten aus dem Altbestand zu einem bestimmten Stichtag darstellen oder auswerten. Unternehmen können Berichtsstände direkt miteinander vergleichen. Durch das unveränderte, vollständige und historisierte Laden werden überdies Compliance- und Auditanforderungen erfüllt.
Einfache Umsetzung von Data Vault
Data Vault erfordert kein neues Aufsetzen der Architektur. Neue Funktionen können mit den Konzepten und Methoden von Data Vault direkt aufgebaut werden. Dabei ist ein paralleles Anwenden von Data Vault möglich und bereits existierende Bestandteile gehen nicht verloren.
Frameworks können dabei die Arbeit bedeutend erleichtern: sie ziehen einen Layer zwischen DWH und Entwickler und verringern damit die Komplexität bei der Umsetzung. Ein einfach anzuwendendes Framework ist das Pentaho Data Vault Framework. Es wurde speziell entwickelt, um Unternehmen bei der Entwicklung, Bereitstellung und dem Betrieb von Data Vaults zu unterstützen. Das Framework erlaubt einfaches Anbinden neuer Datenquellen, ohne selbst ETL-Strecken entwickeln zu müssen. Die ETL-Jobs zum Beladen von Hubs, Links und Satelliten sind dazu vollständig parametrisiert. Dabei werden auch knifflige Fälle berücksichtigt, etwa, wie man mit fehlenden Datensätzen, multiaktiven Satelliten oder der fachlichen Gültigkeit von Daten umgeht.
Ein grafisches Interface ermöglicht eine einfache Konfiguration. Satelliten lassen sich an beliebiger Stelle in das Data Vault einfügen, ohne dabei das Modell zu verändern. Das Konfigurations-Cockpit ermöglicht eine bequeme Steuerung und eine einfache Anbindung neuer Datenquellen. Daneben gibt es Werkzeuge, die historisierte Daten einfach zusammenfügen und in den Data Marts zur Analyse zur Verfügung stellen. Schließlich wollen Unternehmen auf die Daten bedarfsgerecht zugreifen können. Durch den PIT Merge Join Step können zum Beispiel Daten aus verschiedenen Satelliten chronologisch korrekt zusammengebracht werden, ohne dass dafür unflexible Point-In-Time-Tabellen benötigt werden.
Wer profitiert von Data Vault?
Vor allem Unternehmen, die große Datenvolumen in kurzer Zeit laden müssen sowie Unternehmen, die ihre Business Intelligence-Applikationen agil entwickeln, profitieren von Data Vault. Auch Unternehmen, die ein vorgelagertes Core Data Warehouse innerhalb einer existierenden Silo-Architektur aufbauen, gewinnen dadurch große Vorteile.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Zusammenfassend lässt sich festhalten: Mit Data Vault erhalten Unternehmen ein leistungsfähiges Werkzeug an die Hand, um durchgängige, abgestimmte Datenmodelle für ihr Data Warehouse aufzubauen. Veränderungen sind sehr einfach vorzunehmen, sodass Data Vault sehr gut geeignet ist, um Data Warehouses für zukünftige Herausforderungen agil aufzustellen.