Kommentar von Prof. Peter Gluchowski, TDWI Data Vault – neues Konzept für das Data Warehouse
Datenmodellierung im Data Warehouse erweist sich auch nach über zwanzig Jahren intensiver Diskussion als brandaktuelles Thema. In der Vergangenheit haben sich insbesondere Verfechter einer dimensionalen Modellierung mit Befürwortern normalisierter Datenmodelle auseinandergesetzt. Während die Diskussion bisweilen in wahren Glaubenskriegen mündete, überwindet das neue Konzept des Data Vault die Nachteile traditioneller Modellierungskonzepte.
Anbieter zum Thema

Ein Blick zurück: Vor allem bei größeren Data-Warehouse-Implementierungen wurde in der Vergangenheit verstärkt eine Modellierung entsprechend der 3. Normalform präferiert, wie beispielsweise auch von einem der „Urväter“ des Data-Warehouse-Konzeptes, Bill Inmon, vorgeschlagen. Das Ziel hierbei: Ein umfassendes, unternehmensweites Datenmodell für das Core Data Warehouse aufbauen, das die relevanten Daten in höchstmöglicher Detaillierung und qualitätsgesichert vorhält.
Aus diesem Datenpool lassen sich dann neue Data Marts rasch aufbauen. Zudem ist die einheitliche Definition verwendeter Kennzahlen leicht sicherzustellen. Als problematisch erweist sich jedoch die erhebliche Komplexität, die aus der Vielzahl zu erstellender Tabellen mitsamt den zugehörigen Verknüpfungen resultiert. Neben dem erstmaligen Aufbau ist insbesondere auch die Weiterentwicklung des Datenmodells mit großem Aufwand und langen Projektlaufzeiten verknüpft. Gleichzeitig aber wünschen Anwender agile Lösungen, die in der Lage sind, neue Anforderungen zeitnah umsetzen zu können.
Von Bill Inmon zu Ralph Kimball
Im Gegensatz zu Inmon propagiert Ralph Kimball bereits seit mehr als zwei Jahrzehnten den Aufbau eines dimensionalen Datenmodells für das Core Data Warehouse, das mit einer Star- beziehungsweise Snowflake-Schema-Modellierung relevantes Datenmaterial in Dimensions- und Faktentabellen organisiert. Nah an den Vorstellungen und dem Geschäftsverständnis der Anwender gelingt es auf diese Weise, sowohl den erstmaligen Aufbau als auch die iterative Weiterentwicklung vergleichsweise schnell zu realisieren.
Um auch eine sehr feingranulare Ablage der Daten gewährleisten zu können, wird oftmals mit Belegdimensionen gearbeitet, mit denen sich dann auch einzelne Geschäftsvorfälle unverdichtet abbilden lassen. Als zentrales Gestaltungsmerkmal gelten „conformed dimensions“, also Dimensionen und die zugehörigen Dimensionstabellen, die flexibel in verschiedenen Kontexten, etwa im Zusammenspiel mit diversen Faktentabellen, nutzbar sind.
Als zentraler Kritikpunkt an der dimensionalen Modellierung für das Core Data Warehouse gilt die mangelnde Robustheit gegenüber Änderungen an den Quellsystemen oder an der Businesslogik, die in der Regel umfangreiche und aufwendige Modifikationen im Datenmodell mitsamt der zugehörigen Entwicklungs- und Testarbeiten mit sich bringen. Heute wird die dimensionale Modellierung vor allem auf der Ebene der Data Marts genutzt.
„Single Version of the Facts“ sorgt für Aufsehen
In den vergangenen Jahren sorgt ein neues Konzept für Furore, in dessen Mittelpunkt eine besondere Art der Datenmodellierung steht und das die Nachteile der klassischen Modellierungsmethoden zu überwinden verspricht: Data Vault. Dabei reicht der Data-Vault-Ansatz über die reine Datenmodellierung hinaus und adressiert heute ebenso Aspekte wie Architektur oder geeignete Vorgehensmodelle.
Mit diesem umfassenden Ansatz gewährleistet das Data-Vault-Konzept, effektiv die von der Fachseite geforderte Agilität unterstützen zu können und dabei sowohl stabile als auch flexible BI-Lösungen anzubieten, die sich schnell an erweiterte oder geänderte Anforderungen anpassen lassen. Die Methode favorisiert eine „single version of the facts“ gegenüber einer „single version of the truth“, indem sie auch fehlerbehaftete Daten (bad data wie Bewegungsdaten für nicht definierte Stammdaten) weiter verarbeitet.
Data Vault – so funktioniert es
Im Kern findet sich im Data-Vault-Konzept eine Modellierungsmethodik, die konsequent auf die modelltechnische Trennung von Schlüsseln (Hub-Tabellen), deskriptiven Attributen (Satellite-Tabellen) und Beziehungsinformationen (Link-Tabellen) setzt. Der TDWI Germany e.V. hat die wichtigsten Aspekte und Regeln in einem Poster zusammengefasst. Das Ergebnis solch konzeptioneller Klarheit: neben Flexibilität sowie Anpassbarkeit auch Skalierbarkeit – vor allem aber auch Auditierbarkeit.
Hubs repräsentieren Kernobjekte der jeweiligen Geschäftslogik. Hier findet sich neben einem künstlichen Surrogatschlüssel (Surrogate Key, SK) zur Anbindung der übrigen Strukturen stets auch ein geschäftlicher Schlüssel (Business Key), zum Beispiel die Kundennummer. Links dienen der Verknüpfung zwischen (zwei oder mehreren) Hubs und bedienen sich dazu der Surrogatschlüssel. Alle beschreibenden Attribute zu Hubs und Links sind in (gegebenenfalls mehreren) Satellites gespeichert. Die einzelnen Modellbestandteile beinhalten jeweils zwingend Angaben zur Datenquelle (record source) und zur Ladezeit (load date). Zur Gewährleistung des Aufbaus korrekter Data-Vault-Modelle existieren verschiedene Modellierungsregeln, die im Gestaltungsprozess zu beachten sind (siehe Bildergalerie).
Im Detail ergeben sich im Data-Vault-Kontext unterschiedliche Modellierungsphilosophien. So kann – wie wir es immer wieder bei den Seminaren des TDWI zum Thema erleben – darüber gestritten werden, ob ein End-Date-Attribut in den Satelliten-Tabellen zwingend erforderlich ist. In der praktischen Anwendung ergeben sich dadurch Vorteile bei Gültigkeitsabfragen. Auch lässt sich für die Auftragsposition ein eigener Hub definieren, falls es sich für die Anwendung als erforderlich erweist.
Core Data Warehouse neu gedacht – Flexibilität für agile Umgebungen
Insgesamt ist festzuhalten, dass ein Data-Vault-Modell zwar mehr Daten-Artefakte (Tabellen bzw. Felder) benötigt, als ein dimensionales oder normalisiertes Datenmodell, dafür allerdings größere Stabilität aufweist. Zwar steigt dadurch der Aufwand für die reine Erstellung des Datenmodelles tendenziell an, jedoch ergeben sich Einsparpotenziale an anderer Stelle. Beispielsweise lassen sich durch eine Template-basierte und automatisierte Generierung von ETL-Prozessen umfangreiche Aufwandsreduktionen erzielen. Darüber hinaus erweist sich das Modell als vergleichsweise leicht erweiterbar, zumal durch neue Datenobjekte vorhandene Strukturen nicht verändert werden und sich daher Testaufwände auf ein Minimum beschränken.
Da sich die erforderlichen Transformationen der Daten vor Befüllung des Data Vaults auf wenige und teils automatisierbare Standard-Operationen beschränken, kann das Zusammentragen von Daten in einem Core Data Warehouse sehr agil gestaltet werden. Weitere fachliche Transformationen werden in höhere Data-Warehouse-Schichten verlagert. Oftmals wird hierzu die Aufteilung in einen Raw Data Vault (mit gering aufbereiteten Rohdaten) und einen Business Data Vault (mit umfangreicherer Aufbereitung, wie Data Cleansing, Typkonvertierung, Berechnung von Kennzahlen oder Aggregation) gefordert.
Fazit
Zusammenfassend lässt sich festhalten: Die Data-Vault-Modellierungsmethodik bietet ein leistungsfähiges Instrumentarium, um durchgängige und abgestimmte Datenmodelle für das Core Data Warehouse aufzubauen, die sich an vorgegebenen Regeln orientieren. Die verhältnismäßig aufwandsarme Veränderbarkeit begünstigt einen Einsatz in agilen Umgebungen, wie sie immer stärker um sich greifen.
(ID:44002816)