Data Lakes, Marts, Vaults und Warehouses – wo liegt der Unterschied?

Kommentar von Neil Barton, WhereScape Data Lakes, Marts, Vaults und Warehouses – wo liegt der Unterschied?

15.08.2019Autor / Redakteur: Neil Barton / Nico Litzel

Big Data oder Data Analytics sind einige der größten Herausforderungen für die IT unserer Zeit. Viele Unternehmen befinden sich inmitten einer Umstellung auf eine datengesteuerte Ausrichtung ihrer Organisation und sind auf der Suche nach der dazu passenden Dateninfrastruktur. Verschiedene Ansätze versprechen Vorteile – doch vielerorts hakt es schon beim Verstehen der Begrifflichkeit.

Anbieter zum Thema

Disy Informationssysteme GmbH

QUNIS GmbH

Fivetran Germany GmbH

Der Autor: Neil Barton ist CTO von WhereScape
(Bild: WhereScape)

Generell versuchen alle Ansätze für die Dateninfrastruktur Wege zu finden, effektiv Erkenntnisse aus Daten zu generieren. Um den besten Ansatz für ein Unternehmen in Bezug auf die Dateninfrastruktur zu finden, lohnt es sich, die Optionen und ihre Vorteile genau zu kennen. Was also sind Data Lake, Data Vault, Data Mart und Data Warehouses und wofür werden Sie verwendet?

Data Lake – Eine große Sammlung von Rohdaten

Data Lakes sind riesige Datensammlungen, die von nicht organisierten oder verarbeiteten Rohdaten bis hin zu unterschiedlichen Ebenen von kuratierten Datensätzen reichen. Einer der Vorteile, Daten in einem Data Lake zu speichern, besteht darin, dass unterschiedliche Nutzer auf die für sie geeigneten Daten zugreifen können. Dies macht einen Data Lake perfekt für einige der neueren Anwendungen von Daten wie Data Science, Künstliche Intelligenz und Machine Learning.

Data Lakes bieten eine sehr gute Möglichkeit, Massen von Rohdaten auf skalierbaren Speicherlösungen abzulegen, ohne den Versuch zu unternehmen, traditionelles ETL (Extraktion/Transformation/Laden) oder ELT (Extraktion/Laden/Transformation) zu verwenden, die bei diesem Volumen teuer sein können. Für traditionellere Analysen strukturierter Daten kann ein Data Lake jedoch auch etwas unhandlich und verwirrend sein, weshalb viele Unternehmen hierfür andere Lösungen nutzen. In der Hierarchie einer komplexen, mehrschichtigen Dateninfrastruktur werden Data Lakes eher als erste Ebene und Grundlage für einen strukturierteren Ansatz der Datenverarbeitung genutzt, etwa beim Data Warehouse.

Das Data Warehouse: benutzerfreundlicher Zugang zu Daten

Das Data Warehouse dient als Quelle für Ableitungen aus den Rohdaten und ist für viele Unternehmen heute ein Kernelement ihrer Datenstrategie. Im Gegensatz zum Data Lake, der einfach nur ein großer Pool an Daten ist, ist ein Data Warehouse, oder ein Enterprise Data Warehouse, wie es manchmal genannt wird, ein verwalteter Datenspeicher für aktuelle und historische Daten. Ein Data Warehouse ermöglicht Anwendern den Zugang zu den richtigen Informationen in einem benutzerfreundlichen Format, wie etwa monatlichen Reports. Wenn Daten in eine Data-Warehouse-Umgebung gelangen, werden sie bereinigt, transformiert, kategorisiert und gekennzeichnet, je nachdem, wie die Nutzer dies benötigen. Dies erleichtert die Verwaltung, Nutzung und Überwachung der Unternehmensdaten. Auch die Automatisierung, ein heute wichtiger Teil der Dateninfrastruktur, kommt auf der Ebene des Data Warehouses ins Spiel.

Die Automatisierung von Datenprozessen ist für die meisten Unternehmen heute eine wichtige Anforderung an das Data Warehouse, da das Volumen und die Geschwindigkeit, mit der Daten generiert werden, die manuelle Verarbeitung in vielen Umgebungen praktisch unmöglich macht. Auch aus Sicht der Compliance bietet die Automatisierung der Datenprozesse in einem Data Warehouse viele Vorteile, genauso wie beim „Time to Value“, also der Zeit von der Entstehung der Daten bis zu deren wertschöpfenden Nutzung.

Data-Warehouse-Automatisierung: Automationssoftware kombiniert die Verwendung von Metadaten, Data-Warehouse-Methoden, Mustererkennung und mehr, um Entwicklern zu helfen, Data Warehouse Designs und Codierung durch den Einsatz von Data Warehouse-Design-Tools und zeitsparenden Entwicklungsassistenten und -vorlagen automatisch zu generieren.
(Bild: WhereScape)

Data Mart: eine kleinere Teilmenge eines Data Warehouses

Ein Data Mart ist eine spezifische Teilmenge eines Data Warehouse, die oft für kuratierte Daten zu einem bestimmten Themenbereich verwendet wird und die in kurzer Zeit leicht zugänglich sein müssen. Aufgrund seiner geringeren Größe und Komplexität ist ein Data Mart oft schneller und kostengünstiger zu bauen als ein komplettes Data Warehouse. Durch diese limitierte Größe kann ein Data Mart aber keine Daten aus dem gesamten Unternehmen erstellen und verwalten.

Data Marts: Durch die Automatisierung von Design, Entwicklung, Bereitstellung und Betrieb von Data Marts können Unternehmen schnell Business-Intelligence-Lösungen bereitstellen, ohne Qualität, Leistung, Agilität oder Governance einzubüßen.
(Bild: WhereScape)

Data Vault: ein weiterentwickelter Ansatz für das Data Warehouse

Ein Data Vault ist ein spezieller Ansatz des Data Warehouses, der einige Herausforderungen des Data Warehouse löst, die bei der Verarbeitung von Daten innerhalb des Data Warehouses entstehen. Der Unterschied eines Data Vaults zu einem Data Warehouse besteht darin, dass Data Vaults bei der Verarbeitung keine Bewertung vornehmen, welche Daten „wertvoll“ sind und welche nicht. In einem Data Warehouse wird eine solche Entscheidung typischerweise bei der Datenaufnahme getroffen. Dies bietet mehr Flexibilität, was bei der Verarbeitung von Daten aus sich ändernden Datenquellen hilft. Ein Data Vault kann somit einen ungefilterten Blick auf die Fakten liefern.

Für Unternehmen mit großen, wachsenden und vielen unterschiedlichen Datensätzen kann der Ansatz eines Data Vaults für ihr Data Warehouse dabei helfen, das Ungetüm großer Datenmengen zu einer verwaltbaren Lösung zu zähmen. Die Einrichtung eines Data Vaults kann jedoch sehr komplex und zeitaufwendig sein. Hier setzt die Automatisierung von Data Vaults an, die sich automatisch um einen Großteil der Dateninfrastruktur eines Unternehmens kümmern kann.

Um den strengen Anforderungen der Methodik zu entsprechen, ist die Automatisierung von Data Vaults eine wichtige Komponente. Damit die Automatisierung des Data Vaults einen hohen Prozentsatz der Dateninfrastruktur eines Unternehmens abdecken kann, werden heutzutage die standardisierten Vorlagen und die hohen Anforderungen der Data-Vault-2.0-Methodik genutzt. Diese Methodik stellt den Kern eines Data Vaults dar, der zuverlässige und konsistente Metadaten verwendet, um sicherzustellen, dass alle Informationen, einschließlich personenbezogener Daten jederzeit überwacht werden können.

Die Methode des Data Vault 2.0 Modellings ist ein hybrider Ansatz, der die besten Aspekte des Designs von Third Normal Form (3NF) und Sternschema kombiniert. Obwohl fertige Datenspeicher viele Vorteile bieten, erfordert das Entwerfen und Entwickeln von Hand viel Zeit, Aufwand und Geld. Die Automatisierung von Datentresoren hilft, schnell und risikoarm in die Produktion zu gelangen. Das IT-Team kann neue Lösungen liefern und bestehende so schnell ändern, wie das Unternehmen sie benötigt.
(Bild: WhereScape)

Zusammenfassung

Es gibt zahlreiche Ansätze für eine Dateninfrastruktur, die Unternehmen wählen können, um ihre Daten nicht nur sicher, sondern auch gewinnbringend zu speichern. In modernen Unternehmen kommt es heute vornehmlich darauf an, dass alles den schärferen Richtlinien entspricht und das Unternehmen gleichzeitig schnell Mehrwert aus den Daten schöpfen kann.

Ein umfassendes Verständnis dafür, wie verschiedene Ansätze zusammenpassen, kann für IT-Manager und Führungskräfte von unschätzbarem Wert sein.

Artikelfiles und Artikellinks

Link: Data-Warehousing-Glossar (Englisch)

(ID:46056783)