Definition

Was ist ein Data Warehouse?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Das Data Warehouse stellt ein zentrales Datenbanksystem dar, das zu Analysezwecken im Unternehmen einsetzbar ist. Das System extrahiert, sammelt und sichert relevante Daten aus verschiedenen heterogenen Datenquellen und versorgt nachgelagerte Systeme.

Der Begriff Data Warehouse beschreibt eine Plattform, die Daten aus verschiedenen Datenquellen sammelt, verdichtet, sie langfristig sichert und nachgelagerte Analysesysteme versorgt. Oft wird das Data Warehouse auch als Datenlager bezeichnet. Vorteil des Datenlagers ist, dass eine globale Sicht auf Daten aus unterschiedlichen Datenbeständen entsteht. Gleichzeitig vereinfacht sich der Zugriff auf die Daten für Anwender, da sie in einer zentralen Datenbank konsistent und strukturiert bereitgestellt sind.

Den nachgelagerten Anwendungen bietet das Data Warehouse spezifisch erstellte Auszüge, die sogenannten Data Marts. Die bereitgestellten Daten lassen sich nach bestimmten Mustern analysieren und beispielsweise zur Ermittlung von betrieblichen Kennzahlen einsetzen. Oft stellt das Datenlager die Ausgangsbasis für das Data Mining dar. Die Gesamtheit aller Prozesse zur Datenbeschaffung, Verwaltung, Sicherung und Bereitstellung der Daten nennt sich Data Warehousing.

Das Data Warehousing ist in vier Teilprozesse aufteilbar:

  • Datenbeschaffung: Beschaffung und Extraktion der Daten aus verschiedenen Datenbeständen
  • Datenhaltung: Speicherung der Daten im Datenlager inklusive Langzeitarchivierung
  • Datenversorgung: Versorgung der nachgelagerten Systeme mit den benötigten Daten, Bereitstellung von Data Marts
  • Datenauswertung: Analysen und Auswertungen der Datenbestände

Architektur und Prozesse des Data Warehouse

Die Prozesse des Data Warehouse lassen sich in einem Architekturschaubild vier verschiedenen Bereichen zuordnen. Diese vier Bereiche sind:

  • die Quellsysteme,
  • die Data Staging Area,
  • die Data Presentation Area sowie
  • die Data Access Tools.

Die Daten für das Datenlager werden von verschiedenen Quellsystemen bereitgestellt. Die Staging Area des Data Warehouse extrahiert, strukturiert, transformiert und lädt die Daten aus den unterschiedlichen Systemen. Über die Staging Area gelangen die Daten in die eigentliche Datenbank des Datenlagers. Diese Datenbank stellt eine parallele Speicherplattform, die Data Presentation Area, zu den eigentlichen Quellsystemen dar und ermöglicht einen separaten Datenzugriff für Anwendungen und nachgelagerte Systeme.

Der Datenzugriff erfolgt über diverse Data Access Tools auf verschiedenen Ebenen, den sogenannten Data Marts. In der Regel basiert das Data Warehouse auf relationalen Datenbanken, die sich mittels SQL-Abfragen (Structured Query Language) auslesen lassen. Bei besonders großen Datenmengen kommen oft OLAP-Datenbanken (Online Analytical Processing) für eine hierarchische Strukturierung der Daten zum Einsatz.

Das Data Warehouse wird meist in regelmäßigen Abständen mit neuen Daten beladen. Mehr und mehr setzen sich Systeme durch, bei der die Datenversorgung des Datenlagers in Echtzeit erfolgt. Das Data Warehouse sorgt für die saubere Trennung von operativen und auswertenden Systemen und ermöglicht Analysen in Echtzeit. Diese sind wiederum dafür nutzbar, operative Systeme zu steuern.

Das Data Warehouse im Unternehmensumfeld

Im Unternehmensumfeld kommt das Data Warehouse in vielen Bereichen zum Einsatz. Es soll als unternehmensweit nutzbares Instrument verschiedene Abteilungen und die Entscheider flexibel unterstützen. Das Datenlager stellt die benötigten Daten für die Anwender zur Analyse von Unternehmensprozessen und -kennzahlen bereit. Für folgenden Aufgaben ist das Datenlager nutzbar:

  • Kosten- und Ressourcenermittlung,
  • Analyse von Geschäfts- und Produktionsprozessen,
  • Bereitstellung von Reports und Statistiken,
  • Ermittlung von Unternehmenskennzahlen,
  • Bereitstellung von Daten für weitergehende Analysen und Data Mining sowie
  • Strukturierung und Harmonisierung von Datenbeständen für eine globale Unternehmenssicht.

Big Data – der Data Lake als Ergänzung zum Data Warehouse

Eine Schwäche des Data Warehouse ist, dass es sich hauptsächlich auf die Beschaffung und Bereitstellung von herkömmlichen, strukturierten Daten vornehmlich aus SQL-Datenbanken konzentriert. Im Big-Data-Umfeld ist es allerdings notwendig, auf eine Vielzahl an Informationen zuzugreifen, die oft nur in unstrukturierter Form zur Verfügung stehen. Zudem sind deutlich größere Datenmengen zu beschaffen und bereitzustellen.

Um diese Herausforderungen zu meistern, ist das ergänzende Konzept des Data Lakes entstanden. Das Data Warehouse kann mithilfe des Data Lakes zu einer Big-Data-Analyseplattform ausgebaut werden. Der Data Lake bietet hohe Speicherkapazität und ermöglicht es, große Datenmengen abzulegen. Gleichzeitig ist er in der Lage, verschiedenste Datenformate, auch unstrukturierte, zu verarbeiten. Die im Data Lake gespeicherten Daten können bei Bedarf für Analysen herangezogen werden.

Allerdings sind die heterogenen Data-Lake-Informationen in einem Zwischenschritt aufzubereiten, damit Anwender mit den passenden Werkzeugen darauf zugreifen können. Durch geeignete Transformationen entstehen aus den unstrukturierten Rohdaten des Data Lakes strukturierte Datenbestände, die sich mit den Data Access Tools des Data Warehouse darstellen und analysieren lassen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

5 Hürden bei der Datenintegration und bewährte Lösungen

Kommentar von Stefan Müller, IT-Novum

5 Hürden bei der Datenintegration und bewährte Lösungen

Unternehmen, die ihre Daten nicht für die Geschäftsausrichtung nutzen können, werden dem Wettbewerbsdruck nicht standhalten können. Doch Daten liegen in unterschiedlichen Formaten vor und an verschiedensten Stellen im und außerhalb des Unternehmens. Zudem sind oft nur zu einem geringen Grad miteinander verknüpft. Dabei ist eine tiefgehende Datenintegration die zwingende Voraussetzung, um Daten sinnvoll zu nutzen lesen

Data Analytics – mehr Daten, mehr Zusammenhänge, mehr Intelligenz

Kommentar von Mathias Golombek, Exasol

Data Analytics – mehr Daten, mehr Zusammenhänge, mehr Intelligenz

Immer mehr Geschäftsentscheidungen basieren auf Daten. Das ist kein neuer Trend, sondern gelebte Praxis in den Unternehmen. Doch Daten sammeln allein ist noch keine Strategie und datenbasierte Reports sind nicht mehr als der Anfang eines langen Weges zu einer Data-driven Company. Über welche Schritte sollten Unternehmen jetzt nachdenken? lesen

Data Lakes, Marts, Vaults und Warehouses – wo liegt der Unterschied?

Kommentar von Neil Barton, WhereScape

Data Lakes, Marts, Vaults und Warehouses – wo liegt der Unterschied?

Big Data oder Data Analytics sind einige der größten Herausforderungen für die IT unserer Zeit. Viele Unternehmen befinden sich inmitten einer Umstellung auf eine datengesteuerte Ausrichtung ihrer Organisation und sind auf der Suche nach der dazu passenden Dateninfrastruktur. Verschiedene Ansätze versprechen Vorteile – doch vielerorts hakt es schon beim Verstehen der Begrifflichkeit. lesen

Databricks will Data Scientists von Routinearbeit entlasten

Apache-Spark-Projekt aus der wirtschaftlichen Perspektive

Databricks will Data Scientists von Routinearbeit entlasten

Welchen Sinn haben die Daten in den Unternehmen, wenn man sie nicht für Machine Learning nutzt? Diese rhetorische Frage stellt David Wyatt, Vice President Europe von Databricks. Als Haupttreiber des Apache-Spark-Projekts stellt das Unternehmen eine Cloud-Plattform bereit, die Data Engineers und Data Scientist zusammenbringen soll. Diese „Unified Analytics Platform“ wird derzeit um zwei Komponenten erweitert: das Projekt „Delta Lake“ zur Aufbereitung von Data Lakes und den Machine-Learning-Katalog „ML Flow“. lesen

HVR und WhereScape beschleunigen Datenprojekte

Kooperation gestartet

HVR und WhereScape beschleunigen Datenprojekte

In Zukunft wird die Echtzeit-Datenreplikationssoftware von HVR gemeinsam mit den Automatisierungslösungen von WhereScape verfügbar sein. Ein Ziel der Kooperation ist unter anderem die schnelle Bereitstellung von Echtzeitdaten für Unternehmen. lesen

Deployment von Machine Learning in die Cloud

Cloud-Storage, Entwicklungsprozesse, Auslieferung

Deployment von Machine Learning in die Cloud

Während vor wenigen Jahren Data Science in Unternehmen vor allem noch experimental war, müssen heute Entwicklungszeiten verkürzt und Vorhersagemodelle viel schneller produktiv gebracht werden. Cloud-Services wie von Google, Amazon und Microsoft helfen dabei. lesen

SAP führt Analytics Designer ein

Entwicklungsumgebung für SAC

SAP führt Analytics Designer ein

Die SAP Analytics Cloud (SAC) wurde um den Analytics Designer erweitert. Er ermöglicht die Entwicklung von Analyseanwendungen auch für Anwender ohne umfangreiche Programmierkenntnisse. lesen

Welche Rolle spielt BI in der modernen Datenanalyse?

Kommentar von Thomas Strehlow, Oraylis

Welche Rolle spielt BI in der modernen Datenanalyse?

Im Zuge der rasanten technischen Entwicklung werden konventionelle Ansätze der Datenanalyse zunehmend in Frage gestellt. Anlass hierzu geben unter anderem diverse Business-Intelligence-„Mythen“, die sich inzwischen als gültige Wahrheiten verbreiten. Demnach hat beispielsweise das Data Warehouse ausgedient. Auch die Datenqualität scheint durch einen angedachten Verzicht auf Datenmodellierung und Single Point of Truth an Relevanz zu verlieren. Der konkrete Blick in den Projektalltag führt indes ein anderes Bild zu Tage. lesen

Infomotion und Tableau werden Partner

Strategische Zusammenarbeit

Infomotion und Tableau werden Partner

Dank einer Alliance-Partnerschaft können Kunden des BI- und Analytics-Beratungshauses Infomotion künftig direkt auf das Portfolio des Analytics-Spezialisten Tableau zugreifen. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44681573 / Definitionen)