Definition

Was ist ein Data Warehouse?

| Autor / Redakteur: Tutanch / Nico Litzel

(© aga7ta - Fotolia)

Das Data Warehouse stellt ein zentrales Datenbanksystem dar, das zu Analysezwecken im Unternehmen einsetzbar ist. Das System extrahiert, sammelt und sichert relevante Daten aus verschiedenen heterogenen Datenquellen und versorgt nachgelagerte Systeme.

Der Begriff Data Warehouse beschreibt eine Plattform, die Daten aus verschiedenen Datenquellen sammelt, verdichtet, sie langfristig sichert und nachgelagerte Analysesysteme versorgt. Oft wird das Data Warehouse auch als Datenlager bezeichnet. Vorteil des Datenlagers ist, dass eine globale Sicht auf Daten aus unterschiedlichen Datenbeständen entsteht. Gleichzeitig vereinfacht sich der Zugriff auf die Daten für Anwender, da sie in einer zentralen Datenbank konsistent und strukturiert bereitgestellt sind.

Den nachgelagerten Anwendungen bietet das Data Warehouse spezifisch erstellte Auszüge, die sogenannten Data Marts. Die bereitgestellten Daten lassen sich nach bestimmten Mustern analysieren und beispielsweise zur Ermittlung von betrieblichen Kennzahlen einsetzen. Oft stellt das Datenlager die Ausgangsbasis für das Data Mining dar. Die Gesamtheit aller Prozesse zur Datenbeschaffung, Verwaltung, Sicherung und Bereitstellung der Daten nennt sich Data Warehousing.

Das Data Warehousing ist in vier Teilprozesse aufteilbar:

  • Datenbeschaffung: Beschaffung und Extraktion der Daten aus verschiedenen Datenbeständen
  • Datenhaltung: Speicherung der Daten im Datenlager inklusive Langzeitarchivierung
  • Datenversorgung: Versorgung der nachgelagerten Systeme mit den benötigten Daten, Bereitstellung von Data Marts
  • Datenauswertung: Analysen und Auswertungen der Datenbestände

Architektur und Prozesse des Data Warehouse

Die Prozesse des Data Warehouse lassen sich in einem Architekturschaubild vier verschiedenen Bereichen zuordnen. Diese vier Bereiche sind:

  • die Quellsysteme,
  • die Data Staging Area,
  • die Data Presentation Area sowie
  • die Data Access Tools.

Die Daten für das Datenlager werden von verschiedenen Quellsystemen bereitgestellt. Die Staging Area des Data Warehouse extrahiert, strukturiert, transformiert und lädt die Daten aus den unterschiedlichen Systemen. Über die Staging Area gelangen die Daten in die eigentliche Datenbank des Datenlagers. Diese Datenbank stellt eine parallele Speicherplattform, die Data Presentation Area, zu den eigentlichen Quellsystemen dar und ermöglicht einen separaten Datenzugriff für Anwendungen und nachgelagerte Systeme.

Der Datenzugriff erfolgt über diverse Data Access Tools auf verschiedenen Ebenen, den sogenannten Data Marts. In der Regel basiert das Data Warehouse auf relationalen Datenbanken, die sich mittels SQL-Abfragen (Structured Query Language) auslesen lassen. Bei besonders großen Datenmengen kommen oft OLAP-Datenbanken (Online Analytical Processing) für eine hierarchische Strukturierung der Daten zum Einsatz.

Das Data Warehouse wird meist in regelmäßigen Abständen mit neuen Daten beladen. Mehr und mehr setzen sich Systeme durch, bei der die Datenversorgung des Datenlagers in Echtzeit erfolgt. Das Data Warehouse sorgt für die saubere Trennung von operativen und auswertenden Systemen und ermöglicht Analysen in Echtzeit. Diese sind wiederum dafür nutzbar, operative Systeme zu steuern.

Das Data Warehouse im Unternehmensumfeld

Im Unternehmensumfeld kommt das Data Warehouse in vielen Bereichen zum Einsatz. Es soll als unternehmensweit nutzbares Instrument verschiedene Abteilungen und die Entscheider flexibel unterstützen. Das Datenlager stellt die benötigten Daten für die Anwender zur Analyse von Unternehmensprozessen und -kennzahlen bereit. Für folgenden Aufgaben ist das Datenlager nutzbar:

  • Kosten- und Ressourcenermittlung,
  • Analyse von Geschäfts- und Produktionsprozessen,
  • Bereitstellung von Reports und Statistiken,
  • Ermittlung von Unternehmenskennzahlen,
  • Bereitstellung von Daten für weitergehende Analysen und Data Mining sowie
  • Strukturierung und Harmonisierung von Datenbeständen für eine globale Unternehmenssicht.

Big Data – der Data Lake als Ergänzung zum Data Warehouse

Eine Schwäche des Data Warehouse ist, dass es sich hauptsächlich auf die Beschaffung und Bereitstellung von herkömmlichen, strukturierten Daten vornehmlich aus SQL-Datenbanken konzentriert. Im Big-Data-Umfeld ist es allerdings notwendig, auf eine Vielzahl an Informationen zuzugreifen, die oft nur in unstrukturierter Form zur Verfügung stehen. Zudem sind deutlich größere Datenmengen zu beschaffen und bereitzustellen.

Um diese Herausforderungen zu meistern, ist das ergänzende Konzept des Data Lakes entstanden. Das Data Warehouse kann mithilfe des Data Lakes zu einer Big-Data-Analyseplattform ausgebaut werden. Der Data Lake bietet hohe Speicherkapazität und ermöglicht es, große Datenmengen abzulegen. Gleichzeitig ist er in der Lage, verschiedenste Datenformate, auch unstrukturierte, zu verarbeiten. Die im Data Lake gespeicherten Daten können bei Bedarf für Analysen herangezogen werden.

Allerdings sind die heterogenen Data-Lake-Informationen in einem Zwischenschritt aufzubereiten, damit Anwender mit den passenden Werkzeugen darauf zugreifen können. Durch geeignete Transformationen entstehen aus den unstrukturierten Rohdaten des Data Lakes strukturierte Datenbestände, die sich mit den Data Access Tools des Data Warehouse darstellen und analysieren lassen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

So verändert die Cloud Datenbankarchitekturen

Kommentar von Thomas Scholz, Snowflake Computing

So verändert die Cloud Datenbankarchitekturen

Neue Datenbankgenerationen machen den Unterschied zwischen Systemen, die für analytische Workloads optimiert sind und solchen, die sich am besten für transaktionale Aufgaben eignen, nicht obsolet. Daran ändert auch die Cloud nichts – sie hält aber Möglichkeiten bereit, Analytics-Lösungen noch besser zu machen. lesen

Informatica kündigt iPaaS für Microsoft Azure an

Native Integration

Informatica kündigt iPaaS für Microsoft Azure an

Der Spezialist für Enterprise Cloud Data Management Informatica erweitert seine Präsenz auf Microsoft Azure. Verschiedene Lösungen sind dort künftig mit einem Klick erreichbar und nativ integriert. lesen

Warum Big Data und BI künftig verschmelzen

Kommentar von Mark Zimmermann, Infomotion

Warum Big Data und BI künftig verschmelzen

Alle Unternehmen sammeln mittlerweile Daten – aber die wenigsten verarbeiten sie effizient. Ein Grund dafür ist häufig die organisationsinterne Trennung von Business Intelligence und Big Data. Meist verarbeiten Unternehmen sie in jeweils unterschiedlichen Abteilungen: Der CIO ist für BI verantwortlich, der CDO für die innovativen Big-Data-Projekte. Doch genau hier gehen Effizienz und Synergien verloren. Künftig werden beide Bereiche immer stärker zur Data Science verschmelzen. lesen

Cloudera gründet drei neue Geschäftsbereiche

Machine Learning, Analytics und Cloud

Cloudera gründet drei neue Geschäftsbereiche

Mit der Etablierung von drei neuen Geschäftsbereichen will Cloudera seine Initiativen in den Bereichen Machine Learning, Analytics und Cloud stärken. lesen

Big-Data-Datenbanken

E-Book von BigData-Insider

Big-Data-Datenbanken

Big-Data-Datenbanken sollen die unterschiedlichsten Datentypen schnell und effizient verarbeiten. Sie lösen die herkömmlichen, überwiegend relationalen Datenbanktypen ab, die meist ein Data Warehouse unterstützen. Sie lösen sie ab, um neue Geschäftsmodelle zu ermöglichen, oder sie ergänzen die Data-Warehouse-Architektur mit notwendige Fähigkeiten, etwa für Data Discovery, Realtime Analytics und Advanced Analytics (Prognose). lesen

Sicherheitsbedenken behindern Datenintegration

Datensicherheit und Compliance

Sicherheitsbedenken behindern Datenintegration

Für Business-Analysen ist es längst üblich, Informationen aus verschiedenen Datenbanken zusammenzuführen (zu integrieren). Dabei kommt es nicht nur zu Verletzungen der Quelldaten, sondern es treten auch gleichzeitig riskante Verletzungen von Sicherheits- und Compliance-Regeln auf. Es geht aber auch anders. lesen

MicroStrategy in Version 10.11 verfügbar

Funktionsumfang erweitert

MicroStrategy in Version 10.11 verfügbar

Ab sofort ist die Visual-Data-Discovery-Lösung MicroStrategy in Version 10.11 verfügbar. Sie enthält erweiterte Funktionen für Geoanalytik und intelligente Content-Empfehlungen. Zudem wurde die Performance verbessert. lesen

Teradata befindet die Public Cloud reif für Analytics

Nachbericht Teradata Universe London 2018

Teradata befindet die Public Cloud reif für Analytics

Das Thema der diesjährigen „Teradata Universe“ lautete: Analytics in der Cloud. Wie bitte? Cloud ist doch längst ein „Nobrainer“, wie es im Business-Deutsch heißt. Aber nicht im Analytics-Umfeld, kontert Oliver Ratzesberger, Chief Operations Officer (COO) der Teradata Corp., San Diego. Eine durchgängige Analytics-Umgebung, die on premise und mit derselben Lizenz auch in diversen Cloud-Umgebungen laufe, die mit fremden Tools integrierbar und vor allem skalierbar sei – das habe es bislang nicht gegeben. lesen

Hortonworks baut DataPlane Services weiter aus

Nachbericht DataWorks Summit Berlin 2018

Hortonworks baut DataPlane Services weiter aus

Hortonworks hat mit dem Data Steward Studio (DSS) einen weiteren Service in seiner DataPlane-Service-Ebene angekündigt. Die DataPlane Services bilden eine Ebene plattformübergreifender Dienste, die auf der Hortonworks Data Platform (HDP) und auf der Hortonworks Data Flow Platform (HDF) aufsetzen. Auch Partnerprodukte können so in der Cloud bereitgestellt und genutzt werden. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44681573 / Definitionen)