So bereinigt ein Data-Lake-zentrierter Modernisierungsansatz das Daten- und Analysechaos

Kommentar von Dr. Frank Säuberlich, Teradata So bereinigt ein Data-Lake-zentrierter Modernisierungsansatz das Daten- und Analysechaos

15.05.2024 Von Dr. Frank Säuberlich 4 min Lesedauer

Anbieter zum Thema

Teradata GmbH

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

INFOMOTION GmbH

Fivetran Germany GmbH

Unternehmen verlassen sich heute häufig auf mehrere Daten- und Analysetechnologien, die in einem unzusammenhängenden Netz organisiert sind. Diese Technologien gaben den Anwendern und Teams anfangs mehr Kontrolle über ihre eigenen Rechen- und Speicherkapazitäten. Die fortschreitende Integration neuer Technologien führte jedoch zu einer massiven technischen Komplexität und riesigen Problemen im Datenmanagement.

Der Autor: Dr. Frank Säuberlich ist AI Industry Specialist bei Teradata(Bild: Teradata) — Der Autor: Dr. Frank Säuberlich ist AI Industry Specialist bei Teradata
(Bild: Teradata)

Das Data Warehouse setzt auf eine enge Verknüpfung von Speicher- und Rechenleistung in einer einzigen Anwendung. Die verschiedenen Datenquellen werden für den Rechenbedarf in das Data Warehouse eingespeist.(Bild: Teradata) — Das Data Warehouse setzt auf eine enge Verknüpfung von Speicher- und Rechenleistung in einer einzigen Anwendung. Die verschiedenen Datenquellen werden für den Rechenbedarf in das Data Warehouse eingespeist.
(Bild: Teradata)

Den Anfang der Datenmanagementsysteme bildete das On-Premises Data Warehouse im eigenen Rechenzentrum. Das Prinzip des Data Warehouse sieht eine enge Verknüpfung von Speicher- und Rechenleistung in einer einzigen Anwendung vor, über die verschiedene Datenquellen für den Rechenbedarf in das Data Warehouse eingespeist werden. Einmal eingespeiste Daten können von verschiedenen Abteilungen und Organisationen mehrfach genutzt werden. So wurde eine „single source of truth“ geschaffen, was einerseits die Verwaltung vereinfachte, aber andererseits auch Einschränkungen für das Unternehmen mit sich brachte: Zum Beispiel mussten die Benutzer Schlange stehen, um ihre Daten von der IT-Abteilung laden zu lassen oder ihre Arbeit in der Analyseumgebung zu erledigen.

Data Marts lösen das Problem der Ressourcenkonkurrenz zwischen den Geschäftsbereichen, führen aber zu neuen und größeren Problemen. Es werden viele Datenpipelines vom Data Warehouse in die Data Marts hinzugefügt und dadurch viele Daten dupliziert.(Bild: Teradata) — Data Marts lösen das Problem der Ressourcenkonkurrenz zwischen den Geschäftsbereichen, führen aber zu neuen und größeren Problemen. Es werden viele Datenpipelines vom Data Warehouse in die Data Marts hinzugefügt und dadurch viele Daten dupliziert.
(Bild: Teradata)

Deshalb wurden Data Marts eingeführt, um Unternehmen mehr Flexibilität zu bieten, damit jedes Team unabhängig seine eigene Umgebung nutzen konnte. So konnten Unternehmen zwar das Problem der Ressourcenkonkurrenz zwischen den Geschäftsbereichen lösen, letztendlich führte dies aber zu neuen und größeren Problemen. Es wurden viele Datenpipelines vom Data Warehouse in die Data Marts hinzugefügt und dadurch viele Daten dupliziert. Außerdem wurden oft mehrere unterschiedliche Technologien parallel verwendet, was die Verwaltung von SLAs, Kosten und Sicherheit äußerst schwierig und zeitaufwendig gestaltete. Insgesamt wuchs damit das Daten- und Datenverarbeitungsproblem.

Data Lakes wurden eingeführt, um dem exponentiellen Anstieg der Datenmengen zu begegnen, der im Zuge des Big Data Hypes entstand. Allerdings wurde dadurch das Chaos noch größer, denn nun gab es riesige Datenmengen in unterschiedlichsten Formaten.(Bild: Teradata) — Data Lakes wurden eingeführt, um dem exponentiellen Anstieg der Datenmengen zu begegnen, der im Zuge des Big Data Hypes entstand. Allerdings wurde dadurch das Chaos noch größer, denn nun gab es riesige Datenmengen in unterschiedlichsten Formaten.
(Bild: Teradata)

Später wurden Data Lakes eingeführt, um dem exponentiellen Anstieg der Datenmengen zu begegnen, der im Zuge des Big Data Hypes entstand. Die Cloud ermöglichte es Data Lakes, riesige Datenmengen zu niedrigen Kosten zu speichern, sodass Unternehmen weiterhin in Big Data investieren konnten. Allerdings wurde dadurch das Chaos noch größer, denn nun gab es riesige Datenmengen in unterschiedlichsten Formaten. Die Daten wurden erneut dupliziert – diesmal fehlte jedoch die Rechenleistung, die für eine ausreichend schnelle Ausführung von Arbeitslasten erforderlich ist.

Cloud

In kürzester Zeit kamen daraufhin eine Fülle von Cloud-fähigen Technologien wie ETL, Data Mining und Data Science Tools auf den Markt, die diese Data Lakes ergänzen sollten. Unternehmen investierten massiv in diese neuen Cloud-fähigen Technologien neben dem existierenden Data Warehouse, ohne dass es eine effektive Möglichkeit gab, das wachsende Daten- und Analysechaos ganzheitlich zu verwalten.

Heutige Situation in vielen On-Premises-Umgebungen(Bild: Teradata) — Heutige Situation in vielen On-Premises-Umgebungen
(Bild: Teradata)

Wie sich heute deutlich zeigt, wurde das Daten- und Datenverarbeitungsproblem also unüberschaubar. Jede Unternehmensabteilung hatte ihre eigenen Daten, die über verschiedene Ordnungsstrukturen, Technologien und Pipelines verstreut waren. Und obwohl diese Entscheidungen zum damaligen Zeitpunkt richtig gewesen sein mögen, hatten sie enorme negative Auswirkungen auf das Unternehmen, wie beispielsweise Zugriffseinschränkungen, Engpässe für Abfragen und Analysen, schlechte Auslastungsverteilung, Verwaltungsprobleme und vor allem steigende Kosten. Ab einem bestimmten Punkt gerät der geschäftliche Nutzen einer Analyse- und Datenplattform ins Stocken. Wie also können Unternehmen dieses Daten- und Datenverarbeitungschaos entwirren?

Ein Data-Lake-zentrierter Modernisierungsansatz

Der Data-Lake-Ansatz(Bild: Teradata) — Der Data-Lake-Ansatz
(Bild: Teradata)

Die Antwort liegt in einem Data-Lake-zentrierten Modernisierungsansatz zur Konsolidierung von Daten, Rechenleistung und Technologien in einer ganzheitlichen Cloud-Umgebung. Eine Cloud-native Architektur bietet die entscheidende Möglichkeit, Rechenleistung und Speicher zu trennen. Indem die physische Hardware einer Umgebung vor Ort durch in der Cloud bereitgestellte Rechen- und Speicherkapazitäten ersetzt wird, kann das Unternehmen jede Ressource flexibel und taktisch klug je nach Bedarf vergrößern und verkleinern.

Zwei Schlüsselkomponenten

Es gibt zwei Schlüsselkomponenten, die es einem Unternehmen ermöglichen, sein Daten- und Analysechaos zu entflechten. Der erste Teil der Lösung besteht darin, hinsichtlich der Datenspeicherung jede Datenstruktur in einem zentralisierten, kostengünstigen Objektspeicher zu konsolidieren. Wenn in der Cloud ein Objektspeicher bereitgestellt wird, der die Abfrage von offenen Datenformaten und Datenbankdateiformaten unterstützt, die im Lake Object File System (OFS) gespeichert sind, optimiert das die Leistung der Datenbank. Auf der Rechenseite besteht die zweite Komponente darin, dass mehrere sogenannte Compute Clusters für den Zugriff auf Daten innerhalb des zentralisierten Objektspeichers verwendet werden können. Das macht physische Versionen verschiedener Data Marts überflüssig, da das Unternehmen einfach mehrere Compute Clusters verwenden kann, die auf derselben Instanz laufen.

Ein kostengünstiger, zentralisierter Objektspeicher für die Datenspeicherung und mehrere, unabhängige Compute Clusters für die Datenverarbeitung schaffen Ordnung.(Bild: Teradata) — Ein kostengünstiger, zentralisierter Objektspeicher für die Datenspeicherung und mehrere, unabhängige Compute Clusters für die Datenverarbeitung schaffen Ordnung.
(Bild: Teradata)

Wie entwirrt sich dadurch das Daten- und Analysechaos? Ein kostengünstiger, zentralisierter Objektspeicher für die Datenspeicherung und mehrere, unabhängige Compute Clusters für die Datenverarbeitung schaffen Ordnung. Da auf einer Cloud-nativen Architektur gearbeitet wird, ist man nicht mehr auf das Paradigma der On-Prem-Struktur beschränkt. So können Data Warehouses, Marts und Lakes in eine konsolidierte Cloud-Umgebung migriert und so das Durcheinander bei den Daten aufgeräumt werden. Zudem ist es möglich mit einer einzigen Kopie der Daten im Objektspeicher zu arbeiten. Das bereinigt die Datenpipelines und umgeht die Duplizierung und das Verschieben von Daten. So können Rechenressourcen über Compute Clusters bereitgestellt und verwaltet werden, was wiederum unnötige Ausgaben durch Data Marts sowie Leistungsineffizienzen vermeidet.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

So schaffen Unternehmen eine autonome und agile Daten-Umgebung. Idealerweise wird das durch ein Self-Service-Modell ergänzt, mit dem Mitarbeiter benötigte Daten selbst abrufen können, ohne die IT-Abteilung darum bitten zu müssen. Das wiederum entlastet die IT für andere wichtige Aufgaben.

Artikelfiles und Artikellinks

Link: Teradata im Web

(ID:49961352)