Kommentar von Dr. Frank Säuberlich, Teradata So bereinigt ein Data-Lake-zentrierter Modernisierungsansatz das Daten- und Analysechaos

Von Dr. Frank Säuberlich 4 min Lesedauer

Anbieter zum Thema

Unternehmen verlassen sich heute häufig auf mehrere Daten- und Analysetechnologien, die in einem unzusammenhängenden Netz organisiert sind. Diese Technologien gaben den Anwendern und Teams anfangs mehr Kontrolle über ihre eigenen Rechen- und Speicherkapazitäten. Die fortschreitende Integration neuer Technologien führte jedoch zu einer massiven technischen Komplexität und riesigen Problemen im Datenmanagement.

Der Autor: Dr. Frank Säuberlich ist AI Industry Specialist bei Teradata(Bild:  Teradata)
Der Autor: Dr. Frank Säuberlich ist AI Industry Specialist bei Teradata
(Bild: Teradata)

Das Data Warehouse setzt auf eine enge Verknüpfung von Speicher- und Rechenleistung in einer einzigen Anwendung. Die verschiedenen Datenquellen werden für den Rechenbedarf in das Data Warehouse eingespeist.(Bild:  Teradata)
Das Data Warehouse setzt auf eine enge Verknüpfung von Speicher- und Rechenleistung in einer einzigen Anwendung. Die verschiedenen Datenquellen werden für den Rechenbedarf in das Data Warehouse eingespeist.
(Bild: Teradata)

Den Anfang der Datenmanagementsysteme bildete das On-Premises Data Warehouse im eigenen Rechenzentrum. Das Prinzip des Data Warehouse sieht eine enge Verknüpfung von Speicher- und Rechenleistung in einer einzigen Anwendung vor, über die verschiedene Datenquellen für den Rechenbedarf in das Data Warehouse eingespeist werden. Einmal eingespeiste Daten können von verschiedenen Abteilungen und Organisationen mehrfach genutzt werden. So wurde eine „single source of truth“ geschaffen, was einerseits die Verwaltung vereinfachte, aber andererseits auch Einschränkungen für das Unternehmen mit sich brachte: Zum Beispiel mussten die Benutzer Schlange stehen, um ihre Daten von der IT-Abteilung laden zu lassen oder ihre Arbeit in der Analyseumgebung zu erledigen.

Data Marts lösen das Problem der Ressourcenkonkurrenz zwischen den Geschäftsbereichen, führen aber zu neuen und größeren Problemen. Es werden viele Datenpipelines vom Data Warehouse in die Data Marts hinzugefügt und dadurch viele Daten dupliziert.(Bild:  Teradata)
Data Marts lösen das Problem der Ressourcenkonkurrenz zwischen den Geschäftsbereichen, führen aber zu neuen und größeren Problemen. Es werden viele Datenpipelines vom Data Warehouse in die Data Marts hinzugefügt und dadurch viele Daten dupliziert.
(Bild: Teradata)

Deshalb wurden Data Marts eingeführt, um Unternehmen mehr Flexibilität zu bieten, damit jedes Team unabhängig seine eigene Umgebung nutzen konnte. So konnten Unternehmen zwar das Problem der Ressourcenkonkurrenz zwischen den Geschäftsbereichen lösen, letztendlich führte dies aber zu neuen und größeren Problemen. Es wurden viele Datenpipelines vom Data Warehouse in die Data Marts hinzugefügt und dadurch viele Daten dupliziert. Außerdem wurden oft mehrere unterschiedliche Technologien parallel verwendet, was die Verwaltung von SLAs, Kosten und Sicherheit äußerst schwierig und zeitaufwendig gestaltete. Insgesamt wuchs damit das Daten- und Datenverarbeitungsproblem.

Data Lakes wurden eingeführt, um dem exponentiellen Anstieg der Datenmengen zu begegnen, der im Zuge des Big Data Hypes entstand. Allerdings wurde dadurch das Chaos noch größer, denn nun gab es riesige Datenmengen in unterschiedlichsten Formaten.(Bild:  Teradata)
Data Lakes wurden eingeführt, um dem exponentiellen Anstieg der Datenmengen zu begegnen, der im Zuge des Big Data Hypes entstand. Allerdings wurde dadurch das Chaos noch größer, denn nun gab es riesige Datenmengen in unterschiedlichsten Formaten.
(Bild: Teradata)

Später wurden Data Lakes eingeführt, um dem exponentiellen Anstieg der Datenmengen zu begegnen, der im Zuge des Big Data Hypes entstand. Die Cloud ermöglichte es Data Lakes, riesige Datenmengen zu niedrigen Kosten zu speichern, sodass Unternehmen weiterhin in Big Data investieren konnten. Allerdings wurde dadurch das Chaos noch größer, denn nun gab es riesige Datenmengen in unterschiedlichsten Formaten. Die Daten wurden erneut dupliziert – diesmal fehlte jedoch die Rechenleistung, die für eine ausreichend schnelle Ausführung von Arbeitslasten erforderlich ist.

Cloud

In kürzester Zeit kamen daraufhin eine Fülle von Cloud-fähigen Technologien wie ETL, Data Mining und Data Science Tools auf den Markt, die diese Data Lakes ergänzen sollten. Unternehmen investierten massiv in diese neuen Cloud-fähigen Technologien neben dem existierenden Data Warehouse, ohne dass es eine effektive Möglichkeit gab, das wachsende Daten- und Analysechaos ganzheitlich zu verwalten.

Heutige Situation in vielen On-Premises-Umgebungen(Bild:  Teradata)
Heutige Situation in vielen On-Premises-Umgebungen
(Bild: Teradata)

Wie sich heute deutlich zeigt, wurde das Daten- und Datenverarbeitungsproblem also unüberschaubar. Jede Unternehmensabteilung hatte ihre eigenen Daten, die über verschiedene Ordnungsstrukturen, Technologien und Pipelines verstreut waren. Und obwohl diese Entscheidungen zum damaligen Zeitpunkt richtig gewesen sein mögen, hatten sie enorme negative Auswirkungen auf das Unternehmen, wie beispielsweise Zugriffseinschränkungen, Engpässe für Abfragen und Analysen, schlechte Auslastungsverteilung, Verwaltungsprobleme und vor allem steigende Kosten. Ab einem bestimmten Punkt gerät der geschäftliche Nutzen einer Analyse- und Datenplattform ins Stocken. Wie also können Unternehmen dieses Daten- und Datenverarbeitungschaos entwirren?

Ein Data-Lake-zentrierter Modernisierungsansatz

Der Data-Lake-Ansatz(Bild:  Teradata)
Der Data-Lake-Ansatz
(Bild: Teradata)

Die Antwort liegt in einem Data-Lake-zentrierten Modernisierungsansatz zur Konsolidierung von Daten, Rechenleistung und Technologien in einer ganzheitlichen Cloud-Umgebung. Eine Cloud-native Architektur bietet die entscheidende Möglichkeit, Rechenleistung und Speicher zu trennen. Indem die physische Hardware einer Umgebung vor Ort durch in der Cloud bereitgestellte Rechen- und Speicherkapazitäten ersetzt wird, kann das Unternehmen jede Ressource flexibel und taktisch klug je nach Bedarf vergrößern und verkleinern.

Zwei Schlüsselkomponenten

Es gibt zwei Schlüsselkomponenten, die es einem Unternehmen ermöglichen, sein Daten- und Analysechaos zu entflechten. Der erste Teil der Lösung besteht darin, hinsichtlich der Datenspeicherung jede Datenstruktur in einem zentralisierten, kostengünstigen Objektspeicher zu konsolidieren. Wenn in der Cloud ein Objektspeicher bereitgestellt wird, der die Abfrage von offenen Datenformaten und Datenbankdateiformaten unterstützt, die im Lake Object File System (OFS) gespeichert sind, optimiert das die Leistung der Datenbank. Auf der Rechenseite besteht die zweite Komponente darin, dass mehrere sogenannte Compute Clusters für den Zugriff auf Daten innerhalb des zentralisierten Objektspeichers verwendet werden können. Das macht physische Versionen verschiedener Data Marts überflüssig, da das Unternehmen einfach mehrere Compute Clusters verwenden kann, die auf derselben Instanz laufen.

Ein kostengünstiger, zentralisierter Objektspeicher für die Datenspeicherung und mehrere, unabhängige Compute Clusters für die Datenverarbeitung schaffen Ordnung.(Bild:  Teradata)
Ein kostengünstiger, zentralisierter Objektspeicher für die Datenspeicherung und mehrere, unabhängige Compute Clusters für die Datenverarbeitung schaffen Ordnung.
(Bild: Teradata)

Wie entwirrt sich dadurch das Daten- und Analysechaos? Ein kostengünstiger, zentralisierter Objektspeicher für die Datenspeicherung und mehrere, unabhängige Compute Clusters für die Datenverarbeitung schaffen Ordnung. Da auf einer Cloud-nativen Architektur gearbeitet wird, ist man nicht mehr auf das Paradigma der On-Prem-Struktur beschränkt. So können Data Warehouses, Marts und Lakes in eine konsolidierte Cloud-Umgebung migriert und so das Durcheinander bei den Daten aufgeräumt werden. Zudem ist es möglich mit einer einzigen Kopie der Daten im Objektspeicher zu arbeiten. Das bereinigt die Datenpipelines und umgeht die Duplizierung und das Verschieben von Daten. So können Rechenressourcen über Compute Clusters bereitgestellt und verwaltet werden, was wiederum unnötige Ausgaben durch Data Marts sowie Leistungsineffizienzen vermeidet.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

So schaffen Unternehmen eine autonome und agile Daten-Umgebung. Idealerweise wird das durch ein Self-Service-Modell ergänzt, mit dem Mitarbeiter benötigte Daten selbst abrufen können, ohne die IT-Abteilung darum bitten zu müssen. Das wiederum entlastet die IT für andere wichtige Aufgaben.

Artikelfiles und Artikellinks

(ID:49961352)