Daten richtig managen Vom Data Warehouse zum Data Lakehouse
Anbieter zum Thema
Geschäftskunden und Data Scientists haben verschiedene Bedürfnisse beim Umgang mit Daten. Mit dem Konzept des Data Lakehouse soll die Quadratur des Kreises gelingen, die beide Zielgruppen zufrieden stellt. Wie lässt sich das am besten in der Praxis umsetzen?

Ein in den Medien populärer, allerdings platter Vergleich zieht eine Analogie zwischen Daten und Gold. Wer sich intensiver mit der Materie beschäftigt, weiß jedoch, dass Unternehmen heute eher in Daten ersticken. Das Wertvolle daran sind die Erkenntnisse, die sich aus ihnen gewinnen lassen. Bevor diese aber entstehen können, müssen die Daten gespeichert werden – und hier ringen verschiedene Konzepte miteinander.
Data Warehouse – die Datenquelle für Business-Analysten
Das Konzept des Data Warehouse ist seit Jahren bekannt und kommt in vielen Unternehmen zum Einsatz. Es handelt sich, abstrakt und unabhängig vom Hersteller der Lösung betrachtet, um eine zentrale Datenbank, die Daten aus verschiedenen Quellen zusammenführt. Das Data Warehouse wurde in Hinblick auf Business-Analysen entwickelt und stammt aus einer Zeit, als die Methoden der Künstlichen Intelligenz noch in den Kinderschuhen steckten.
Die Daten werden in einem Data Warehouse in strukturierter Form auf Basis einer Data Governance abgelegt. Damit Business User einen Erkenntnisgewinn aus den Daten ziehen können, erfolgt der Zugriff dann in der Regel mittels Structured Query Language (kurz: SQL). Wenn beispielsweise eine Bank aus Gründen der Compliance einen Report für das Risikomanagement erstellt oder in der Buchhaltung Listen von transaktionalen Daten entstehen, laufen im Hintergrund SQL-Abfragen ab. Hier gibt es je nach Branche eine Reihe von Standardfunktionen, die Hersteller bereits mitgeliefert haben. Geht es um Erkenntnisse, die davon abweichen, müssen Abfragen individuell entwickelt werden. Hier sind die Business User dann auf die Hilfe der hauseigenen Experten angewiesen. Diesen zeitlichen Nachteil versuchen spezielle Business Intelligence Tools wie Power BI oder Tableau zu korrigieren. Sie ähneln in der Optik und im Umgang aus Sicht der Endanwender einer klassischen Tabellenkalkulation.
Data Lakes als Goldader für Data Scientists
In vielen Unternehmen fallen heute riesige Datenmengen abseits von reinen Transaktionsdaten an, die gerade für Data Scientists von Interesse sind. Diese Daten sind durch eine deutliche geringere oder fehlende Struktur gekennzeichnet. Das können zum Beispiel Textdaten sein, wie sie in Callcenter-Gesprächen, Verträgen oder Krankenberichten sowie anderen Quellen vorkommen. Hinzu kommen vor allem aus der Welt des Internet of Things und anderer vernetzenden Entwicklungen: Bilder, die bei Experimenten mit autonomem Fahren entstehen, Daten, die in Produktionsmaschinen anfallen, Temperatursensoren oder andere IoT-Devices, die allesamt Daten erzeugen, die Data Scientists bei Analysen, Prognosen oder dem Machine Learning interessieren.
Solche Daten passen nicht oder nur schwer in die Strukturen eines Data Warehouse. Außerdem ist die Speicherung darin auch betriebswirtschaftlich verhältnismäßig teuer. Für die Nutzung der Daten eignet es sich auch nicht: Um Daten für einen KI-Prozess vorzubereiten, ist ein ETL-Prozess wie Extrahieren, Transformieren und Laden notwendig, um die Informationen in das gewünschte Format zu transformieren. Dieser ETL-Prozess müsste vom Data Warehouse geleistet werden, was zulasten der Performance geht. Zudem nutzen Data Scientists in der Regel andere Tools, um auf Daten zuzugreifen, etwa Python oder R als Programmiersprachen, mit denen dann auch Bibliotheken des maschinellen Lernens wie das bekannte Tensorflow angesprochen werden können.
Um die Aufgabe für Data Scientists im Big-Data-Umfeld zu vereinfachen, wurde das Konzept des Data Lakes entwickelt. Ein Speichersystem, das strukturierte, unstrukturierte und semi-strukturierte Daten aufnimmt. Dabei handelt es sich bildlich gesprochen um eine Goldader, aus der die Experten mit ihren Werkzeugen schürfen können.
Der Data Lake wird benötigt, um Daten-getriebene Lösungen mit KI im Kern sowohl für interne als auch für kundenorientierte Anwendungen zu entwickeln, die entweder online, d. h., als Reaktion auf Benutzereingaben, oder im Batch-Modus ausgeführt werden.
:quality(80)/p7i.vogel.de/wcms/e6/1b/e61b871d24c47935faadb6940fde88c6/0107196930.jpeg)
Künstliche Intelligenz
Keine KI ohne zielführende Datenarchitektur
Empfindliches Ökosystem im Data Lake
Ein Gewässer in der Natur kann durch externe Faktoren umkippen. Das Ökosystem verändert sich und aus einem See wird ein unappetitlicher Tümpel voller Algen und Morast. Auch der Data Lake ist von diesem Schicksal bedroht. Das passiert vor allem dann, wenn Unternehmen das Datalake-Framework einführen und versuchen, das Data Warehouse durch Data Lake zu ersetzen, um die Kosten zu senken. Dies liegt einerseits an den schieren Datenmengen, die darin abgelegt werde. Um die Analogie fortzusetzen, der See wird stets tiefer und dehnt sich aus. Da anders als bei einem Data Warehouse eine klare Data Governance fehlt, landen im Data Lake zwar immer mehr Daten, denen teilweise Informationen entzogen sind. Informationen, die einen Data User aber in seiner Arbeit vielleicht zu einem späteren Zeitpunkt interessiert hätten, wenn sich seine Frage verändert. Ein solcher Sumpf ist etwa durch zu viele Daten ohne jegliche Organisation, fehlende Meta-Informationen oder fehlende oder falsche Zeitstempel der Daten gekennzeichnet.
Wenn sich ein Unternehmen nur auf die Erstellung von datenzentrierten Lösungen konzentriert und über erfahrene Data Scientists und Ingenieure verfügt und den gesamten Erstellungsprozess weitgehend automatisiert, ist Data Lake die richtige Wahl. Wenn ein Unternehmen jedoch auch den Datenbedarf von Geschäftsanwendern und Analysten über Data Lake abdecken möchte, wird das nicht funktionieren.
:quality(80)/images.vogel.de/vogelonline/bdb/1855800/1855824/original.jpg)
Kommentar von Dimitri Dumonet, Emax Digital
Vom Data Warehouse und Data Lake zum Lakehouse
Zwei in einem: das Konzept Data Lakehouse
Wie wir derzeit sehen, verwenden die meisten Firmen Daten sowohl, um datengesteuerte Entscheidungen zu treffen – hier wird das Data Warehouse benötigt - als auch datengesteuerte Lösungen zu entwickeln, wofür sich der Data Lake anbietet. Wenn Unternehmen beide Anwendungsfälle abdecken, entscheiden sich die meisten von ihnen für Data Lake als Lösung, um, wie es auf den ersten Blick scheint, Kosten zu senken. In diesem Fall ist es für die Geschäftsanwender schwierig, die Daten zu bekommen, die sie benötigen. Der Data Lake beherbergt zu viele Daten und die Daten-Ingenieure erhalten zu viele Anfragen sowohl von Data Scientists als auch von Geschäftsanwendern. Anschließend beginnt der Datensee zu stinken. Wie die Praxis zeigt, werden dann beide Systeme parallel betrieben, was mit hohen Kosten, Komplexität und Datensilos verbunden ist.
Während sich viele Unternehmen gerade erst mit dem Konzept des Data Lakes beschäftigen, haben andere Organisationen, die bereits weiter fortgeschritten sind, das Konzept des Lakehouse entwickelt. Es soll die Vorteile beider Konzepte miteinander vereinen.
Ein Lakehouse nimmt strukturierte, unstrukturierte und semi-strukturierte Daten auf. Zugleich umfasst es aber auch eine analytische Infrastruktur, die es erlaubt, den Sinn der Daten zu verstehen. Somit vereinfacht es die Analyse von IoT-Daten, weil das Lakehouse-Konzept ähnliche Datenstrukturen und Verwaltungsfunktionen implementiert, wie sie in einem Data Warehouse eingesetzt werden. Allerdings nutzt das Lakehouse den günstigeren Datenspeicher, wie er in einem Data Lake üblich ist.
Das Konzept des Lakehouse will die unterschiedlichen Anforderungen von Business Nutzern und Data Scientists gleichermaßen erfüllen. So lassen sich Governance- und Sicherheitskontrollen einrichten, was eine granulare Steuerung der Zugriffe erlaubt und zudem zur Datenqualität beiträgt. Über Schnittstellen kann sowohl mittels SQL oder andere Programmiersprachen auf die Daten zugegriffen werden. Im Kontext der Compliance, beispielsweise der DSGVO, ist es notwendig, dass Daten gezielt aktualisiert, aber auch gelöscht werden können. Zudem kann auch die Erfassung von Änderungszuständen relevant sein. Was in einem Data Warehouse zum Standard gehört, überträgt das Lakehouse auf den Data Lake. Für Entwickler interessant ist die Option, mit Snapshots zu arbeiten, die die Rückkehr zu früheren Datenversionen für Rollbacks oder zur Reproduktion von Experimenten erlauben.
Damit bietet das Konzept Lakehouse einige gewichtige Argumente, die für diesen Ansatz sprechen. Unternehmen sollten sich die Frage stellen, ob eine Migration in Richtung des neuesten Konzepts sinnvoll und notwendig ist.
Es wird weiter auf den Einzelfall ankommen
Beide Konzepte Data Warehouse und Data Lake besitzen individuelle Vorteile, werden aber voraussichtlich in den kommenden Jahren parallel bestehen. Das Data Warehouse wird seine Daseinsberechtigung kaum verlieren. Das Konzept hat sich insbesondere bei transaktionalen Daten bewährt. Überall dort, wo es auf strenge Data Governance ankommt und strukturierte Daten verarbeitet und analysiert werden müssen, wird es weiter seine Vorteile ausspielen. Zudem darf in diesem Zusammenhang nicht vergessen werden, dass in zahlreichen Branchen der Geschäftswert der Daten nicht isoliert betrachtet werden darf. Regulatorische Vorgaben in Hinblick auf Geschäftsberichte oder Reportings in Sachen Risikomanagement oder Compliance wurden mit teilweise hohen Investitionen im Data Warehouse umgesetzt. An dieses Ökosystem sind oftmals unzählige zusätzliche Tools und Lösungen für Linienfunktionen angedockt. Hier werden Unternehmen eine Veränderung berechtigterweise scheuen.
Firmen, die sich nur auf die Erstellung von datenzentrierten Lösungen mit Echtzeit-/Batch-Analysen konzentrieren, sollten sich für Data Lake entscheiden. Wenn ein Unternehmen jedoch beide Anwendungsfälle abdecken möchte, ist Lakehouse die richtige Wahl.
Dieser Artikel stammt von unserem Partnerportal Industry of Things.
* Elena Fomenko ist Senior Data Scientist und Data Thinking Expertin bei Detecon Digital Engineering Center.
(ID:48726414)