Kommentar von Christian Lutz, Crate.io Die Datenbank von morgen ist eine Data-Management-Plattform
Anbieter zum Thema
Lange Zeit hat das Datenbankkonzept der Data Lakes den Business-Analytics-Markt bestimmt und gute Dienste geleistet. Moderne Technologien und neue Anwendungsfälle benötigen aber innovative Lösungen, die verschiedene Ansätze vereinen, Echtzeitzugriff bieten und äußerst kompatibel sind. Die Zukunft liegt in Data-Management-Plattformen.

Geht es darum, die besonders wichtige Rolle von Daten in der heutigen Zeit zu verdeutlichen, werden gerne Superlative bedient – und auch Vergleiche mit den wertvollsten Rohstoffen gezogen: Daten sind das neue Öl, manchmal auch das neue Gold. Die enormen Mengen dieser zentralen Ressource, neue Anwendungsfälle und innovative Technologien machen es allerdings notwendig, die Art und Weise, wie wir Data Processing betreiben, zu überdenken.
Vor einigen Jahren wurden Data Lakes zu einem frühen Standard für die Verarbeitung großer Datenmengen, die auch als Basis für die Durchführung von Geschäftsanalysen dienen. Heute sind die Anforderungen gestiegen, Echtzeit-Zugriff ist alternativlos und die Skalierbarkeit ein zentraler Knackpunkt. Hier kommen neue Konzepte zur Datenspeicherung ins Spiel, die Data Lakes nicht sofort radikal ersetzen müssen, aber zu einer deutlichen Beschleunigung führen können.
Der Begriff Data Lake ist unklar definiert, meint aber generell ein System, in dem Daten aller Art tabellenbasiert und im Rohdatenformat in der Cloud gespeichert werden. Typischerweise setzen Unternehmen hier auf Amazon Simple Storage Service (S3) oder mit diesem Cloud-Speicher kompatible Dienste. Der Aufwand, der bei dieser Praxis betrieben wird, ist groß. Daten liegen file-basiert vor und Nutzer müssen sie präparieren, bevor sie mit einem der zahllosen Tools darauf zugreifen können.
Umständliche Datensammlungsprozesse
In einer traditionellen Data-Lake-Architektur generieren verschiedenste Quellen, zum Beispiel Applikationen, Daten, die in verschiedenen Datenbanken gespeichert sind. Im nächsten Schritt ist bereits ein Problem dieses Data-Processing-Ansatzes erkennbar: Umständliche Datensammlungsprozesse verlangsamen sowohl die Synchronisierung als auch die Konsolidierung. Auch im Folgenden wird ein hoher technologischer Aufwand und menschliche Arbeitszeit benötigt, um die Daten verfügbar zu machen. In der Gesamtheit führt diese zu Grunde liegende Architektur letztendlich zu langsamen Dashboards und Analysen, bei gleichzeitig erhöhtem Aufwand und Kosten.
Unterm Strich muss dem Konzept der Data Lakes daher attestiert werden, dass es keine Zukunft haben wird – zu weit haben sich Technologie und die Ansprüche von modernen Anwendungen weiterentwickelt. Neueste Cloud-basierte Datenbank-Management-Systeme vereinen hingegen sowohl strukturierte als auch semi-strukturierte Daten und bieten Echtzeitzugriff, leichte Skalierbarkeit von Datenmengen und auch „Compute“, den Einsatz von Standardtools sowie die alles dominierenden Abfragesprache SQL.
Diesen modernen Data-Architekturen liegt die Verschmelzung von zwei unterschiedlichen Ansätzen zu Grunde. In der Vergangenheit gab es einerseits analytische Systeme, die datengetriebene Entscheidungen trafen, und andererseits operative Systeme, die für den Bau datengetriebener Produkte zuständig waren. Und auch wenn es in Zukunft weiter viele wichtige operative Systeme geben wird – ihr Einsatz ist alternativlos – können innovative Lösungen diese beiden Welten zusammenführen. Dieser Fortschritt ist realisierbar, indem moderne Datenbanklösungen die komplexe Infrastruktur von Data Lakes vereinfachen und für Analysen beschleunigen.
Ein paralleler Einsatz ist möglich
Das Aufkommen von neuen Technologien und Lösungen bedeutet daher nicht zwingend, dass Unternehmen ihre Data Lakes auf der Stelle trockenlegen und abschalten müssen. Ein paralleler Einsatz ist weiterhin möglich, etwa als Speicherort für nicht mehr benötigte „kalte“ Daten. Generell steht die Beschleunigung der Datenspeicherung und Vereinfachung der Datenverarbeitung im Vordergrund – dafür sollten Unternehmen ihre analytischen Daten weg von traditionellen Architekturen wie Data Lakes und hin zu modernen Lösungen transferieren.
Ein großer Vorteil der innovativen Cloud-Datenbank-Systeme liegt in den vereinfachten Zugriffen auf alle Daten in Echtzeit. Dabei ist die Flexibilität und Skalierbarkeit gewährleistet, so können Nutzer etwa zwischen schnellen und langsamen Discs als Speicherplatz wählen und trotzdem alle Daten im Zugriff haben. Data Lakes besitzen im Vergleich einen schwerfälligen Vorgang, bei dem der Anwender die Daten transformieren, laden und bearbeiten muss. Echtzeitzugriff ist hier nicht direkt möglich. Aber gerade dieser wird in Zukunft immer wichtiger werden, benötigen moderne Applikationen, KI-Frameworks oder Visualisierungstools doch blitzschnelle Plattformen als Unterbau, mit denen Entwickler ein reibungsloses Data Management realisieren können.
Auch die weitere Entwicklung für die Ansprüche im Umgang mit unstrukturierten Daten zeigt, dass Datenbanken auf innovative Technologien setzen müssen. Denken wir aber einen Schritt weiter als heute, wo heute Bilder und Videos bereits explosionsartig produziert werden. Zukünftig wird es möglich sein, diese so zu speichern, dass Nutzer sie mit den KI-Algorithmen von morgen suchen können, ähnlich wie bei der bereits existierenden Google Image Search, nur umgekehrt. Die Echtzeit-Analyse solcher komplexer Datenobjekte wird einen großen, spannenden Markt im Business- und Consumer-Bereich entstehen lassen, der mit Konzepten wie Data Lakes nicht mehr umsetzbar ist.
Um die großen Veränderungen im Bereich der Datenbank-Management-Systeme zu verstehen, lohnt sich ein Blick zurück. Für lange Zeit bestanden Architekturen – vereinfacht gesprochen – aus übersichtlichen Elementen: Während die Datenbank faktisch das Backend darstellte, bauten findige Entwickler ihre Applikationen im Frontend. Die Beobachtung der letzten Jahre zeigt, dass diese Art der Architektur sich einer Transformation gegenübersieht.
Der Markt verändert sich
Leistungsfähige Data-Management-Plattformen treten auf den Plan und verändern den Markt, der sich an die Anforderungen der Entwickler und Technologien anpasst. Dabei kombinieren diese Lösungen Konzepte wie Data Lakehouse, eine Mischung aus Data Lakes und Data Warehouse, und Echtzeit-Datenbanken. Applikationen setzen auf dieser Technologie sehr komfortabel auf. Hinzu kommt die große Kompatibilität der neuen Datenplattformen, die mittels APIs und SQL leicht mit anderen Tools zu verbinden sind. Für den Anwendungsbereich Business Intelligence können Unternehmen so die gewünschte Software – oder andere beliebige Tools aus den Gebieten Data Science und Künstliche Intelligenz – unkompliziert über Open-SQL-Konnektoren verbinden.
Der Paradigmenwechsel besteht also nicht in der Neuskalierung einer herkömmlichen SQL-Datenbank – vielmehr geht es um Bau von neuen Data Hubs, wie die modernen und einfach zu betreibenden Storage-Architekturen auch genannt werden. Diese Lösungen ermöglichen es den Nutzern, von einer Echtzeit-Analyseleistung und mehreren Datenquellen mit skalierbarem SQL auf einer kostengünstigen Plattform zu profitieren, die in hyperskalierte Cloud-Umgebungen integriert ist.
(ID:48300289)