Data Lakes

Der Data Lake integriert sich

| Autor / Redakteur: Ariane Rüdiger / Dr. Jürgen Ehneß

Riesige Datenmengen sind im Data Lake gut aufgehoben.
Riesige Datenmengen sind im Data Lake gut aufgehoben. (Bild: © rolffimages - stock.adobe.com)

Data Lake oder Data Warehouse? So schien lange Zeit die Alternative für Unternehmen zu lauten. Doch wie so oft gibt es in der betrieblichen IT kein Entweder-oder, sondern beide Infrastrukturen tauchen zunehmend gemeinsam auf.

Data Lakes kamen etwa um 2010 auf. Sie entstanden gemeinsam mit Hadoop als ein Weg, schnell hereinströmende, heterogene Datenmassen irgendwie zu speichern und zu verarbeiten. Die Quelle dieser Daten waren soziale Medien, bildgebende Medien und Sensoren, von denen es dank IoT immer mehr geben soll.

Seinerzeit schrieb James Dixon, erfahrener Datenspezialist und Gründer der Beratungsfirma 9sight Consulting, in seinem Blog: „80 bis 90 Prozent der Firmen haben es mit unstrukturierten oder halbstrukturierten Daten zu tun.“ Diese Daten seien meist nicht transaktional. Man wisse nur zum Teil, was man mit ihnen machen solle, verspreche sich aber einiges davon.

Von diesen Daten würden einige Attribute verwendet, so Dixon weiter, die man in einen Data-Mart integriere, und der Rest werde verworfen. Das sei suboptimal, den damit gingen letztlich viele Einsichtsmöglichkeiten und viele Details der tiefsten Datenebenen verloren. Gegen diese Situation wurden Data Lakes gesetzt. Mit Hadoop stand eine geeignete Technologie zur Verfügung, um mit ihnen zu arbeiten.

Dixon beschreibt sie im Gegensatz zum Data Warehouse, das die Daten hübsch aufbereitet wie „Mineralwasser in Flaschen“ darbringe, als „See von Rohdaten“. Die Zahl dieser Seen wächst, seit AWS mit seinem S3 nach vorn preschte. Der IT-Service-Spezialist etablierte hier unzweifelhaft neue Standards. Ein Beispiel ist das einfache Einstellen und Herausholen von Daten über REST-APIs mit Put- und Get-Befehlen. REST-APIs finden sich heute nahezu an jeder modernen Applikation als Datenschnittstelle.

Data Lake-Markt wächst stark

Entsprechend erfolgreich zeigen sich Data Lakes am Markt. In einer Studie vom Januar 2019 zeigt sich Market Research Future überzeugt davon, die Technologie stehe vor einem Wachstumsschub. Bis 2023 soll ihr Marktvolumen weltweit 14 Milliarden US-Dollar erreichen.

Betrachtet man die Grafik, zeigt sich, dass dieses Wachstum vor allem in den kommenden vier Jahren stattfinden soll. Europa ist nach den USA der zweitwichtigste Markt. Besonders stark wächst das Cloud-Segment. Wichtige Player sind Microsoft, Informatica, Teradata, Dell EMC und Oracle; dazu kommen viele andere.

Den Trend zum Cloud-Data Lake bestätigt auch Analyst Tomer Shiran (TDWI) in seinen Prognosen für 2019: Architekturen wie Redshift auf AWS, SQL Data Warehouse auf Azur und BigQuery auf Google, aber auch Snowflake. Als Technologien werden für Data Lakes laut TDWI neben Pionier AWS mit S3 ADLS auf Azure und Google Cloud Storage verwendet. Die Verarbeitung übernehmen Open-Source-Lösungen wie Spark, Hive, AWS Glue, Azure Data Factory oder Cloud Dataflow.

Zugänglich nur für Spezialisten?

Doch auch Data Lakes haben ihre Tücken. Das Konzept erlaubt es zwar, alles Mögliche in den Data Lake hineinzuwerfen. Denn es ist nun einmal einfacher, im Keller eine Flasche aus der Mineralwasserkiste zu holen als, um im Bild zu bleiben, aus einem möglicherweise verschmutzten See Trinkwasser zu filtern. Genauso ist es auch schwieriger, aus einem Data Lake brauchbare Informationen zu generieren als aus einem wohlgeordneten Data Warehouse.

Im Data Warehouse wurden die schwierigsten Vorbereitungsarbeiten bereits von den IT-Spezialisten erledigt. Im Data Lake nicht. Immer wieder äußern sich Beratungsunternehmen und natürlich auch Hersteller darüber, wie viele Data Lakes zu wenig genutzt würden, weil es nicht ausreichend viele Spezialisten gebe, die damit umgehen könnten.

Dies gilt erst recht, wenn das Unternehmen bereits längere Zeit Erfahrungen mit Data Warehouses besitzt und erfolgreich damit arbeitet. Zudem gibt es auch noch klassische SQL-Datenbanken, die unentbehrliche Dienste leisten. Mit anderen Worten: Anwender fragen sich, ob es gut ist, ihre bestehenden Infrastrukturen und Data Warehouses zugunsten eines hochmodernen Data Lakes abzukündigen. Schließlich hat kaum jemand hat Lust, SQL-Spezialisten und Könner bei den konventionellen Storage-Infrastrukturen mühevoll auf die neuen Technologien im Cloud- und Open-Umfeld umzuschulen. Am wenigsten wahrscheinlich sie selbst.

Integration ist gefragt

Kurz: Es sind wieder einmal Integration und Nebeneinander gefragt. Das zeigt sich darin, dass man Data Lakes heute innerhalb der Pipeline der Datenverarbeitung vor und hinter Data Warehouses findet. Data Lakes entstehen immer häufiger auf der Cloud-Seite der Hybrid-Cloud, aber auch innerhalb der Unternehmen. Gerade in sehr großen Unternehmen gibt es auch nicht mehr nur einen Data Lake, sondern mehrere.

Und es gibt Data Lakes, die ihrerseits ein oder mehrere Data Warehouses oder gar SQL-Datenbanken enthalten. Laut TDWI ist letzteres bei einem Viertel der Data Lakes der Fall.

Wie immer, wenn es um die Integration neuer Technologien in eine Unternehmensinfrastruktur geht, ruft das die Softwarefirmen und die Berater auf den Plan. So war dem Thema Datenmanagement auf der OOP-Konferenz in München Mitte Januar 2019 ein ganzer Vortrags-Track gewidmet, in dem Unternehmen ihre Lösungen vorstellen konnten.

Klebstoff zwischen den Datenaufbewahrungsorten

Beratungsfirmen wie BARC weisen nicht ganz uneigennützig explizit darauf hin, dass es sich lohnen kann, bei der Zusammenführung der Daten- und Speicherressourcen in eine einheitlich gestaltete und verwaltete Infrastruktur Beratungsleistung in Anspruch zu nehmen. Denn getrieben durch den Wunsch, das Beste aus allen Welten zu vereinigen, entstehen ganz neue Architekturen.

Ein Beispiel ist das Nebeneinander von Data Lake und Data Warehouse, das Hortonworks propagiert (siehe Grafik). Hier stehen beide Systeme gleichberechtigt nebeneinander und sind verbunden, um analytische Aufgaben zu lösen. Player, die Metadaten-basierende Ansätze oder Datenvirtualisierungs-Tools verwenden, gibt es eine ganze Reihe. Beispiele sind hier Informatica, Denodo, VMware, Cisco, Red Hat mit dem Tool JBoss Virtualization sowie Amazon Elastic Cloud.

Der Integrationsansatz von Attunity bringt Streaming-Daten in die unterschiedlichen Medien der betrieblichen Datenanalyse ein. So lassen sich beispielsweise Data Warehouses durch Hadoop optimieren. Crate.io, ein relativ neuer Player, versucht rein Cloud-basierend, alle Datentypen und -quellen, insbesondere auch Streaming-Daten, gemeinsam über SQL suchbar zu machen. Das hält die auf SQL meist aufgelagerte Tool-Schicht nutzbar, was Investitionsschutz bedeutet.

Fazit

Unternehmen werden sich in Zukunft bislang geradezu unvorstellbaren Datenmengen gegenübersehen. Das lässt darauf schließen, dass die Entwicklung bei Storage und Datenmanagement noch längst nicht ihr Ende erreicht hat. Sie müsste sogar eigentlich vor einem Entwicklungssprung stehen müsste. Ob das so ist, wird sich in den kommenden Jahren zeigen. Die Entwicklung sinnvoller Technologien auf diesem Bereich jedenfalls ist unabdingbar, wenn aus dem Traum vom „neuen Gold“ der Daten Wirklichkeit werden soll.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45735147 / Infrastruktur)