Definition

Was ist ein Data Lake?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Beim Data Lake handelt es sich um einen sehr großen Datenspeicher, der die Daten aus den unterschiedlichsten Quellen in ihrem Rohformat aufnimmt. Er kann sowohl unstrukturierte als auch strukturierte Daten enthalten und lässt sich für Big-Data-Analysen einsetzen.

Der Begriff Data Lake (dt. „Datensee“) steht für einen sehr großen Datenspeicher. Er beinhaltet im Gegensatz zu normalen Datenbanken Daten in ihrem ursprünglichen Rohformat. Der Data Lake lässt sich aus den verschiedensten Quellen speisen. Die Daten können strukturiert oder unstrukturiert sein und müssen vor der Speicherung nicht validiert oder umformatiert werden. Neben text- oder zahlenbasierten Daten kann der Data Lake auch Bilder, Videos oder andere Datenformate aufnehmen. Erst wenn die Daten benötigt werden, erfolgt die Strukturierung und gegebenenfalls die Umformatierung der betroffenen Daten.

Ein Data Lake lässt sich aufgrund seiner riesigen Informationsmenge für flexible Analysen im Big-Data-Umfeld einsetzen. Die aus den verschiedene Quellen stammenden Daten sind für viele verschiedene Anwendungen und Analysen nutzbar.

Wichtige Funktionen eines Data Lakes

Der Data Lake muss bestimmte Grundfunktionen bieten, um die Anforderungen der auf den Informationen aufsetzenden Anwendungen zu erfüllen. Die unterschiedlichsten Daten und Datenformate, egal ob strukturiert oder unstrukturiert, müssen sich im Data Lake ablegen lassen. Verteilte Datensilos werden dadurch vermieden. Um eine möglichst flexible Nutzung der Daten zu ermöglichen, sind die gängigen Frameworks und Protokolle der Datenbanksysteme und Datenbankanwendungen aus dem Big-Data-Umfeld zu unterstützen. Der Zugriff auf die Daten ist durch eine leistungsstarke, rollenbasierte Zugriffskontrolle zu schützen, um die Vorgaben des Datenschutzes und der Datensicherheit zu erfüllen. Zusätzlich ist die Verschlüsselung von Daten einzusetzen. Mechanismen zur Sicherung und Wiederherstellung der Daten sind ebenfalls bereitzustellen.

Gegenüberstellung von Data Lake und Data Warehouse

Im Zusammenhang mit der Speicherung und der Bereitstellung großer Datenmengen fallen oft die Begriffe Data Lake und Data Warehouse. Obwohl sowohl das Data Warehouse als auch der Data Lake in der Lage sind, große Informationsmengen zu speichern und für Auswertungen bereitzustellen, unterscheiden sie sich in ihren Konzepten und der Art der Datenspeicherung grundsätzlich. Das Data Warehouse führt Daten aus unterschiedlichen Quellen zusammen und überführt sie in Formate und Strukturen, die eine direkte Analyse gestattet. Der Data Lake hingegen nimmt die Daten aus den unterschiedlichen Quellen in ihrem Rohformat auf und legt sie auch unstrukturiert ab. Dabei ist es unerheblich, ob die Daten für spätere Analysen relevant sind. Der Data Lake besitzt eine flache Hierarchie und muss für die Speicherung der Daten nicht die Art der später auszuführenden Analysen kennen. Erst wenn die Daten tatsächlich benötigt werden, erfolgt die Suche, Strukturierung oder Umformatierung.

Das Data Warehouse speichert in der Regel Kennzahlen oder Transaktionsdaten. Unstrukturierte Daten wie Bilder oder Audiodaten sind im Data Warehouse nicht abgelegt. Der Data Lake nimmt sämtliche Informationen in ihrem Ursprungsformat auf, die ihm angeboten werden. Da der Data Lake die Daten in ihrem Ursprungsformat bereithält, ist er bei sich verändernden Anforderungen wesentlich flexibler einsetzbar als das Data Warehouse. Daten sind in völlig neue Strukturen überführbar und mit neuartigen Methoden analysierbar.

Vor- und Nachteile eines Data Lakes

Der Data Lake bietet eine ganze Reihe von Vorteilen. Dank der Vielzahl an bereitgestellten Informationen sind aussagekräftigere und tiefer gehende Analysen möglich. Für Unternehmen können sich dadurch echte Wettbewerbsvorteile ergeben. Aufgrund der Speicherung der Daten in ihrem Rohformat, ohne vorherige Strukturierung oder Umformatierung, erfolgen Speichervorgänge sehr schnell. Die Anforderungen des Data Lakes in puncto Rechenleistung sind für die Speicherung selbst großer Datenmengen gering. Im Gegensatz zu einem Data Warehouse bietet der Data Lake wesentlich mehr Möglichkeiten für die Auswertung der Daten. Das Data Warehouse sortiert bereits bei der Speicherung der Informationen die Daten aus, die für spätere Analysen nicht benötigt werden. Der Data Lake nimmt sämtliche Daten auf und schränkt die Analysemöglichkeiten nicht schon bei der Datenspeicherung ein.

Als Nachteil lässt sich anführen, dass ein Data Lake hohe Anforderungen in puncto Datenschutz und Datensicherheit stellt. Je mehr Daten gespeichert werden und je mehr Zusammenhänge sich zwischen den verschiedenen Daten herstellen lassen, desto besser sind sie zu schützen. Der Data Lake benötigt ein durchdachtes Sicherheits- und Datenschutzkonzept sowie eine ausgereifte, rollenbasierte Nutzerkontrolle mit unterschiedlichen Zugriffsrechten.

Beispiele für Implementierungen des Data Lakes

Viele Frameworks und Filesysteme für Big-Data-Anwendungen und das verteilte Speichern von Daten unterstützen das Konzept des Data Lakes. Beispielsweise lassen sich mit dem Distributed File System von Apache Hadoop (Hadoop Distributed File System - HDFS) Data Lakes realisieren. Auch Cloud Services wie Azure Data Lake und Amazon Web Services (AWS) stehen für die Umsetzung eines Data Lakes zur Verfügung.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Hitachi Vantara baut Lumada-Portfolio weiter aus

Datensilos abbauen

Hitachi Vantara baut Lumada-Portfolio weiter aus

Mit neuen Datenservices und einem Data Lake erweitert Hitachi Vantara seine Lumada-Plattform. Kunden sollen damit branchenübergreifend Datensilos abbauen und mittels DataOps Innovationen schneller erzielen können. lesen

Databricks und Tableau vertiefen Kooperation

Business Intelligence auf Data Lakes

Databricks und Tableau vertiefen Kooperation

Die beiden Analytics-Spezialisten Databricks und Tableau Software haben ihre Zusammenarbeit weiter ausgebaut. Ziel ist es, Unternehmenskunden eine schnellere und zuverlässigere Ausführung von Business Intelligence auf Data Lakes zu ermöglichen. lesen

Wie Datenanalyse im Unternehmen umgesetzt werden kann

Data Analytics

Wie Datenanalyse im Unternehmen umgesetzt werden kann

Potenziale aus Daten zu heben, steht aktuell im Fokus vieler Unternehmen – gleichzeitig stehen sie vor dem Frage, wie Datenanalyse im eigenen Unternehmen umgesetzt werden kann. Ein Überblick, was beachtet werden muss. lesen

Vier Schritte, um Data Lakes zu strukturieren

Kommentar von Oliver Schröder, Informatica

Vier Schritte, um Data Lakes zu strukturieren

IT-Mitarbeiter stehen vor einer Reihe von Herausforderungen. Sie müssen nicht nur immer mehr Services anbieten, sondern auch neue Technologien implementieren. Darüber hinaus müssen sie sich jetzt auch noch des Themas Kundenzufriedenheit annehmen. Denn unzufriedene Kunden beeinflussen das gesamte Unternehmen. lesen

Data Lakes, Marts, Vaults und Warehouses – wo liegt der Unterschied?

Kommentar von Neil Barton, WhereScape

Data Lakes, Marts, Vaults und Warehouses – wo liegt der Unterschied?

Big Data oder Data Analytics sind einige der größten Herausforderungen für die IT unserer Zeit. Viele Unternehmen befinden sich inmitten einer Umstellung auf eine datengesteuerte Ausrichtung ihrer Organisation und sind auf der Suche nach der dazu passenden Dateninfrastruktur. Verschiedene Ansätze versprechen Vorteile – doch vielerorts hakt es schon beim Verstehen der Begrifflichkeit. lesen

So lassen sich mit der richtigen Strategie große Datenmengen bewältigen

Kommentar von Daniel Metzger, Cloudera

So lassen sich mit der richtigen Strategie große Datenmengen bewältigen

Mit dem exponentiellen Wachstum des Datenbestands der letzten 20 Jahren steigt das Potenzial für die Transformation von Unternehmen. Laut einer Schätzung von IDC wird die Datenmenge bis 2025 auf 163 Zettabytes ansteigen. Daher überrascht es nicht, dass die Analyse dieser Daten – einschließlich der Speicherung, Verwaltung und abschließender Interpretation – einen immer höheren Stellenwert im Unternehmen einnimmt. lesen

Databricks will Data Scientists von Routinearbeit entlasten

Apache-Spark-Projekt aus der wirtschaftlichen Perspektive

Databricks will Data Scientists von Routinearbeit entlasten

Welchen Sinn haben die Daten in den Unternehmen, wenn man sie nicht für Machine Learning nutzt? Diese rhetorische Frage stellt David Wyatt, Vice President Europe von Databricks. Als Haupttreiber des Apache-Spark-Projekts stellt das Unternehmen eine Cloud-Plattform bereit, die Data Engineers und Data Scientist zusammenbringen soll. Diese „Unified Analytics Platform“ wird derzeit um zwei Komponenten erweitert: das Projekt „Delta Lake“ zur Aufbereitung von Data Lakes und den Machine-Learning-Katalog „ML Flow“. lesen

Apache Metron als SIEM nutzen

Security Information and Event Management mit Open Source umsetzen

Apache Metron als SIEM nutzen

Lösungen im Bereich Big Data sind grundsätzlich auch in vielen Fällen dazu geeignet im Security-Bereich Einsatz zu finden. Apache Metron ist eine solche Lösung, die generell durchaus sinnvoll eingesetzt werden kann, wenn ein SIEM-System aufgebaut werden soll. lesen

Deployment von Machine Learning in die Cloud

Cloud-Storage, Entwicklungsprozesse, Auslieferung

Deployment von Machine Learning in die Cloud

Während vor wenigen Jahren Data Science in Unternehmen vor allem noch experimental war, müssen heute Entwicklungszeiten verkürzt und Vorhersagemodelle viel schneller produktiv gebracht werden. Cloud-Services wie von Google, Amazon und Microsoft helfen dabei. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45144323 / Definitionen)