Definition

Was ist ein Data Lake?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Beim Data Lake handelt es sich um einen sehr großen Datenspeicher, der die Daten aus den unterschiedlichsten Quellen in ihrem Rohformat aufnimmt. Er kann sowohl unstrukturierte als auch strukturierte Daten enthalten und lässt sich für Big-Data-Analysen einsetzen.

Der Begriff Data Lake (dt. „Datensee“) steht für einen sehr großen Datenspeicher. Er beinhaltet im Gegensatz zu normalen Datenbanken Daten in ihrem ursprünglichen Rohformat. Der Data Lake lässt sich aus den verschiedensten Quellen speisen. Die Daten können strukturiert oder unstrukturiert sein und müssen vor der Speicherung nicht validiert oder umformatiert werden. Neben text- oder zahlenbasierten Daten kann der Data Lake auch Bilder, Videos oder andere Datenformate aufnehmen. Erst wenn die Daten benötigt werden, erfolgt die Strukturierung und gegebenenfalls die Umformatierung der betroffenen Daten.

Ein Data Lake lässt sich aufgrund seiner riesigen Informationsmenge für flexible Analysen im Big-Data-Umfeld einsetzen. Die aus den verschiedene Quellen stammenden Daten sind für viele verschiedene Anwendungen und Analysen nutzbar.

Wichtige Funktionen eines Data Lakes

Der Data Lake muss bestimmte Grundfunktionen bieten, um die Anforderungen der auf den Informationen aufsetzenden Anwendungen zu erfüllen. Die unterschiedlichsten Daten und Datenformate, egal ob strukturiert oder unstrukturiert, müssen sich im Data Lake ablegen lassen. Verteilte Datensilos werden dadurch vermieden. Um eine möglichst flexible Nutzung der Daten zu ermöglichen, sind die gängigen Frameworks und Protokolle der Datenbanksysteme und Datenbankanwendungen aus dem Big-Data-Umfeld zu unterstützen. Der Zugriff auf die Daten ist durch eine leistungsstarke, rollenbasierte Zugriffskontrolle zu schützen, um die Vorgaben des Datenschutzes und der Datensicherheit zu erfüllen. Zusätzlich ist die Verschlüsselung von Daten einzusetzen. Mechanismen zur Sicherung und Wiederherstellung der Daten sind ebenfalls bereitzustellen.

Gegenüberstellung von Data Lake und Data Warehouse

Im Zusammenhang mit der Speicherung und der Bereitstellung großer Datenmengen fallen oft die Begriffe Data Lake und Data Warehouse. Obwohl sowohl das Data Warehouse als auch der Data Lake in der Lage sind, große Informationsmengen zu speichern und für Auswertungen bereitzustellen, unterscheiden sie sich in ihren Konzepten und der Art der Datenspeicherung grundsätzlich. Das Data Warehouse führt Daten aus unterschiedlichen Quellen zusammen und überführt sie in Formate und Strukturen, die eine direkte Analyse gestattet. Der Data Lake hingegen nimmt die Daten aus den unterschiedlichen Quellen in ihrem Rohformat auf und legt sie auch unstrukturiert ab. Dabei ist es unerheblich, ob die Daten für spätere Analysen relevant sind. Der Data Lake besitzt eine flache Hierarchie und muss für die Speicherung der Daten nicht die Art der später auszuführenden Analysen kennen. Erst wenn die Daten tatsächlich benötigt werden, erfolgt die Suche, Strukturierung oder Umformatierung.

Das Data Warehouse speichert in der Regel Kennzahlen oder Transaktionsdaten. Unstrukturierte Daten wie Bilder oder Audiodaten sind im Data Warehouse nicht abgelegt. Der Data Lake nimmt sämtliche Informationen in ihrem Ursprungsformat auf, die ihm angeboten werden. Da der Data Lake die Daten in ihrem Ursprungsformat bereithält, ist er bei sich verändernden Anforderungen wesentlich flexibler einsetzbar als das Data Warehouse. Daten sind in völlig neue Strukturen überführbar und mit neuartigen Methoden analysierbar.

Vor- und Nachteile eines Data Lakes

Der Data Lake bietet eine ganze Reihe von Vorteilen. Dank der Vielzahl an bereitgestellten Informationen sind aussagekräftigere und tiefer gehende Analysen möglich. Für Unternehmen können sich dadurch echte Wettbewerbsvorteile ergeben. Aufgrund der Speicherung der Daten in ihrem Rohformat, ohne vorherige Strukturierung oder Umformatierung, erfolgen Speichervorgänge sehr schnell. Die Anforderungen des Data Lakes in puncto Rechenleistung sind für die Speicherung selbst großer Datenmengen gering. Im Gegensatz zu einem Data Warehouse bietet der Data Lake wesentlich mehr Möglichkeiten für die Auswertung der Daten. Das Data Warehouse sortiert bereits bei der Speicherung der Informationen die Daten aus, die für spätere Analysen nicht benötigt werden. Der Data Lake nimmt sämtliche Daten auf und schränkt die Analysemöglichkeiten nicht schon bei der Datenspeicherung ein.

Als Nachteil lässt sich anführen, dass ein Data Lake hohe Anforderungen in puncto Datenschutz und Datensicherheit stellt. Je mehr Daten gespeichert werden und je mehr Zusammenhänge sich zwischen den verschiedenen Daten herstellen lassen, desto besser sind sie zu schützen. Der Data Lake benötigt ein durchdachtes Sicherheits- und Datenschutzkonzept sowie eine ausgereifte, rollenbasierte Nutzerkontrolle mit unterschiedlichen Zugriffsrechten.

Beispiele für Implementierungen des Data Lakes

Viele Frameworks und Filesysteme für Big-Data-Anwendungen und das verteilte Speichern von Daten unterstützen das Konzept des Data Lakes. Beispielsweise lassen sich mit dem Distributed File System von Apache Hadoop (Hadoop Distributed File System - HDFS) Data Lakes realisieren. Auch Cloud Services wie Azure Data Lake und Amazon Web Services (AWS) stehen für die Umsetzung eines Data Lakes zur Verfügung.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Datenintegration ist die Grundlage für Industrie 4.0

Kommentar von Stefan Müller, IT-Novum

Datenintegration ist die Grundlage für Industrie 4.0

Die Fertigungsbranche beschäftigt sich gegenwärtig intensiv mit der Digitalisierung von Produktionsprozessen und Wertschöpfungsketten. Die Voraussetzung dafür ist ein durchdachtes Konzept für die Sammlung, Speicherung und Auswertung der unzähligen Informationen, die bei der Digitalisierung von Produktionsabläufen erzeugt werden. lesen

AWS baut Redshift und SageMaker aus

Nachbericht AWS re:invent Las Vegas

AWS baut Redshift und SageMaker aus

Amazon Web Services (AWS) hat kürzlich auf seiner Kundenkonferenz AWS re:Invent den 65.000 Besuchern zahlreiche neue Services für Datenbanken und Analysefunktionen vorgestellt. Sie sollen Kunden besonders dabei unterstützen, große Datenmengen zu verarbeiten. Neuerungen in der KI-Entwicklungsumgebung Amazon SageMaker decken die gesamte Prozesskette bis hin zur Überwachung der KI-Modelle ab. lesen

IBM macht Storage fit für die Zukunft

Flash- und Tape-Neuheiten von IBM

IBM macht Storage fit für die Zukunft

IBM hat eine Reihe von Storage-Neuheiten angekündigt, die teils Anfang 2020 verfügbar sein werden. Mit ihnen will IBM Bedrohungen wie Ransomware abwehren und Anwendungsszenarien wie Big Data, KI und HPC fördern. lesen

Software AG tritt Open Data Initiative bei

Mitglied des Beirats

Software AG tritt Open Data Initiative bei

Die Software AG ist ab sofort Mitglied der Open Data Initiative (ODI). Als Mitglied des Partnerbeirats will das Unternehmen künftig seine Integrationslösung webMethods.io den Kunden des ODI-Netzwerks anbieten. lesen

Großes Interesse an Künstlicher Intelligenz und Data Science

Nachbericht EGG-Konferenz in Stuttgart

Großes Interesse an Künstlicher Intelligenz und Data Science

In Stuttgart haben sich auf der EGG-Konferenz Interessenten für Künstliche Intelligenz (KI) und Data Science zum Meinungsaustausch getroffen. Dataiku der französische Anbieter einer kollaborativen Data-Science-Plattform, war der Veranstalter und enthüllte seine Produktplanung bis 2020. lesen

Datenanalyse mit Projekt Cortex

Neuer Dienst in Microsoft 365 verfügbar

Datenanalyse mit Projekt Cortex

Das Projekt Cortex soll es Unternehmen ermöglichen, Daten aus Geschäftsanwendungen besser zu analysieren. Dazu wird eine KI genutzt, die Daten besser extrahieren und organisieren kann. Anwender des Unternehmens greifen über das Knowledge Center auf die Daten zu. lesen

Hitachi Vantara baut Lumada-Portfolio weiter aus

Datensilos abbauen

Hitachi Vantara baut Lumada-Portfolio weiter aus

Mit neuen Datenservices und einem Data Lake erweitert Hitachi Vantara seine Lumada-Plattform. Kunden sollen damit branchenübergreifend Datensilos abbauen und mittels DataOps Innovationen schneller erzielen können. lesen

Databricks und Tableau vertiefen Kooperation

Business Intelligence auf Data Lakes

Databricks und Tableau vertiefen Kooperation

Die beiden Analytics-Spezialisten Databricks und Tableau Software haben ihre Zusammenarbeit weiter ausgebaut. Ziel ist es, Unternehmenskunden eine schnellere und zuverlässigere Ausführung von Business Intelligence auf Data Lakes zu ermöglichen. lesen

Wie Datenanalyse im Unternehmen umgesetzt werden kann

Data Analytics

Wie Datenanalyse im Unternehmen umgesetzt werden kann

Potenziale aus Daten zu heben, steht aktuell im Fokus vieler Unternehmen – gleichzeitig stehen sie vor dem Frage, wie Datenanalyse im eigenen Unternehmen umgesetzt werden kann. Ein Überblick, was beachtet werden muss. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45144323 / Definitionen)