Definition

Was ist ein Data Lake?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Beim Data Lake handelt es sich um einen sehr großen Datenspeicher, der die Daten aus den unterschiedlichsten Quellen in ihrem Rohformat aufnimmt. Er kann sowohl unstrukturierte als auch strukturierte Daten enthalten und lässt sich für Big-Data-Analysen einsetzen.

Der Begriff Data Lake (dt. „Datensee“) steht für einen sehr großen Datenspeicher. Er beinhaltet im Gegensatz zu normalen Datenbanken Daten in ihrem ursprünglichen Rohformat. Der Data Lake lässt sich aus den verschiedensten Quellen speisen. Die Daten können strukturiert oder unstrukturiert sein und müssen vor der Speicherung nicht validiert oder umformatiert werden. Neben text- oder zahlenbasierten Daten kann der Data Lake auch Bilder, Videos oder andere Datenformate aufnehmen. Erst wenn die Daten benötigt werden, erfolgt die Strukturierung und gegebenenfalls die Umformatierung der betroffenen Daten.

Ein Data Lake lässt sich aufgrund seiner riesigen Informationsmenge für flexible Analysen im Big-Data-Umfeld einsetzen. Die aus den verschiedene Quellen stammenden Daten sind für viele verschiedene Anwendungen und Analysen nutzbar.

Wichtige Funktionen eines Data Lakes

Der Data Lake muss bestimmte Grundfunktionen bieten, um die Anforderungen der auf den Informationen aufsetzenden Anwendungen zu erfüllen. Die unterschiedlichsten Daten und Datenformate, egal ob strukturiert oder unstrukturiert, müssen sich im Data Lake ablegen lassen. Verteilte Datensilos werden dadurch vermieden. Um eine möglichst flexible Nutzung der Daten zu ermöglichen, sind die gängigen Frameworks und Protokolle der Datenbanksysteme und Datenbankanwendungen aus dem Big-Data-Umfeld zu unterstützen. Der Zugriff auf die Daten ist durch eine leistungsstarke, rollenbasierte Zugriffskontrolle zu schützen, um die Vorgaben des Datenschutzes und der Datensicherheit zu erfüllen. Zusätzlich ist die Verschlüsselung von Daten einzusetzen. Mechanismen zur Sicherung und Wiederherstellung der Daten sind ebenfalls bereitzustellen.

Gegenüberstellung von Data Lake und Data Warehouse

Im Zusammenhang mit der Speicherung und der Bereitstellung großer Datenmengen fallen oft die Begriffe Data Lake und Data Warehouse. Obwohl sowohl das Data Warehouse als auch der Data Lake in der Lage sind, große Informationsmengen zu speichern und für Auswertungen bereitzustellen, unterscheiden sie sich in ihren Konzepten und der Art der Datenspeicherung grundsätzlich. Das Data Warehouse führt Daten aus unterschiedlichen Quellen zusammen und überführt sie in Formate und Strukturen, die eine direkte Analyse gestattet. Der Data Lake hingegen nimmt die Daten aus den unterschiedlichen Quellen in ihrem Rohformat auf und legt sie auch unstrukturiert ab. Dabei ist es unerheblich, ob die Daten für spätere Analysen relevant sind. Der Data Lake besitzt eine flache Hierarchie und muss für die Speicherung der Daten nicht die Art der später auszuführenden Analysen kennen. Erst wenn die Daten tatsächlich benötigt werden, erfolgt die Suche, Strukturierung oder Umformatierung.

Das Data Warehouse speichert in der Regel Kennzahlen oder Transaktionsdaten. Unstrukturierte Daten wie Bilder oder Audiodaten sind im Data Warehouse nicht abgelegt. Der Data Lake nimmt sämtliche Informationen in ihrem Ursprungsformat auf, die ihm angeboten werden. Da der Data Lake die Daten in ihrem Ursprungsformat bereithält, ist er bei sich verändernden Anforderungen wesentlich flexibler einsetzbar als das Data Warehouse. Daten sind in völlig neue Strukturen überführbar und mit neuartigen Methoden analysierbar.

Vor- und Nachteile eines Data Lakes

Der Data Lake bietet eine ganze Reihe von Vorteilen. Dank der Vielzahl an bereitgestellten Informationen sind aussagekräftigere und tiefer gehende Analysen möglich. Für Unternehmen können sich dadurch echte Wettbewerbsvorteile ergeben. Aufgrund der Speicherung der Daten in ihrem Rohformat, ohne vorherige Strukturierung oder Umformatierung, erfolgen Speichervorgänge sehr schnell. Die Anforderungen des Data Lakes in puncto Rechenleistung sind für die Speicherung selbst großer Datenmengen gering. Im Gegensatz zu einem Data Warehouse bietet der Data Lake wesentlich mehr Möglichkeiten für die Auswertung der Daten. Das Data Warehouse sortiert bereits bei der Speicherung der Informationen die Daten aus, die für spätere Analysen nicht benötigt werden. Der Data Lake nimmt sämtliche Daten auf und schränkt die Analysemöglichkeiten nicht schon bei der Datenspeicherung ein.

Als Nachteil lässt sich anführen, dass ein Data Lake hohe Anforderungen in puncto Datenschutz und Datensicherheit stellt. Je mehr Daten gespeichert werden und je mehr Zusammenhänge sich zwischen den verschiedenen Daten herstellen lassen, desto besser sind sie zu schützen. Der Data Lake benötigt ein durchdachtes Sicherheits- und Datenschutzkonzept sowie eine ausgereifte, rollenbasierte Nutzerkontrolle mit unterschiedlichen Zugriffsrechten.

Beispiele für Implementierungen des Data Lakes

Viele Frameworks und Filesysteme für Big-Data-Anwendungen und das verteilte Speichern von Daten unterstützen das Konzept des Data Lakes. Beispielsweise lassen sich mit dem Distributed File System von Apache Hadoop (Hadoop Distributed File System - HDFS) Data Lakes realisieren. Auch Cloud Services wie Azure Data Lake und Amazon Web Services (AWS) stehen für die Umsetzung eines Data Lakes zur Verfügung.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Datenintegration in der Hybrid Cloud-Ära

ETL-Prozesse einfach gestalten

Datenintegration in der Hybrid Cloud-Ära

Das Thema Datenintegration gehört mit zu den größten Herausforderungen beim Management von hybriden und Multi-Cloud-Umgebungen. Schließlich geht es darum, Daten aus verschiedensten Quellen möglichst verlässlich aufzubereiten und zusammenzuführen. Nur wenn der vorhandene Datenpool, neuenglisch auch als „Data Lake“ bekannt, aktuell und vollständig ist, lassen sich daraus verlässliche Analysen ableiten. lesen

Informatica erweitert KI-Funktionen in fünf Segmenten

Release erweitert

Informatica erweitert KI-Funktionen in fünf Segmenten

Im aktuellen Release bietet die Informatica-Plattform KI-gesteuerte Automatisierungsfähigkeiten in fünf verschiedenen Segmenten. Zudem wurden die Cloud- und Serverless-Fähigkeiten ausgebaut. lesen

Echtzeit-Analytics mit cloud-basiertem Data Lake

Daten-Kraftwerk für Uniper

Echtzeit-Analytics mit cloud-basiertem Data Lake

In der Energiewirtschaft ist ein zentrales Ziel, Engpässe in der Strom- und Gasversorgung zu vermeiden. Damit dies gelingt, sind unter anderem aktuelle Informationen zur Marktsituation notwendig. Mit einer neuen Datenanalyseplattform erhält der Energieerzeuger Uniper die benötigen Daten, um schnell auf Marktentwicklungen reagieren zu können. Weiterhin hilft die Lösung dabei, den Energiehandel zu optimieren, Risiken zu bewerten und Vorschriften einzuhalten. lesen

Big Data im Mittelpunkt

Nachbericht Big Data Paris 2019

Big Data im Mittelpunkt

Am 11. und 12. März öffneten sich die Pforten zu einem der traditionsreichsten Treffen der Big-Data-Szene: Big Data Paris. Diesjähriges Motto: „Accelerate the Future“. Zum achten Mal in Folge erörterten renommierte Branchenpersönlichkeiten wie Ted Dunning (CTO von MapR) mit kundigen Teilnehmern sowohl die Business-Aspekte als auch die technischen und ethischen Herausforderungen der Nutzung von Massendaten. lesen

Datenaufbereitung ist ein unterschätzter Prozess

Data Preparation

Datenaufbereitung ist ein unterschätzter Prozess

Der Prozess der Datenaufbereitung umfasst die Reinigung, Formung und Mischung von Daten, damit sie für analytische und andere Aufgaben in optimaler Qualität bereitstehen. Nur mit erstklassigen Daten lassen sich beispielsweise Lösungen für Machine Learning und Künstliche Intelligenz effizient, sicher und zuverlässig versorgen. lesen

Qlik übernimmt Attunity

Big Data Management

Qlik übernimmt Attunity

Der Data-Analytics-Spezialist Qlik wird mit Attunity einen Experten für Datenintegration und Big-Data-Management übernehmen. Die Akquisition soll vor allem die Datenverwaltungsfunktionen der Qlik Analytics Platform stärken. lesen

Effektivität durch Data Analytics? Fehlanzeige!

McKinsey attestiert gravierende Schwachpunkte

Effektivität durch Data Analytics? Fehlanzeige!

Beim Einsatz von Data Analytics kommen die Berater von McKinsey zu einem vernichtenden Urteil: Nur acht Prozent der Unternehmen können ihre Lösungen wirksam skalieren. Laut dem Befund der Berater liegen die Probleme nicht nur im technologischen, sondern auch im organisatorischen Bereich. lesen

Das kann Azure Databricks

Spark as a Service

Das kann Azure Databricks

Microsoft stellt mit Azure Databricks eine Analyseplattform in Microsoft Azure zur Verfügung, die auf der bekannten Analysesoftware Apache Spark aufbaut. Bei der Entwicklung der Plattform haben die Entwickler von Spark mitgearbeitet. lesen

Stitch Data Loader von Talend unterstützt Azure

Datenintegrationstool erweitert

Stitch Data Loader von Talend unterstützt Azure

Die Cloud-Datenintegrationslösung Data Stitch Loader von Talend unterstützt ab sofort auch Microsoft Azure SQL Data Warehouse. Entwickler können über das Tool Daten für Analysen innerhalb kurzer Zeit erfassen. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45144323 / Definitionen)