Definition

Was ist ein Data Lake?

| Autor / Redakteur: Stefan Luber / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Beim Data Lake handelt es sich um einen sehr großen Datenspeicher, der die Daten aus den unterschiedlichsten Quellen in ihrem Rohformat aufnimmt. Er kann sowohl unstrukturierte als auch strukturierte Daten enthalten und lässt sich für Big-Data-Analysen einsetzen.

Der Begriff Data Lake (dt. „Datensee“) steht für einen sehr großen Datenspeicher. Er beinhaltet im Gegensatz zu normalen Datenbanken Daten in ihrem ursprünglichen Rohformat. Der Data Lake lässt sich aus den verschiedensten Quellen speisen. Die Daten können strukturiert oder unstrukturiert sein und müssen vor der Speicherung nicht validiert oder umformatiert werden. Neben text- oder zahlenbasierten Daten kann der Data Lake auch Bilder, Videos oder andere Datenformate aufnehmen. Erst wenn die Daten benötigt werden, erfolgt die Strukturierung und gegebenenfalls die Umformatierung der betroffenen Daten.

Ein Data Lake lässt sich aufgrund seiner riesigen Informationsmenge für flexible Analysen im Big-Data-Umfeld einsetzen. Die aus den verschiedene Quellen stammenden Daten sind für viele verschiedene Anwendungen und Analysen nutzbar.

Wichtige Funktionen eines Data Lakes

Der Data Lake muss bestimmte Grundfunktionen bieten, um die Anforderungen der auf den Informationen aufsetzenden Anwendungen zu erfüllen. Die unterschiedlichsten Daten und Datenformate, egal ob strukturiert oder unstrukturiert, müssen sich im Data Lake ablegen lassen. Verteilte Datensilos werden dadurch vermieden. Um eine möglichst flexible Nutzung der Daten zu ermöglichen, sind die gängigen Frameworks und Protokolle der Datenbanksysteme und Datenbankanwendungen aus dem Big-Data-Umfeld zu unterstützen. Der Zugriff auf die Daten ist durch eine leistungsstarke, rollenbasierte Zugriffskontrolle zu schützen, um die Vorgaben des Datenschutzes und der Datensicherheit zu erfüllen. Zusätzlich ist die Verschlüsselung von Daten einzusetzen. Mechanismen zur Sicherung und Wiederherstellung der Daten sind ebenfalls bereitzustellen.

Gegenüberstellung von Data Lake und Data Warehouse

Im Zusammenhang mit der Speicherung und der Bereitstellung großer Datenmengen fallen oft die Begriffe Data Lake und Data Warehouse. Obwohl sowohl das Data Warehouse als auch der Data Lake in der Lage sind, große Informationsmengen zu speichern und für Auswertungen bereitzustellen, unterscheiden sie sich in ihren Konzepten und der Art der Datenspeicherung grundsätzlich. Das Data Warehouse führt Daten aus unterschiedlichen Quellen zusammen und überführt sie in Formate und Strukturen, die eine direkte Analyse gestattet. Der Data Lake hingegen nimmt die Daten aus den unterschiedlichen Quellen in ihrem Rohformat auf und legt sie auch unstrukturiert ab. Dabei ist es unerheblich, ob die Daten für spätere Analysen relevant sind. Der Data Lake besitzt eine flache Hierarchie und muss für die Speicherung der Daten nicht die Art der später auszuführenden Analysen kennen. Erst wenn die Daten tatsächlich benötigt werden, erfolgt die Suche, Strukturierung oder Umformatierung.

Das Data Warehouse speichert in der Regel Kennzahlen oder Transaktionsdaten. Unstrukturierte Daten wie Bilder oder Audiodaten sind im Data Warehouse nicht abgelegt. Der Data Lake nimmt sämtliche Informationen in ihrem Ursprungsformat auf, die ihm angeboten werden. Da der Data Lake die Daten in ihrem Ursprungsformat bereithält, ist er bei sich verändernden Anforderungen wesentlich flexibler einsetzbar als das Data Warehouse. Daten sind in völlig neue Strukturen überführbar und mit neuartigen Methoden analysierbar.

Vor- und Nachteile eines Data Lakes

Der Data Lake bietet eine ganze Reihe von Vorteilen. Dank der Vielzahl an bereitgestellten Informationen sind aussagekräftigere und tiefer gehende Analysen möglich. Für Unternehmen können sich dadurch echte Wettbewerbsvorteile ergeben. Aufgrund der Speicherung der Daten in ihrem Rohformat, ohne vorherige Strukturierung oder Umformatierung, erfolgen Speichervorgänge sehr schnell. Die Anforderungen des Data Lakes in puncto Rechenleistung sind für die Speicherung selbst großer Datenmengen gering. Im Gegensatz zu einem Data Warehouse bietet der Data Lake wesentlich mehr Möglichkeiten für die Auswertung der Daten. Das Data Warehouse sortiert bereits bei der Speicherung der Informationen die Daten aus, die für spätere Analysen nicht benötigt werden. Der Data Lake nimmt sämtliche Daten auf und schränkt die Analysemöglichkeiten nicht schon bei der Datenspeicherung ein.

Als Nachteil lässt sich anführen, dass ein Data Lake hohe Anforderungen in puncto Datenschutz und Datensicherheit stellt. Je mehr Daten gespeichert werden und je mehr Zusammenhänge sich zwischen den verschiedenen Daten herstellen lassen, desto besser sind sie zu schützen. Der Data Lake benötigt ein durchdachtes Sicherheits- und Datenschutzkonzept sowie eine ausgereifte, rollenbasierte Nutzerkontrolle mit unterschiedlichen Zugriffsrechten.

Beispiele für Implementierungen des Data Lakes

Viele Frameworks und Filesysteme für Big-Data-Anwendungen und das verteilte Speichern von Daten unterstützen das Konzept des Data Lakes. Beispielsweise lassen sich mit dem Distributed File System von Apache Hadoop (Hadoop Distributed File System - HDFS) Data Lakes realisieren. Auch Cloud Services wie Azure Data Lake und Amazon Web Services (AWS) stehen für die Umsetzung eines Data Lakes zur Verfügung.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Vor dem Data Lake stehen die Use Cases

Kommentar von Kiran Prakash und Lucy Chambers, ThoughtWorks

Vor dem Data Lake stehen die Use Cases

Künstliche Intelligenz (KI) und Machine Learning sind derzeit in aller Munde. Zahlreiche Unternehmen wollen auf diesen Zug aufspringen und von ihren Datenreserven profitieren.Tatsächlich bietet diese Technologie ein enormes Potenzial – aber nur ein sinnvoller Einsatz bringt echten Mehrwert. lesen

MongoDB 4.2 und weitere Neuheiten vorgestellt

Datenbank, Entwicklungsplattform und mehr

MongoDB 4.2 und weitere Neuheiten vorgestellt

Der Datenbankspezialist MongoDB hat Version 4.2 seiner gleichnamigen Plattform veröffentlicht. Zudem stellte das Unternehmen neue Produkte vor und gab seine Pläne für die Entwicklungsplattform Realm bekannt. lesen

Künstliche Intelligenz aus dem Datenpool

HPE kauft Bluedata, einen Anbieter von AI-Plattform-Software

Künstliche Intelligenz aus dem Datenpool

Ende November 2018 kaufte Hewlett Packard Enterprise (HPE) den Künstliche-Intelligenz-, Machine-Learning- und Big-Data-Analytics-Spezialisten Bluedata und damit dessen Plattform Epic. Den Preis gab HPE nicht bekannt. Storage-Insider-Autorin Ariane Rüdiger sprach mit Patrick Osborne, weltweiter Vice President für Big Data und Secondary Storage bei HPE, über die Hintergründe des Deals. lesen

Digitalisierung für mehr Qualität und Service im Schienengüterverkehr

Splunk im Einsatz bei der DB Cargo

Digitalisierung für mehr Qualität und Service im Schienengüterverkehr

Splunk Enterprise, das Hauptprodukt des Operational-Intelligence-Spezialisten Splunk, ist bei DB Cargo im Einsatz, der Güterbahnsparte der Deutschen Bahn. Im Zuge der Digitalisierung und Automatisierung des Güterverkehrs und des Fuhrparks hilft Splunk Enterprise bei der Datenerfassung und -analyse in den Projekten „Wagon Intelligence“ und „TechLOK“. Die Software-Entwicklung der beiden Projekte findet im DB Cargo amspire lab in Frankfurt am Main statt. lesen

Welche Rolle spielt BI in der modernen Datenanalyse?

Kommentar von Thomas Strehlow, Oraylis

Welche Rolle spielt BI in der modernen Datenanalyse?

Im Zuge der rasanten technischen Entwicklung werden konventionelle Ansätze der Datenanalyse zunehmend in Frage gestellt. Anlass hierzu geben unter anderem diverse Business-Intelligence-„Mythen“, die sich inzwischen als gültige Wahrheiten verbreiten. Demnach hat beispielsweise das Data Warehouse ausgedient. Auch die Datenqualität scheint durch einen angedachten Verzicht auf Datenmodellierung und Single Point of Truth an Relevanz zu verlieren. Der konkrete Blick in den Projektalltag führt indes ein anderes Bild zu Tage. lesen

KI „alfred“ unterstützt Thyssenkrupp Materials Services

Dynamische Logistik

KI „alfred“ unterstützt Thyssenkrupp Materials Services

Thyssenkrupp Materials Services treibt die digitale Transformation weiter voran: Seit Anfang des Jahres nutzt der Werkstoff-Händler und -Dienstleister die KI „alfred“, um seine Logistik zu optimieren. lesen

Wie die Cloud hilft, den Bierabsatz zu optimieren

Data Lake in Azure-Cloud beschleunigt Entscheidungsfindung bei AB InBev

Wie die Cloud hilft, den Bierabsatz zu optimieren

Bei der Brauereigruppe AB InBev verbrachten einzelne Mitarbeiter früher bis zu 80 Prozent ihrer Zeit damit, relevante Daten zu identifizieren und aufzubereiten. Über eine zentrale Cloud-Lösung werden heute Daten schneller bereitgestellt, sodass Mitarbeiter mehr Zeit für die Analyse und die strategische Entscheidungsfindung haben. lesen

Datenintegration in der Hybrid Cloud-Ära

ETL-Prozesse einfach gestalten

Datenintegration in der Hybrid Cloud-Ära

Das Thema Datenintegration gehört mit zu den größten Herausforderungen beim Management von hybriden und Multi-Cloud-Umgebungen. Schließlich geht es darum, Daten aus verschiedensten Quellen möglichst verlässlich aufzubereiten und zusammenzuführen. Nur wenn der vorhandene Datenpool, neuenglisch auch als „Data Lake“ bekannt, aktuell und vollständig ist, lassen sich daraus verlässliche Analysen ableiten. lesen

Informatica erweitert KI-Funktionen in fünf Segmenten

Release erweitert

Informatica erweitert KI-Funktionen in fünf Segmenten

Im aktuellen Release bietet die Informatica-Plattform KI-gesteuerte Automatisierungsfähigkeiten in fünf verschiedenen Segmenten. Zudem wurden die Cloud- und Serverless-Fähigkeiten ausgebaut. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45144323 / Definitionen)