Definition

Was ist ein Data Lake?

| Autor / Redakteur: Tutanch / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Beim Data Lake handelt es sich um einen sehr großen Datenspeicher, der die Daten aus den unterschiedlichsten Quellen in ihrem Rohformat aufnimmt. Er kann sowohl unstrukturierte als auch strukturierte Daten enthalten und lässt sich für Big-Data-Analysen einsetzen.

Der Begriff Data Lake (dt. „Datensee“) steht für einen sehr großen Datenspeicher. Er beinhaltet im Gegensatz zu normalen Datenbanken Daten in ihrem ursprünglichen Rohformat. Der Data Lake lässt sich aus den verschiedensten Quellen speisen. Die Daten können strukturiert oder unstrukturiert sein und müssen vor der Speicherung nicht validiert oder umformatiert werden. Neben text- oder zahlenbasierten Daten kann der Data Lake auch Bilder, Videos oder andere Datenformate aufnehmen. Erst wenn die Daten benötigt werden, erfolgt die Strukturierung und gegebenenfalls die Umformatierung der betroffenen Daten.

Ein Data Lake lässt sich aufgrund seiner riesigen Informationsmenge für flexible Analysen im Big-Data-Umfeld einsetzen. Die aus den verschiedene Quellen stammenden Daten sind für viele verschiedene Anwendungen und Analysen nutzbar.

Wichtige Funktionen eines Data Lakes

Der Data Lake muss bestimmte Grundfunktionen bieten, um die Anforderungen der auf den Informationen aufsetzenden Anwendungen zu erfüllen. Die unterschiedlichsten Daten und Datenformate, egal ob strukturiert oder unstrukturiert, müssen sich im Data Lake ablegen lassen. Verteilte Datensilos werden dadurch vermieden. Um eine möglichst flexible Nutzung der Daten zu ermöglichen, sind die gängigen Frameworks und Protokolle der Datenbanksysteme und Datenbankanwendungen aus dem Big-Data-Umfeld zu unterstützen. Der Zugriff auf die Daten ist durch eine leistungsstarke, rollenbasierte Zugriffskontrolle zu schützen, um die Vorgaben des Datenschutzes und der Datensicherheit zu erfüllen. Zusätzlich ist die Verschlüsselung von Daten einzusetzen. Mechanismen zur Sicherung und Wiederherstellung der Daten sind ebenfalls bereitzustellen.

Gegenüberstellung von Data Lake und Data Warehouse

Im Zusammenhang mit der Speicherung und der Bereitstellung großer Datenmengen fallen oft die Begriffe Data Lake und Data Warehouse. Obwohl sowohl das Data Warehouse als auch der Data Lake in der Lage sind, große Informationsmengen zu speichern und für Auswertungen bereitzustellen, unterscheiden sie sich in ihren Konzepten und der Art der Datenspeicherung grundsätzlich. Das Data Warehouse führt Daten aus unterschiedlichen Quellen zusammen und überführt sie in Formate und Strukturen, die eine direkte Analyse gestattet. Der Data Lake hingegen nimmt die Daten aus den unterschiedlichen Quellen in ihrem Rohformat auf und legt sie auch unstrukturiert ab. Dabei ist es unerheblich, ob die Daten für spätere Analysen relevant sind. Der Data Lake besitzt eine flache Hierarchie und muss für die Speicherung der Daten nicht die Art der später auszuführenden Analysen kennen. Erst wenn die Daten tatsächlich benötigt werden, erfolgt die Suche, Strukturierung oder Umformatierung.

Das Data Warehouse speichert in der Regel Kennzahlen oder Transaktionsdaten. Unstrukturierte Daten wie Bilder oder Audiodaten sind im Data Warehouse nicht abgelegt. Der Data Lake nimmt sämtliche Informationen in ihrem Ursprungsformat auf, die ihm angeboten werden. Da der Data Lake die Daten in ihrem Ursprungsformat bereithält, ist er bei sich verändernden Anforderungen wesentlich flexibler einsetzbar als das Data Warehouse. Daten sind in völlig neue Strukturen überführbar und mit neuartigen Methoden analysierbar.

Vor- und Nachteile eines Data Lakes

Der Data Lake bietet eine ganze Reihe von Vorteilen. Dank der Vielzahl an bereitgestellten Informationen sind aussagekräftigere und tiefer gehende Analysen möglich. Für Unternehmen können sich dadurch echte Wettbewerbsvorteile ergeben. Aufgrund der Speicherung der Daten in ihrem Rohformat, ohne vorherige Strukturierung oder Umformatierung, erfolgen Speichervorgänge sehr schnell. Die Anforderungen des Data Lakes in puncto Rechenleistung sind für die Speicherung selbst großer Datenmengen gering. Im Gegensatz zu einem Data Warehouse bietet der Data Lake wesentlich mehr Möglichkeiten für die Auswertung der Daten. Das Data Warehouse sortiert bereits bei der Speicherung der Informationen die Daten aus, die für spätere Analysen nicht benötigt werden. Der Data Lake nimmt sämtliche Daten auf und schränkt die Analysemöglichkeiten nicht schon bei der Datenspeicherung ein.

Als Nachteil lässt sich anführen, dass ein Data Lake hohe Anforderungen in puncto Datenschutz und Datensicherheit stellt. Je mehr Daten gespeichert werden und je mehr Zusammenhänge sich zwischen den verschiedenen Daten herstellen lassen, desto besser sind sie zu schützen. Der Data Lake benötigt ein durchdachtes Sicherheits- und Datenschutzkonzept sowie eine ausgereifte, rollenbasierte Nutzerkontrolle mit unterschiedlichen Zugriffsrechten.

Beispiele für Implementierungen des Data Lakes

Viele Frameworks und Filesysteme für Big-Data-Anwendungen und das verteilte Speichern von Daten unterstützen das Konzept des Data Lakes. Beispielsweise lassen sich mit dem Distributed File System von Apache Hadoop (Hadoop Distributed File System - HDFS) Data Lakes realisieren. Auch Cloud Services wie Azure Data Lake und Amazon Web Services (AWS) stehen für die Umsetzung eines Data Lakes zur Verfügung.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Microsoft startet neue Datenanalyse-Services

Mehr Erkenntnisse aus Daten

Microsoft startet neue Datenanalyse-Services

Mit dem Azure Data Explorer, einer neuen Version von Azure Data Lake Storage und der Vorschau auf Mapping Data Flow in der Azure Data Factory stellt Microsoft eine Reihe an Analytics-Neuheiten vor. lesen

Der Data Lake integriert sich

Data Lakes

Der Data Lake integriert sich

Data Lake oder Data Warehouse? So schien lange Zeit die Alternative für Unternehmen zu lauten. Doch wie so oft gibt es in der betrieblichen IT kein Entweder-oder, sondern beide Infrastrukturen tauchen zunehmend gemeinsam auf. lesen

Cloud als Treiber der Digitalisierung

Ungenutzte Datenschätze heben

Cloud als Treiber der Digitalisierung

Das Vertrauen in die Cloud wächst: Laut dem „Digital Office Index 2018“ vom Bitkom setzt bereits fast jedes zweite Großunternehmen auf Cloud Hosting und lässt die IT-Systeme über externe Dienstleister betreiben. lesen

Big Data im Phantasialand

Data Analytics 2019

Big Data im Phantasialand

Am 26. und 27. März findet im Phantasialand in Brühl bei Köln die Datenkonferenz Data Analytics 2019 statt. Die DOAG und Oracle sorgen auch diesmal für ein vielfältiges Programm rund um Analysen im Zusammenspiel mit Big Data, Machine Learning und der Cloud. lesen

Daten zentral verwalten, ohne die Nutzer einzuengen

Zalando toleriert die „Schatten-KI“

Daten zentral verwalten, ohne die Nutzer einzuengen

Der Vorteil von Machine-Learning- und Deep-Learning-Anwendungen schwindet, wenn jedes Team das Rad neu erfindet. So die Überzeugung von Kshitij Kumar, Leiter des Zalando-Bereichs Data Infrastructure. Deshalb steht sein Team dem gesamten „Zalando Fashion Store“ als zentrale Instanz für Data-Warehouse- und „KI“-Applikationen zu Verfügung. Benötigt nun aber eine Geschäftseinheit partout etwa Eigenes, so fungieren die „Data-Infras“ als Consulting- und Servicegruppe. lesen

Hitachi Vantara stellt Pentaho 8.2 vor

Nahtlose Datenintegration

Hitachi Vantara stellt Pentaho 8.2 vor

Mit dem Release 8.2 bringt Hitachi Vantara seine Datenintegrations- und Analyseplattform Pentaho auf den neuesten Stand. Zu den Neuerungen zählt ein verbessertes Zusammenspiel mit dem Produktportfolio des Herstellers. lesen

Globales Datenmanagement für die digitale Transformation

Kommentar von Daniel Metzger, Hortonworks

Globales Datenmanagement für die digitale Transformation

Produkte und Nutzererfahrung optimieren, die Effizienz der Geschäftsaktivitäten steigern und den Gewinn maximieren – das ist die Essenz der Digitalisierung. Der gesamte Treibstoff all dieser Aktionen liegt in den Daten. Bei genauerer Betrachtung ist das alles aber gar nicht erst seit kurzem der Fall: Die digitale Transformation beschäftigt Unternehmen weltweit seit nunmehr etwa 20 Jahren lesen

Data Lab als Bindeglied zwischen Corporate BI und Business

Bimodale BI im DAX-Konzern

Data Lab als Bindeglied zwischen Corporate BI und Business

Weltweit sehen sich Unternehmen mit der Herausforderung konfrontiert, klassische BI-Lösungen und agile Self-Service-Ansätze unter einem Dach zu vereinen – kein einfaches Unterfangen, stehen sich hier doch vollkommen unterschiedliche Denk- und Vorgehensweisen gegenüber. Ein großer deutscher Konzern hat diese Aufgabenstellung mit Hilfe eine Data Labs gelöst, das als eigenständige Abteilung zwischen Corporate BI und Fachabteilungen angesiedelt ist. lesen

Self-Service-Analytics nach dem Pay-As-You-Go-Prinzip

Datenplattform von Talend und Co.

Self-Service-Analytics nach dem Pay-As-You-Go-Prinzip

Cloud-Spezialist Talend will mit seiner neuen Plattform Datenanalysen vereinfachen. Die Self-Service-Lösung nach dem Pay-As-You-Go-Prinzip entstand in Kooperation mit dem Data-Warehousing-Experten Snowflake und den Big-Data-Fachleuten von Datalytyx. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45144323 / Definitionen)