Gartner kritisiert übersteigerte Erwartungen an Data Lakes

Data Lake oder Datensumpf?

| Autor / Redakteur: Ludger Schmitz / Ulrike Ostler

Was lauert in einem Data Lake?
Was lauert in einem Data Lake? (Bild: VBM-Archiv)

Marktanalysten von Gartner warnen, Anwender könnten beim neuen Hype um „Data Lakes“ einem Trugschluss aufsitzen.

Nach Data Warehouse und Big Data sind Data Lakes eine fast schon logisch erscheinende nächste Ausprägung der Nutzung großer Datenbestände. „Wenn Sie sich einen Datamart als einen Laden voller Flaschen mit Wasser vorstellen, gereinigt, verpackt und strukturiert für den einfachen Verbrauch, dann ist ein Data Lake ein großer Korpus mit Wasser in einem natürlicherem Zustand. Der Inhalt des Data Lake strömt ihm von einer Quelle zu und verschiedene Nutzer des Sees können das Wasser untersuchen, hineintauchen oder Proben nehmen.“ Mit diesen Worten hat James Dixon, CTO von Pentaho, in einem Blog-Beitrag laut Wiktionary anno 2010 als erster den Begriff Data Lake geprägt.

Nach einer Definition von Nick Heudecker, Forschungsdirektor bei Gartner, sind Data Lakes unternehmensweite Plattformen, um einerseits Daten aus unterschiedlichsten Quellen in ihrem nativen Format zu analysieren, was andererseits wiederum sämtliche Mitglieder einer Organisation (Firma) dürfen. Der zweite Teil dieser Definition ist umstritten, anscheinend auch bei Gartner.

Denn in einer Gartner-Pressemitteilung, die mit der Definition beginnt, wird zu einem Großteil vor allem deren zweiter Teil zerpflückt. Wie zu erwarten kommt abschließend der Ratschlag – und der hat es eigentlich in sich.

Die Gartner-Kritik

Die kritische Gartner-Stimme kommt von Andrew White, Vice President und Distinguished Analyst bei dem Marktforschungsunternehmen. Er hat einige grundlegende Einwände.

So weist er zunächst darauf hin, dass es sicher weniger aufwendig sei, native Daten in einen Topf zu werfen, ohne ihnen vorher mittels Metadaten quasi die Korsettstangen einzuziehen und Struktur zu geben. Ein Data Warehouse macht das notwendig und viel Arbeit. Aber ohne die könnte die Performance einer Data-Lake-Analyse grottenschlecht ausfallen.

Das nächste Problem besteht darin, dass die Aussagekraft der Daten mit jeder Abfrage abnimmt. Denn jedes Mal fließen ja auch die Ergebnisse der vorherigen Abfragen in den See zurück, was zwangsläufig zu einer Verfälschung der Ergebnisse führt.

Inhalt des Artikels:

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 42853256 / Infrastruktur)