Gartner kritisiert übersteigerte Erwartungen an Data Lakes Data Lake oder Datensumpf?

Autor / Redakteur: Ludger Schmitz / Ulrike Ostler

Marktanalysten von Gartner warnen, Anwender könnten beim neuen Hype um „Data Lakes“ einem Trugschluss aufsitzen.

Firmen zum Thema

Nach Data Warehouse und Big Data sind Data Lakes eine fast schon logisch erscheinende nächste Ausprägung der Nutzung großer Datenbestände. „Wenn Sie sich einen Datamart als einen Laden voller Flaschen mit Wasser vorstellen, gereinigt, verpackt und strukturiert für den einfachen Verbrauch, dann ist ein Data Lake ein großer Korpus mit Wasser in einem natürlicherem Zustand. Der Inhalt des Data Lake strömt ihm von einer Quelle zu und verschiedene Nutzer des Sees können das Wasser untersuchen, hineintauchen oder Proben nehmen.“ Mit diesen Worten hat James Dixon, CTO von Pentaho, in einem Blog-Beitrag laut Wiktionary anno 2010 als erster den Begriff Data Lake geprägt.

Nach einer Definition von Nick Heudecker, Forschungsdirektor bei Gartner, sind Data Lakes unternehmensweite Plattformen, um einerseits Daten aus unterschiedlichsten Quellen in ihrem nativen Format zu analysieren, was andererseits wiederum sämtliche Mitglieder einer Organisation (Firma) dürfen. Der zweite Teil dieser Definition ist umstritten, anscheinend auch bei Gartner.

Denn in einer Gartner-Pressemitteilung, die mit der Definition beginnt, wird zu einem Großteil vor allem deren zweiter Teil zerpflückt. Wie zu erwarten kommt abschließend der Ratschlag – und der hat es eigentlich in sich.

Die Gartner-Kritik

Die kritische Gartner-Stimme kommt von Andrew White, Vice President und Distinguished Analyst bei dem Marktforschungsunternehmen. Er hat einige grundlegende Einwände.

So weist er zunächst darauf hin, dass es sicher weniger aufwendig sei, native Daten in einen Topf zu werfen, ohne ihnen vorher mittels Metadaten quasi die Korsettstangen einzuziehen und Struktur zu geben. Ein Data Warehouse macht das notwendig und viel Arbeit. Aber ohne die könnte die Performance einer Data-Lake-Analyse grottenschlecht ausfallen.

Das nächste Problem besteht darin, dass die Aussagekraft der Daten mit jeder Abfrage abnimmt. Denn jedes Mal fließen ja auch die Ergebnisse der vorherigen Abfragen in den See zurück, was zwangsläufig zu einer Verfälschung der Ergebnisse führt.

Verfälschung der Grundlagen und wenig Effizienz in der Suche

Aus dem Daten-See wird ein „Datensumpf“, so White. Dann stellt sich die Frage, wie man denn aus einem Wirrwar von Daten die interessanten Informationen fischen will. Das Netz aus Suchalgorithmen müsste jedes Mal von Neuem geknüpft werden. Das könnte wenig ökonomisch sein, nämlich letztlich anspruchsvoller und zeitraubender als die Strukturierung beim Datenzufluss.

Hieraus leitet sich der eigentliche Kritikpunkt ab: Sollen wirklich alle im Teich fischen dürfen? Schließlich wären da auch etliche Daten im See, die eigentlich besonderen Schutzes bedürfen.

Wie sollen persönliche Daten und Firmengeheimnisse gesichert werden? Kollidiert nicht das Data-Lake-Konzept schon an diesem Punkt mit Firmenrichtlinien und – noch schlimmer – mit Gesetzen und anderen Vorschriften? Die Sicherheitstechnologien für Data Lakes sind laut Gartner-Analyst White „noch embryonal“.

Wer darf was und wie?

Wohl kaum wird jeder Mitarbeiter mal eben in einen Data Lake eintauchen können. Außer einigen weniger geschulten IT-Spezialisten und Datenanalytiker wird wohl kaum jemand mit der Informationsflut umzugehen wissen. Entsprechenden Schulungen sind unabdingbar, so White, aber zeitintensiv und kostspielig.

Es bleibt das Gartner-Fazit: Für die eine Organisation mag ein Data Lake attraktiv sein, für die andere gänzlich ungeeignet. Eine solche Bewertung von einem Marktforschungsunternehmen, das nicht schlecht davon lebt, Hypes zu schaffen und zu propagieren, bedeutet nur eins: Diese Sau wird nicht durchs Dorf getrieben, sondern gleich geschlachtet.

Der Autor:

Ludger Schmitz ist freiberuflicher Journalist in Kelheim.

(ID:42853256)

Über den Autor

 Ludger Schmitz

Ludger Schmitz

Freiberuflicher Journalist