Kommentar von Soumendra Mohanty, Mindtree

Komfort und Chaos im Data Lake

| Autor / Redakteur: Soumendra Mohanty / Nico Litzel

Der Autor: Soumendra Mohanty ist Senior Vice President Global Data and Analytics bei Mindtree.
Der Autor: Soumendra Mohanty ist Senior Vice President Global Data and Analytics bei Mindtree. (Bild: Mindtree)

In unserer heutigen datengetriebenen Gesellschaft verfügen wir über den Luxus, sämtliche Daten, egal ob alt oder neu, in einem Datenarchiv speichern und nutzen zu können. Bis vor wenigen Jahren war der Prozess des Speicherns und Sortierens von Daten noch durch die Designphilosophie ETL (Extrahieren, Transformieren, Laden) limitiert. Das führte dazu, dass verschiedenste Datensätze transformiert und zusammengefasst wurden, um mit ihnen Data Marts und Data Warehouses zu bestücken.

Durch diesen Prozess was das Speichern überschüssiger Daten beschränkt, da jede einzelne Dateneinheit in den Data Marts und Data Warehouses gründlich überprüft, justiert und mit einem eindeutigen Nutzen versehen wurde. Der genaue Wert der gespeicherten Daten war demnach festgelegt.

Der Komfort

Das neue Konzept der Data Lakes ermöglicht es hingegen, eine riesige Anzahl verschiedener Rohdaten zu sammeln und im Data Lake zu speichern – unter der Annahme, dass wir mithilfe dieser Daten zukünftige Probleme lösen können und Antworten auf Fragen finden, die wir uns derzeit noch gar nicht stellen. Es geht also um den erwarteten Wert der Daten. Sobald sie benötigt werden, ist der Data Lake in der Lage, die Daten zu organisieren, ihre Quelle anzugeben und ihre Wertigkeit zu bestimmen.

Dieses „Just-in-Case“-Designparadigma ermöglicht höhere Geschwindigkeit und Flexibilität, welche die treibenden Kräfte hinter einer unternehmensweiten Datenmanagementplattform sind. Durch die Konzentration auf Datenaufnahme und -harmonisierung sind Data Lakes in der Lage, verteilte Daten schnell, kosteneffizient und ohne jegliche Beschränkungen zu speichern. Mit diesem neuen Konzept sollen zwei Schlüsselprobleme des Datenmanagements gelöst werden, ein Altes und ein Neues.

Beim alten Problem handelt es sich um Datenspeicherung und damit um die Kosten des Datenmanagements. Im Gegensatz zum traditionellen Datenmanagementansatz, bei dem die Daten in mehreren voneinander unabhängigen Datenarchiven gespeichert wurden, ermöglichen Data Lakes eine gemeinsame Unterbringung. Das erleichtert das Nutzen und Teilen von Informationen; gleichzeitig sinken die Kosten, da weniger Server und Lizenzen benötigt werden.

Einfacher Zugang zu relevanten Quellen

Als neues Problem ergibt sich der Informationszugang. Es muss ein einfacher Zugang zu den relevanten Quellen sichergestellt sein, sobald ein Potenzial für ihre breitere Nutzung im Unternehmen identifiziert wurde. Im Wesentlichen geht es darum, schneller passende Lösungen für Probleme zu finden, denen wir uns zum jetzigen Zeitpunkt noch nicht bewusst sind.

Ein Unternehmen kann all seine Daten, egal ob strukturiert oder unstrukturiert, im Data Lake abspeichern. Dadurch ermöglicht es seinen Nutzern, ihre eigenen Denk- und Analyseansätze anzuwenden, um die bestmöglich auf den jeweiligen Geschäftssachverhalt abgestimmte Datenanalyse zu erhalten. Der sofortige Zugang zu allen Arten von Daten ist ein großer Vorteil für das Datenmanagement.

Für die Benutzer bedeutet das weniger Abhängigkeit von der IT und dem Enterprise-Data-Warehouse-Team. So können sie Daten flexibel entsprechend ihrer Anforderungen gestalten. Ein weiterer Vorteil ist die geringere Datenbewegung, da alle Daten einfach in den Data Lake eingespeist und dort gesammelt werden. Außerdem müssen die Daten nicht unbedingt transaktional noch relational sein. Denn der Data Lake kann Dateien jeden Typs enthalten, ob Clickstream-Daten, extern, maschinengeneriert, aus Social Media oder sogar Audio-, Video- und Textdateien.

Der Data Lake gibt den Angestellten des Unternehmens mehr Kompetenzen und schafft somit eine „Datendemokratie“ im Unternehmen. Durch die schnellere Datenbereitstellung ermöglicht der Data Lake den Nutzern, eine Vielzahl von Hypothesen schnell zu testen. Gleichzeitig werden die Kosten gesenkt und die Leistung gesteigert. Mit modernen Big-Data-Technologien haben Unternehmen eine wirtschaftliche Option, all ihre Daten in einem einzigen, skalierbaren Infrastrukturmodell abzubilden.

Das Chaos

Wenn immer mehr Daten in den Data Lake fließen, während gleichzeitig mehrere Personen den Data Lake simultan für ihre spezifischen Analysen nutzen, entsteht ein zunehmendes Risiko, dass sich der Data Lake in eine Datendeponie verwandelt. Bei Hunderten oder sogar Tausenden von Nutzern werden simultan große Datenmengen abgerufen und/oder neu erstellt. Die große Herausforderung besteht darin, den Data Lake vernünftig zu verwalten, da zumeist wenig Klarheit darüber herrschen dürfte, wer gerade ein bestimmtes Datenset ebenfalls verwendet und für welchen Zweck.

In der momentanen Designphilosophie von Data Lakes spielen automatisches Metadatenmanagement, Governance, Datenabstammung und Rückverfolgbarkeit nur eine untergeordnete Rolle. Gleichzeitig führt die „Datendemokratie“ zu einer zunehmenden Ad-hoc-Nutzung von Daten. Deshalb ist es wichtig, sich einen Überblick über das gesamte Nutzungsverhalten zu verschaffen. Nur so können neue Nutzer derselben Datenquellen schnell erkennen, wer diese Daten bereits genutzt hat, wofür sie genutzt wurden, wie hoch die Qualität und Relevanz dieser Daten ist und ob sie sich für weitere Analysen eignen – im Wesentlichen ein Feedback- und Bewertungssystem.

Die Implementierung derartiger Funktionen und Best Practices ist essenziell für den Erfolg eines Data Lake. Ohne sie ist das Chaos vorprogrammiert und verhindert die breite Akzeptanz und Nutzung von Data Lakes als wertvolle Daten-Assets im Unternehmen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 43505202 / Infrastruktur)