Definition

Was ist ein Data Swamp?

| Autor / Redakteur: Tutanch / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Ein Data Swamp entsteht für gewöhnlich aus einem Data Lake. Es handelt sich um ein Datendepot, dessen Daten aufgrund fehlender Metadaten, gebrochener Beziehungen und mangelhafter Organisation nicht mehr sinnvoll für Businessanalysen nutzbar sind.

Der deutsche Begriff für Data Swamp lautet „Datensumpf“. Es handelt sich um einen „versumpften“ Data Lake, dessen Informationen nicht mehr sinnvoll und mit vertretbaren Aufwand analysierbar sind. Der Data Swamp besitzt zwar große Datenmengen, doch sind relevante Daten aufgrund gebrochener Beziehungen, fehlender Metadaten und mangelhafter Organisation schwer ausfindig zu machen. Sie gehen in der großen Menge an unspezifischen Daten unter. Für Anwender und Business-Analysten bietet der Data Swamp kaum einen Mehrwert. Er verursacht beim Versuch der Auswertung großen Aufwand und liefert wenig Informationen. Durch geeignete Maßnahmen kann ein Data Swamp unter Umständen wieder in einen nutzbaren Data Lake zurückverwandelt werden.

Die Entstehung eines Data Swamps aus einem Data Lake

Um die Entstehung eines Data Swamps genauer zu erläutern, ist zunächst das Konzept des Data Lakes zu verstehen. Der Data Lake adressiert das Problem, dass herkömmliche Data Warehouses und Analyse-Systeme oft auf Datenbanken basieren, die aufgrund starrer Strukturen sehr unflexibel sind. Die Grundidee des Data Lakes besteht darin, sämtliche Daten, egal ob strukturiert oder unstrukturiert, zentral in einem großen Datendepot zu speichern. In diesem Depot landen Daten, die in einem Unternehmen anfallen, wie E-Mails, Kundendaten, Word-Dokumente, Produktionsdaten und viele mehr.

Zur Abfrage und Auswertung der Daten kommen Big-Data-Verfahren und NoSQL-Technologien zum Einsatz. Oft basieren Anwendungen eines Data Lakes auf Microsoft Azure oder dem Hadoop-Framework.

Nach der Definition des Data Lakes akzeptiert dieser jegliche strukturierte oder unstrukturierte Daten. Nimmt ein Data Lake jedoch zu viele Daten ohne geeignetes Metadaten-Management schlecht organisiert auf, werden relevante Daten immer schwerer auffindbar. Der Informationsgehalt des Date Lakes sinkt, obwohl ständig neue Daten hinzukommen.

Ebenfalls zur Versumpfung eines Data Lakes führt fehlendes Life-Cycle-Management der Daten. Nach einer gewissen Zeit verlieren Daten an Relevanz. Verbleiben die Daten dennoch im Datendepot, sammeln sich über lange Zeiträume immer mehr Daten mit fehlender Relevanz. Falsche Zeitstempel eines Datensatzes führen ebenfalls zu nicht auffindbaren oder auswertbaren Informationen. Aus diesem Grund sind die Datensätze in einem Data Lake mit einem Verfallsdatum zu versehen oder regelmäßig zu bereinigen. Wichtig ist es, beim Einleiten der Daten in den Data Lake auf Kontext und Semantik zu achten. Ein gewisses Mindestmaß an Strukturierung ist sicherzustellen. Datenmüll ist regelmäßig zu entfernen.

Typische Merkmale eines Data Swamps

Die typischen Merkmale eines Data Swamps sind:

  • zu viele Daten ohne jegliche Organisation
  • fehlende Meta-Informationen der strukturierten oder unstrukturierten Daten
  • eine Vielzahl veralteter Daten
  • fehlende oder falsche Zeitstempel der Daten
  • fehlendes aktives Management des Data Lakes
  • keine regelmäßige Bereinigung des Data Lakes
  • fehlende oder gebrochene Beziehungen zwischen den Informationen
  • schlechte Dokumentation
  • schlechte Performance des Datendepots
  • fehlende Katalogisierung der verschiedenen Datenquellen

Nachteile durch die Verwandlung eines Data Lakes in einen Data Swamp

Hat sich ein Data Lake in einen Data Swamp verwandelt, bieten sich dem Unternehmen und den Anwendern zahlreiche Nachteile. Relevante Informationen sind nur noch schwer und mit hohem Aufwand oder gar nicht mehr auffindbar. Auswertungen des Datenbestands liefern keinen Mehrwert und binden große Zeit- und Arbeitsressourcen. Im Extremfall sind die Informationen nicht mehr sinnvoll nutzbar. Die eingesetzte IT ist stark beansprucht und benötigt mehr Rechenleistung und Speicherplatz als grundsätzlich notwendig wäre.

Methoden zur Rückverwandlung eines Data Swamps in einen Data Lake

Durch den Einsatz verschiedener Methoden lassen sich Data Swamps unter Umständen wieder in sinnvoll nutzbare Data Lakes zurück verwandeln. Das kann mit großem Arbeitsaufwand verbunden sein. Zunächst ist eine sinnvolle Organisation und ein Metadaten- sowie Life-Cycle-Management einzuführen. Sämtliche Daten sind in dieser Hinsicht zu prüfen. Durch ein zentrales Register aller Datenquellen des Data Lakes erfolgt eine Auszeichnung der neu aufzunehmenden Daten. Anforderungen an die Datenaufnahme sind beispielsweise die Kennzeichnung der Datenherkunft, die Metadaten-Auszeichnung und eine sinnvolle Nomenklatur. Mindest- und Maximalhaltedauern der Informationen sind zu berücksichtigen.

Der Data Lake benötigt zudem eine regelmäßige automatische Reinigung durch das Löschen nicht mehr benötigter oder relevanter Daten. Daten, die den aufgestellten Mindestanforderungen nicht genügen, sind ebenfalls zu löschen. Grundsätzlich muss sichergestellt sein, dass ein Datenanalyst genügend Informationen besitzt, um den Inhalt eines Datensatzes bewerten und identifizieren zu können.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Daten als Energiequelle für das Business

Kommentar von Dirk Häußermann, Informatica

Daten als Energiequelle für das Business

Eine der vielen Herausforderungen, denen sich Enterprise-Data-Architekten gegenübersehen, ist es, teilweise überlappende, verwirrende oder unvollständige Datensätze intelligent zu sortieren. Da die Daten aus vielen verschiedenen Quellen stammen, gibt es in den Unternehmen nicht immer ein gemeinsames Verständnis für die Definition von Daten. Daher ist es wichtig, alle Daten zu verstehen, ehe Regeln für sie erstellt werden. lesen

So werden Big-Data-Projekte zum Erfolg

Kommentar von Peter Welker, Trivadis

So werden Big-Data-Projekte zum Erfolg

Ein Big-Data-Projekt ist ein Projekt wie jedes andere. Wirklich? In manchen Belangen mag das stimmen: Projekt- und Risikomanagement, Planung, Implementierung, Testen, Release- und Change-Management, Betrieb. Das sind Aufgaben, die es hier wie dort zu bewältigen gilt. Wer aber genauer hinschaut, wird zahlreiche Unterschiede und Besonderheiten erkennen. Hier kommen zehn Tipps. lesen

Data Lake oder Datensumpf?

Gartner kritisiert übersteigerte Erwartungen an Data Lakes

Data Lake oder Datensumpf?

Marktanalysten von Gartner warnen, Anwender könnten beim neuen Hype um „Data Lakes“ einem Trugschluss aufsitzen. lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45590638 / Definitionen)