Was ist ein Data Swamp?

Definition Was ist ein Data Swamp?

08.11.2018Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

Ein Data Swamp entsteht für gewöhnlich aus einem Data Lake. Es handelt sich um ein Datendepot, dessen Daten aufgrund fehlender Metadaten, gebrochener Beziehungen und mangelhafter Organisation nicht mehr sinnvoll für Businessanalysen nutzbar sind.

Anbieter zum Thema

Tableau von Salesforce

Disy Informationssysteme GmbH

QUNIS GmbH

Der deutsche Begriff für Data Swamp lautet „Datensumpf“. Es handelt sich um einen „versumpften“ Data Lake, dessen Informationen nicht mehr sinnvoll und mit vertretbaren Aufwand analysierbar sind. Der Data Swamp besitzt zwar große Datenmengen, doch sind relevante Daten aufgrund gebrochener Beziehungen, fehlender Metadaten und mangelhafter Organisation schwer ausfindig zu machen. Sie gehen in der großen Menge an unspezifischen Daten unter. Für Anwender und Business-Analysten bietet der Data Swamp kaum einen Mehrwert. Er verursacht beim Versuch der Auswertung großen Aufwand und liefert wenig Informationen. Durch geeignete Maßnahmen kann ein Data Swamp unter Umständen wieder in einen nutzbaren Data Lake zurückverwandelt werden.

Die Entstehung eines Data Swamps aus einem Data Lake

Um die Entstehung eines Data Swamps genauer zu erläutern, ist zunächst das Konzept des Data Lakes zu verstehen. Der Data Lake adressiert das Problem, dass herkömmliche Data Warehouses und Analyse-Systeme oft auf Datenbanken basieren, die aufgrund starrer Strukturen sehr unflexibel sind. Die Grundidee des Data Lakes besteht darin, sämtliche Daten, egal ob strukturiert oder unstrukturiert, zentral in einem großen Datendepot zu speichern. In diesem Depot landen Daten, die in einem Unternehmen anfallen, wie E-Mails, Kundendaten, Word-Dokumente, Produktionsdaten und viele mehr.

Zur Abfrage und Auswertung der Daten kommen Big-Data-Verfahren und NoSQL-Technologien zum Einsatz. Oft basieren Anwendungen eines Data Lakes auf Microsoft Azure oder dem Hadoop-Framework.

Nach der Definition des Data Lakes akzeptiert dieser jegliche strukturierte oder unstrukturierte Daten. Nimmt ein Data Lake jedoch zu viele Daten ohne geeignetes Metadaten-Management schlecht organisiert auf, werden relevante Daten immer schwerer auffindbar. Der Informationsgehalt des Date Lakes sinkt, obwohl ständig neue Daten hinzukommen.

Ebenfalls zur Versumpfung eines Data Lakes führt fehlendes Life-Cycle-Management der Daten. Nach einer gewissen Zeit verlieren Daten an Relevanz. Verbleiben die Daten dennoch im Datendepot, sammeln sich über lange Zeiträume immer mehr Daten mit fehlender Relevanz. Falsche Zeitstempel eines Datensatzes führen ebenfalls zu nicht auffindbaren oder auswertbaren Informationen. Aus diesem Grund sind die Datensätze in einem Data Lake mit einem Verfallsdatum zu versehen oder regelmäßig zu bereinigen. Wichtig ist es, beim Einleiten der Daten in den Data Lake auf Kontext und Semantik zu achten. Ein gewisses Mindestmaß an Strukturierung ist sicherzustellen. Datenmüll ist regelmäßig zu entfernen.

Typische Merkmale eines Data Swamps

Die typischen Merkmale eines Data Swamps sind:

zu viele Daten ohne jegliche Organisation

fehlende Meta-Informationen der strukturierten oder unstrukturierten Daten

eine Vielzahl veralteter Daten

fehlende oder falsche Zeitstempel der Daten

fehlendes aktives Management des Data Lakes

keine regelmäßige Bereinigung des Data Lakes

fehlende oder gebrochene Beziehungen zwischen den Informationen

schlechte Dokumentation

schlechte Performance des Datendepots

fehlende Katalogisierung der verschiedenen Datenquellen

Nachteile durch die Verwandlung eines Data Lakes in einen Data Swamp

Hat sich ein Data Lake in einen Data Swamp verwandelt, bieten sich dem Unternehmen und den Anwendern zahlreiche Nachteile. Relevante Informationen sind nur noch schwer und mit hohem Aufwand oder gar nicht mehr auffindbar. Auswertungen des Datenbestands liefern keinen Mehrwert und binden große Zeit- und Arbeitsressourcen. Im Extremfall sind die Informationen nicht mehr sinnvoll nutzbar. Die eingesetzte IT ist stark beansprucht und benötigt mehr Rechenleistung und Speicherplatz als grundsätzlich notwendig wäre.

Methoden zur Rückverwandlung eines Data Swamps in einen Data Lake

Durch den Einsatz verschiedener Methoden lassen sich Data Swamps unter Umständen wieder in sinnvoll nutzbare Data Lakes zurück verwandeln. Das kann mit großem Arbeitsaufwand verbunden sein. Zunächst ist eine sinnvolle Organisation und ein Metadaten- sowie Life-Cycle-Management einzuführen. Sämtliche Daten sind in dieser Hinsicht zu prüfen. Durch ein zentrales Register aller Datenquellen des Data Lakes erfolgt eine Auszeichnung der neu aufzunehmenden Daten. Anforderungen an die Datenaufnahme sind beispielsweise die Kennzeichnung der Datenherkunft, die Metadaten-Auszeichnung und eine sinnvolle Nomenklatur. Mindest- und Maximalhaltedauern der Informationen sind zu berücksichtigen.

Der Data Lake benötigt zudem eine regelmäßige automatische Reinigung durch das Löschen nicht mehr benötigter oder relevanter Daten. Daten, die den aufgestellten Mindestanforderungen nicht genügen, sind ebenfalls zu löschen. Grundsätzlich muss sichergestellt sein, dass ein Datenanalyst genügend Informationen besitzt, um den Inhalt eines Datensatzes bewerten und identifizieren zu können.

(ID:45590638)