Kommentar von Timo Kubach & Christian Mathis, SAP Data Management über verteilte Landschaften
Das Volumen relevanter Unternehmensdaten wächst exponentiell und soll laut einer Studie von IDC aus dem Jahr 2017 bis 2025 158 Zettabyte erreichen. Diese explosionsartige Zunahme an zumeist unstrukturierten Daten (IoT, Bilder, soziale Netzwerke) entfesselt neue Innovationspotenziale für Unternehmen.
Anbieter zum Thema

Zu diesen neue Innovationspotenzialen zählen
- ein besseres Verständnis der Kunden, um die Kundenzufriedenheit zu steigern,
- eine gesteigerte operative Effizienz und damit eine höhere Produktivität,
- auf der Basis von Machine Learning (ML) automatisierte Geschäftsprozesse, welche ebenfalls die Produktivität steigern und
- neue Geschäftsmodelle und Umsatzquellen durch die Monetisierung von Daten.
Um von diesen Innovationspotenzialen profitieren zu können, gilt es für Unternehmen, zunächst eine Reihe von Herausforderungen zu meistern, weshalb wir in diesem Bereich bislang in den meisten Fällen noch ganz am Anfang stehen:
- Visibilität der Daten: Es wird immer schwieriger, die aus unterschiedlichen Quellen stammenden großen Datenvolumina zu managen und zu orchestrieren. So gaben in der SAP-Studie „Data 2020: State of Big Data“ 74 Prozent der Unternehmen an, dass ihre Datenlandschaft komplex ist und die Agilität des Unternehmens hemmt.
- Qualität der Daten: Die Datenqualität muss fortwährend durch Bereinigung („Data Cleansing“) und das Auflösen von Inkonsistenzen verbessert werden. Viele CEOs sorgen sich um die Qualität jener Daten, auf denen ihre Entscheidungen beruhen.
- Daten-basierte Innovation: Das Training von Machine-Learning-Systemen und die Umsetzung von IoT-Anwendungsfällen wird häufig durch die Komplexität bei der Nutzung von Daten erschwert – oder gar verhindert.
- Daten-bezogene Kosten: Die stetig wachsenden Datenvolumina (sowohl organisch als auch durch Akquisitionen getrieben) verursachen immer höhere Kosten für Speicherung und Verarbeitung.
- Daten-Compliance: Die Einhaltung vielfältiger regulatorischer und unternehmensspezifischer Richtlinien wird zu einer immer größer werdenden Belastung für die Unternehmens-IT. Das Risiko ist entsprechend hoch, da die EU beispielsweise bis zu vier Prozent des Jahresumsatzes als Strafe für die Verletzung der Datenschutz-Grundverordnung (DSGVO) verhängen kann.
Natürlich gibt es im Bereich der Technologie eine Vielzahl von Neuentwicklungen, um diesen Herausforderungen begegnen zu können. Die wichtigsten darunter sind aus unserer Sicht:
Formatspezifische Datenverarbeitung und Polystores
Daten fallen, je nach Anwendung, in vielen verschiedenen Formaten an: relational, semi-strukturiert (z. B., XML oder JSON), als Zeitreihe, oder auch als Graph. Die Datenbank-Forschung und -produktentwicklung hat in den letzten Jahren eine Reihe von Systemen hervorgebracht, die große Datenvolumina in diesen Formaten effizient und skalierbar speichern und deklarativ verarbeiten können, zum Beispiel Neo4J für Graphen, MongoDB für JSON-Dokumente oder InfluxDB für Zeitreihen. Dabei entfallen ansonsten aufwendige Datentransformationen: Daten können im Quellformat effizient verarbeitet werden. Einige dieser Systeme erlauben auch die Verarbeitung aller Formate in einem einzigen System („Polystore“), zum Beispiel BigDAWG. Ein Polystore erlaubt es darüber hinaus, ohne Transformation Daten in verschiedenen Formaten miteinander zu verknüpfen. Die entfallenden Datentransformationen vereinfachen die Datenhaltung, erleichtern die Zugänglichkeit und erhöhen somit die Visibilität von Daten.
Datenverarbeitung und -transformation per Pipeline
Bevor Daten einer tiefergehenden Analyse durch einen Data Scientist zur Verfügung gestellt werden können („datengetriebene Innovationen“), müssen sie oft zunächst vorbereitet werden. Zu dieser Vorbereitung gehören die Datenextraktion aus Quellsystemen, Bereinigung („Data Cleansing“) und Erkennen von Ausreißern (sog. „Outlier-Detection“, zum Beispiel bei IoT-Daten), Anreicherung (zum Beispiel mit Kontextinformationen aus Enterprise Systemen), Schema-Transformationen und die Bereitstellung in Datenbanksystemen. Diese Prozesse können oft durch einen Datenflussgraphen (Pipeline) beschrieben werden, wobei Pfeile den Datenfluss vorgeben und Boxen Verarbeitungsoperatoren darstellen.
Mittlerweile existiert eine Reihe quelloffener und kommerzieller Systeme, die solche Pipelines effizient und skalierbar ausführen können, zum Bespiel Apache Nifi. Oft bieten solche Systeme eine reichhaltige Menge an Adaptoren, um viele verschiedene Datenquellen (Datenbanken, Datenströme und Messaging-Systeme, Enterprise und BI-Systeme, Cloud-Stores …) sowohl lesend als auch schreibend ansprechen zu können. Darüber hinaus besteht für den Nutzer oft auch die Möglichkeit, Pipelines durch eigene Datenverarbeitungs-Operatoren (oder Adaptoren) zu erweitern. Für Standard-Aufgaben (zum Beispiel bei der Datenbereinigung zur Sicherung der Datenqualität) existieren üblicherweise vordefinierte Klassen von Operatoren, die lediglich konfiguriert, aber nicht aufwendig implementiert werden müssen.
Orchestration und Automatisierung per Workflow
Die Bereitstellung von Daten, zum Beispiel über eine oder mehrere Pipelines, ist oft ein regelmäßig wiederkehrender Prozess. Wenn zum Beispiel Machine-Learning-Modelle mit neuen Daten aufgefrischt werden müssen, kann dies die Ausführung der vollständigen Prozesskette zur Folge haben, von den Datenquellen bis zum ML-Tool. Oft sind auch externe Ereignisse und Bedingungen zu beachten, die zu einer Ausführung einer Pipeline führen oder diese beeinflussen. Diese Anforderungen können durch Workflow-Systeme realisiert werden – zum Beispiel Apache Oozie.
Metadaten-Extraktion, Katalogisierung und Data Lineage
Um überhaupt mit Daten arbeiten zu können, zum Beispiel um Pipelines zur Daten-Bereitstellung zu implementieren, benötigen Anwender zunächst einen Überblick über existierende Datenquellen und deren Inhalt. Oft sind Quellsysteme und deren Schnittstellen bekannt (und es existieren geeignete Clients), sodass Metadaten automatisch aus heterogenen Quellsystemen extrahiert und mit den Vorgaben des Nutzers in einem Katalog zur Verfügung gestellt werden können, zum Beispiel in Apache Atlas. Ferner können Data-Profiling-Werkzeuge helfen, die innere Struktur (Werteverteilungen, Korrelationen) zu verstehen und so den Entwicklungsprozess einer Pipeline unterstützen. Techniken zur Verfolgung der Daten (Data Lineage) – vom Quellsystem zum Anwender – können ebenfalls automatisiert durch die Auswertung von Pipelines und Workflows angewendet werden. Zusammen mit einer eingebetteten Benutzerkontrolle sind Metadatenkataloge und Data Lineage Basistechnologien zur Umsetzung der Daten-Compliance in Unternehmen, da sie Informationen über die Herkunft und Verwendung von Daten der Steuerung durch den Anwender zuführen.
In den vorangegangenen Abschnitten wurden zahlreiche Open-Source-Lösungen erwähnt, die Teilbereiche des Problemspektrums adressieren. Um Data Management über verteilte Landschaften im Enterprise-Umfeld sinnvoll umsetzen zu können, muss also eine Vielzahl von Open-Source-Lösungen kombiniert und betrieben werden – was häufig zu großem Aufwand und großer Unsicherheit führt. Daher gibt es mittlerweile auch professionelle Lösungen, wie zum Beispiel SAP Data Hub, welche nicht nur das gesamte Aufgabenspektrum abdecken, sondern auch Investitions- und Zukunftssicherheit bieten.
:quality(80):fill(efefef,0)/p7i.vogel.de/wcms/60/00/60006d569ce02/playout.jpg)
(ID:45529460)