Einheitliche, umfassende Sicht auf Daten Framework für eine unternehmensweite Datenplattform

Von Thomas Franz, Christian Mertens, Steve Rein (alle Adesso SE)

Anbieter zum Thema

Daten als gleichwertiges Asset eines Unternehmens zu betrachten und auch entsprechend zu behandeln, ist in der digitalisierten Welt ein wettbewerbsrelevanter Faktor. Denn Daten bilden die Basis für Kosteneffizienz und Wachstum durch neue oder optimierte fachliche Funktionen wie Fraud Detection, Customer Self-Service, Predictive Maintenance, Risk Modeling, Churn Prediction und viele weitere Anwendungsfälle.

Die Herausforderung der Balancierung der Plattformentwicklung und der Realisierung datengetriebener Anwendungsfälle
Die Herausforderung der Balancierung der Plattformentwicklung und der Realisierung datengetriebener Anwendungsfälle
(Bild: Adesso SE)

Datengetriebene Unternehmen besitzen die benötigten Fähigkeiten, derartige Funktionen wirtschaftlich zu nutzen. Sie erfüllen dafür die kulturellen, methodischen, organisatorischen und technologischen Voraussetzungen, Daten vielfältiger, intelligenter und effizienter zu nutzen.

In der Vergangenheit haben Unternehmen unterschiedlicher Branchen den Aufbau dieser Fähigkeiten begonnen, im Folgenden wird ein Teilaspekt davon vorgestellt, nämlich der systematische Aufbau einer Unternehmens-Datenplattform.

Die Herausforderung

Eine einheitliche, umfassende Sicht auf die verfügbaren Daten und die Möglichkeit diese Daten vielfältig zu verwerten, ist die Basis-Fähigkeit, die in vielen Unternehmen heute nur gering ausgeprägt ist. Sie ist die Basis für Anwendungsfälle von der Optimierung der Back-Office-Prozesse, des Marketings bis zur Optimierung der Customer Experience:

  • Die meisten Unternehmen sind heute (noch) nicht strategisch dafür aufgestellt, die Gesamtheit ihrer Daten insgesamt effizient zu managen und die so möglichen vielen Anwendungsfälle zu adressieren.
  • Die Verwertung von Daten ist durch Silo-Bildungen, Insellösungen und Redundanzen folglich komplex, aufwendig und langwierig.

Anforderungen an den Aufbau von Datenplattformen

Der Aufbau einer unternehmensweiten Datenplattform ist kein rein technologisches Vorhaben, sondern muss ebenfalls aus den Perspektiven Strategie, Organisation und Prozesse betrachtet werden. Dadurch ergibt sich eine hohe Komplexität des Gesamtvorhabens, welches aus zwei Stoßrichtungen geplant werden kann. Beide Herangehensweisen haben Vorteile, führen jedoch in einer extremen Ausprägung auch zu unterschiedlichen Risiken:

Schließlich gelten folgende Kernanforderungen für den Aufbau zur Minimierung der Risiken und Fokussierung der Wirtschaftlichkeit:

  • 1. Der Aufbau muss balanciert erfolgen, um die Risiken zu minimieren.
  • 2. Der Aufbau muss frühzeitig Wertbeiträge generieren, um die insgesamt hohe Investition in neue Fähigkeiten zu ermöglichen.

Ein logischer Lösungsansatz besteht daher in einer iterativen Vorgehensweise, in der sowohl querschnittliche Anforderungen an eine generische Datenplattform als auch anwendungsspezfische Anforderungen echter Use Cases parallel umgesetzt werden, so dass Wertschöpfung und Plattformaufbau vereint werden (siehe Grafik):

Iterativer Aufbau für die Balancierung von Over-Engineering und Wertschöpfung
Iterativer Aufbau für die Balancierung von Over-Engineering und Wertschöpfung
(Bild: Adesso SE)

Funktionale Architektur

Für die Umsetzung des iterativen Vorgehens bildet die funktionale Architektur ein wichtiges Element. Die funktionale Architektur beinhaltet Funktionsbausteine, sie beschreibt „was“ eine Datenplattform leisten soll. Im Unterschied zu häufig anzutreffenden technologieorientierten Visualisierungen von Datenplattformen bietet die stringente Betrachtung den essenziellen Vorteil, dass die Bewertung und Betrachtung der Datenplattform durch verschiedene Betrachtungsdimensionen ermöglicht wird. So wird die funktionale Architektur genutzt, um organisatorische, technologische und prozessuale Auswirkungen auf ein Unternehmen zu analysieren und dadurch die gezielte Steuerung und den zielführenden Aufbau entsprechend der Unternehmens-Capabilities zu leisten.

Die bewusste Entkoppelung von Technologien gewährleistet zusätzlich die Übertragbarkeit auf verschiedene Lösungsszenarien und die dauerhafte Arbeit an der Plattform in einer sich technisch und methodisch schnell verändernden Welt.

Die Funktionale Sicht

Die funktionale Architektur beinhaltet verschiedene funktionale Bausteine, die im Folgenden erläutert werden.

Die funktionale Architektur einer Datenplattform
Die funktionale Architektur einer Datenplattform
(Bild: Adesso SE)

1. Quell-Integration

Die gleichartige Integration heterogener Datenquellen und -formate ist ein zentraler Aspekt für standardisierte und effiziente Data Ingests. Die zentrale Datenintegration stellt sicher, dass Daten mit geringem Entwicklungsaufwand genutzt und bestellt werden können. Als zentraler Dateneinstiegpunkt ermöglicht die Quell-Integration frühzeitig das Management der Metadaten und stellt dafür einen zentralen Datenkatalog bereit. Dadurch reduziert sich die Zeit zur Anbindung neuer Datenquellen und die Entwicklung der Data Driven Products. Damit werden fachliche Mehrwerte fokussiert.

2. Datenverteilung

Die zentrale Datenverteilung bildet Stream-basierte Verarbeitung ab und ermöglicht die Entwicklung Realtime-basierter DDPs. Als Event-Processing-Komponente verteilt sie Daten innerhalb der Plattform.

3. Datenverwaltung

Das Konstrukt Data Lake geht in der zentralen Datenverwaltung auf. Diese ist universell in der Lage, polystrukturierte Daten verteilt, effizient und von hohem Volumen (Tera- bis Petabyte) dauerhaft zu persistieren. Die Datenverwaltung deckt darüber hinaus Anforderungen nach Katalogisierung und Bereitstellung zur wertsteigenden Aufbereitung sowie Anonymisierung und Sicherheit durch ein Zonenkonzept ab.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

4. Datengetriebene Produkte (Data-driven Products, DDPs)

Datengetriebene Produkte bilden dezentrale und autarke Ausprägungen einzelner fachlicher Anwendungsfälle ab. Sie schaffen den betriebswirtschaftlichen Mehrwert für das Unternehmen wie Fraud Detection, Risk Modeling oder Churn Prediction. Ein DDP nutzt anforderungsspezifische Technologien zur Persistierung (Daten), Verarbeitung (Logik) und Bereitstellung (Service) datengetriebener fachlicher Funktionen. Dabei dienen die Datenverteilung und Datenverwaltung als Quelle für ein DDP.

5. Analytischer Arbeitsplatz

Für die Exploration von Daten, die Entwicklung und Verprobung von Datenanalysen, zum Beispiel maschinell erlernter Modelle, bietet der analytische Arbeitsplatz eine Umgebung, die unter anderem Datenzugriff, Data-Science-Werkzeuge und Rechenkapazität beinhaltet.

6. Nutzung und Interaktion

Die Nutzung von Interaktion mit den Resultaten datengetriebener Produkte erfolgt neben dem klassischem Reporting und Dashboarding auch durch technische Schnittstellen wie REST und SOAP. Bestimmte Interaktionsformen können Teil eines DDPs und damit der Plattform sein.

7. Governance

Governance-Funktionen bilden die Klammer, um die Datenmanagement-Plattform für grundlegende Aspekte wie Logging, Rechtemanagement, Autorisierung, Data Lineage, Meta-Datenmanagement und weitere.

Implementierungsoptionen

Unser Ansatz ist Technologie-agnostisch. Er kann daher über verschiedenen Betriebsmodelle (On-Premises, Multi-/Hybrid-Cloud) wie auch durch unterschiedliche Technologie-Stacks (Open Source, Cloud, Enterprise Distribution, Mixed) ausgeprägt werden. Exemplarisch wird die funktionale Architektur durch Azure-Analytics-Komponenten und vereinzelt spezialisierte Technologien ausgeprägt. Zum Aufbau der funktionalen Architektur auf der Microsoft-Azure-Data-Plattform werden Microsoft-native Technologien wie auch Azure-basierte Technologien eingesetzt.

Technische Implementierung auf der Basis Microsoft Azure
Technische Implementierung auf der Basis Microsoft Azure
(Bild: Adesso SE)

Für die Datenintegration eignet sich der Azure Data Lake Gen2. In Verbindung mit der Azure Data Factory Gen2 ergibt sich daraus eine Datenplattform, welche Datenintegration mit Standardschnittstellen bereitstellt und gleichzeitig die Nutzung selbstentwickelte APIs zur Datenintegration ermöglicht.

Im Azure Data Lake werden die Daten des Funktionsbausteins Datenverwaltung in unterschiedlichen Zonen abgelegt. Die Zonen haben den Zweck die Quelldaten historisch zu speichern, zu standardisieren und zu kuratieren. Für die technischen Aufbereitungen der Daten in den Zonen wird je nach geforderter Komplexität die Azure Data Factory oder Azure Databricks verwendet.

„Single Point of Truth“

Der Azure Data Lake ist der „Single Point of Truth“ einer unternehmensweiten Datenplattform, welcher die Daten für dedizierte DDPs und für die Arbeitsplätze zur Erforschung der Daten und Entwicklung von Advanced-Analytics-Modellen bereitstellt.

Für den Funktionsbaustein Datenverteilung zur Stream-basierte Verarbeitung von Daten und Entwicklung Realtime-basierter DDPs, werden die Technologien Apache Kafka sowie Azure IoT & Event Hub genutzt.

Die DDPs können in ihrem Zweck heterogen sein. Beispielsweise ein Data Warehouse (DWH) inklusive Data Marts, welches Daten für andere DDPs bereitstellt. Weitere Ausprägungen sind ein (übergreifendes) DDP, wie auch ein einzelner fachlich abgegrenzter Data Mart (Zweck-bezogenes DDP). Die Heterogenität der verschiedenen DDP-Ausprägungen forciert hohe Flexibilität beim Einsatz der Technologien.

In einem Reporting- und Analytics-Kontext werden Synapse Analytics, Azure SQL Database oder Snowflake eingesetzt, um Datenstrukturen und Data Marts zu entwickeln. Die Data Marts werden den Nutzern mit Reporting- oder Analysetools wie dem Power-BI-Portal bereitgestellt.

Entwicklung im Arbeitsplatz und Bereitstellung

Für die Entwicklung im Arbeitsplatz und der Bereitstellung ML/DL basierter DDPs, werden Azure Machine Learning Services oder Databricks verwendet. Diese bieten die Möglichkeit, Tools wie ML Flow oder der Azure Datafactory anzuwenden und dadurch automatisierte Pipelines aufzubauen und Streaming-Daten (Stream-basiertes DDP) zu klassifizieren.

Für die Entwicklung und Bereitstellung von DDPs unterstützt Azure DevOPs durch automatisierte CI/CD-Pipelines.

Um die in Unternehmen geltenden Richtlinien an Governance zu gewährleisten, werden auf der Microsoft-Azure-Data-Plattform zur Sicherstellung der Sicherheits-, Authentifizierungs- und Datenqualitätsanforderungen die Technologien wie Azure Data Catalog als Nachschlagewerk zu den Daten, das Azure Active Directory zur sicheren Authentifizierung der Nutzer und Azure Key Vault zur sicheren Verwahrung und Nutzung von sensiblen Daten zur Authentifizierung genutzt.

Technologien im Überblick
Technologien im Überblick
(Bild: Adesso SE)

Begleitende Handlungsfelder auf dem Weg zum datengetriebenen Unternehmen

Datenplattformen sind ein wichtiger Baustein eines datengetriebenen Unternehmens. Der Artikel zeigt, welche Aspekte zu einer Plattform wie adressiert werden können. Zu adressierende und zu orchestrierende Fragestellungen und begleitende Handlungsfelder für Unternehmen, die hier nicht weiter behandelt werden können, aber typischerweise parallel begleitet werden, betreffen Themen der Datenstrategie, Cloud-Strategie, eines Change-Programms für den Wandel beziehungsweise die Weiterentwicklung der Organisation mit ihren Prozessen, Personen und Kompetenzen.

(ID:46410351)