Kommentar von Stefan Müller, IT-Novum 5 Tipps für modernes Datenmanagement mit Open Source

Autor / Redakteur: Stefan Müller / Nico Litzel

Der rasante technologische Fortschritt führt dazu, dass die weltweit produzierten Datenmengen Jahr für Jahr exponentiell anwachsen. Während das Thema Daten für die meisten Menschen noch vor zwei Jahrzehnten kaum eine Rolle gespielt hat, sind wir heute quasi bei jedem Klick mit der Frage konfrontiert, wer unsere Daten zu welchem Zweck nutzt und ob wir ihm die Erlaubnis dafür erteilen wollen. Dass Daten heute eine so wichtige Rolle spielen, hat einen einfachen Grund: Wer Daten hat, kann diese auf vielfältigste Art und Weise zu Geld machen.

Firmen zum Thema

Der Autor: Stefan Müller ist Director Big Data Analytics & IoT bei IT-Novum
Der Autor: Stefan Müller ist Director Big Data Analytics & IoT bei IT-Novum
(Bild: IT-Novum)

Und das betrifft bei Weitem nicht nur die Daten, die auf Websites gesammelt werden, um Informationen über Besucher und ihr Verhalten zu gewinnen, sondern sämtliche Daten. Alle Daten, die innerhalb eines Unternehmens anfallen, sind verwertbar, um Prozesse zu optimieren und effektivere Geschäftsstrategien zu entwickeln. Der bloße Zugriff auf die Daten reicht allerdings nicht aus, um von ihnen profitieren zu können. Sie müssen sinnvoll aggregiert und analysiert werden, damit sie als Entscheidungsgrundlage dienen können.

Damit haben viele Unternehmen nach wie vor ihre Probleme. Laut dem Databerg Report von Veritas handelt es sich bei 54 Prozent der Unternehmensdaten um Dark Data. Also um Daten, die zwar irgendwo im Unternehmen herumschwirren, jedoch nicht verwertbar sind. Dafür gibt es verschiedene Gründe: In 85 Prozent der Fälle fehlt es an Tools, die den Zugriff auf Dark Data ermöglichen. Oft sind Unternehmen nicht in der Lage, Daten in guter Qualität aufzubereiten (66 Prozent) oder sie sind schlichtweg mit der vorhandenen Datenmenge überfordert (39 Prozent). Die folgenden fünf Handlungsempfehlungen helfen Unternehmen dabei, ihren Datenschatz mithilfe moderner Open-Source-Lösungen ans Licht zu holen.

Tipp 1: Fortschrittliche Datenmodelle verwenden

Das Fundament für die erfolgreiche Analyse und Nutzung von Daten bildet die Anwendung eines effizienten Datenmodells. Bewährt hat sich hierzu der Data-Vault-Ansatz, wie er beispielsweise auch bei der Datenintegrationsplattform Pentaho zum Einsatz kommen kann. Das Modell setzt sich aus verschiedenen Layern (Ebenen) zusammen. Am Anfang werden die Rohdaten im Staging Layer aus unterschiedlichen Datenquellen zusammengeführt. Anschließend gelangen sie in den Raw Data Vault (Vault = „Tresorraum“) des Data Warehouse Layers sowie je nach Herkunft der Daten in einen von mehreren optionalen Vaults, die beispielsweise für spezifische Geschäftsdaten, Laufzeitinformationen oder Daten aus operativen Systemen vorgesehen sind. Die dritte Ebene ist der Information Mart Layer, in welchem die analysierten Daten dem Konsumenten in visualisierter Form zur Verfügung stehen.

Auf diese Art und Weise haben Fachabteilungen schnellen Zugriff auf Informationen, die für Entscheidungen erforderlich sind. Darüber hinaus bietet eine Modellierung nach Data Vault zahlreiche weitere Vorteile. Die Entwicklungszeit für die Implementierung neuer Business-Anforderungen ist sehr kurz, wodurch das Modell ein hohes Maß an Flexibilität und Skalierbarkeit bietet. Die Architektur unterstützt die Einhaltung von Compliance-Anforderungen, indem sie eine hundertprozentige Auditfähigkeit durch Historisierung und Nachvollziehbarkeit aller Daten bis zum Quellsystem gewährleistet.

Tipp 2: Self-Service-Ansatz für effizientere Datenanalyse

Oft ist der Personenkreis, der in einem Unternehmen Zugriff auf die Datenquellen und Analyseergebnisse hat, begrenzt. Das bringt im Hinblick auf die effiziente Verarbeitung von Daten einige Probleme mit sich. Hinzu kommt eine oftmals mangelhafte User Experience durch langwierige Bereitstellungsprozesse.

Damit Daten jedoch in allen Unternehmensbereichen profitabel genutzt werden können, ist es wichtig, Mitarbeiter in einem sinnvollen Rahmen zur eigenständigen Auswertung von Daten zu autorisieren. Man könnte hier von einer Demokratisierung der Datennutzung sprechen. Gelingen kann das durch die Implementierung eines sogenannten Self-Service-Konzepts.

Die Vorteile sind zahlreich: Abteilungen, die mit der Bereitstellung von Datenanalysen betraut sind, werden entlastet, während Fachabteilungen den Spezialisten besseres Feedback geben können, da sie zur Optimierung analytische Instrumente nutzen können. Entscheidende Faktoren für die erfolgreiche Umsetzung von Self-Service sind eine intuitive Benutzeroberfläche für User ohne tiefgehende Fachkenntnisse und entsprechende Datenschutzmaßnahmen, um das erhöhte Risiko für Datenlecks bei Self-Service Anwendungen zu minimieren.

Zu den besonders leistungsfähigen Self-Service-Analysetools aus dem Open-Source-Bereich zählen Pentaho, Apache Superset oder Metabase.

Tipp 3: Datenströme in Echtzeit analysieren

Lange Zeit vollzog sich die Datenanalyse in Unternehmen überwiegend Batch-orientiert. Das heißt, dass Daten zu einem bestimmten Zeitpunkt aus den Vorsystemen extrahiert, aufbereitet und analysiert werden. Heute hingegen werden Daten ununterbrochen von zahllosen Quellen wie Apps, Websites oder Sensoren generiert. In vielen Fällen ist eine Analyse in Echtzeit nötig, um von Insights profitieren zu können. Daher wird die traditionelle Batch-Philosophie den Anforderungen der Gegenwart nicht mehr gerecht. Zukünftig kommt der moderne Ansatz der Streaming-Analyse zum Einsatz. Wie der Name schon sagt, geht es hierbei um die Analyse kontinuierlich anfallender Datenströme – und das in Echtzeit. So profitieren Unternehmen kontinuierlich von neuesten, datenbasierten Informationen und können Prozesse ohne Verzögerung entsprechend anpassen. Die Speicherung der Daten erfolgt im Gegensatz zum Batch-Verfahren nicht vor, sondern nach der Analyse.

Um die Streaming-Analyse in bestehende Datenarchitekturen zu integrieren, müssen diese durch eine Realtime-Processing-Technologie ergänzt werden. Diese ermöglicht es, enorme Datenströme in Echtzeit zu organisieren, zu verarbeiten und zu analysieren. Bewährte Open Source-Lösungen zur Umsetzung der Streaming-Analyse sind Apache Kafka, Flume oder Spark Streaming.

Tipp 4: Standardisierung von Datenzugriffen per API Gateway

Die Verwendung von API Gateways ermöglicht einen standardisierten und sicheren Datenzugriff für alle Zugriffsberechtigten. Die Vorteile gegenüber klassischen Datenzugriffsansätzen liegen unter anderem in hoher Zuverlässigkeit und Sicherheit bei der Kommunikation zwischen allen relevanten Quellen sowie bei der flexiblen Anwendung in On-Premise- oder Cloud-Infrastrukturen.

Standardisierte API Gateways ermöglichen Anwendern und Entwicklern den schnellen Einsatz geeigneter Daten-APIs für den jeweiligen Anwendungsfall. Auch der Entwicklungsprozess datengetriebener Anwendungen beschleunigt sich dadurch signifikant, was letztendlich zu einer einfacheren und effizienteren Datennutzung im Unternehmen beiträgt.

API Gateways bilden innerhalb der Architektur eine sämtlichen Microservices übergeordnete Ebene, sodass die Kommunikation der Microservices über das Gateway erfolgt. Ein Konsument erhält per Anfrage an das Gateway Zugang zu allen nötigen Services. Der Zugriff über das Gateway findet also entkoppelt von der zugrundeliegenden Microservice Architektur statt. Weiterer Vorteil: Gateways sind individuell im Hinblick auf Nutzungsrichtlinien, Zugriffskontrollen oder Performance-Monitoring konfigurierbar. Kong ist eine bewährte und leistungsfähige Konnektivitätsplattform auf Open Source-Basis.

Tipp 5: Skalierbare Infrastrukturen schaffen

Zu den Anfangszeiten des Data Warehouse war es erforderlich, das Einsatzspektrum im Vorfeld der Nutzung präzise zu planen, da spätere Änderungen oder Skalierungen nur mit großem Aufwand umzusetzen waren. Heute ist das kaum mehr vorstellbar, da die Anforderungen an IT-Infrastrukturen sich sehr schnell ändern müssen. Vor diesem Hintergrund ist es erforderlich, dass die Infrastruktur möglichst kurzfristig und mit wenig Aufwand an neue Datenapplikationen und gesteigerte Workloads angepasst werden kann.

Die dafür erforderliche Flexibilität bieten beispielsweise die Cloud-basierten Datenplattformen von Microsoft, Amazon oder Google. Unternehmen profitieren dabei von einer Pay-as-you-go-Infrastruktur: bezahlt wird nur, was zum jeweiligen Zeitpunkt tatsächlich gebraucht wird, anstatt bereits im Vorfeld der Implementierung große Summen zu investieren. Einen weiteren Eckpfeiler für die flexible und einfache Skalierung von Ressourcen bilden containerisierte Datenlösungen. Hier hat sich in der Praxis besonders die offene Technologie Kubernetes quasi als Standard durchgesetzt.

Fazit: Mit Open Source modernes Datenmanagement umsetzen

Die intelligente Kombination offener Lösungen ermöglicht es Unternehmen heute, sämtliche Unternehmensdaten aus unterschiedlichsten Quellen effizient einzusammeln, zu aggregieren und zu analysieren. Alles zusammen bildet die Grundlage für datenbasierte Entscheidungen und damit für die Optimierung sämtlicher Geschäftsprozesse in zunehmend kompetitiven Umfeldern.

Artikelfiles und Artikellinks

(ID:47698327)