5 Tipps für modernes Datenmanagement mit Open Source

Kommentar von Stefan Müller, IT-Novum 5 Tipps für modernes Datenmanagement mit Open Source

27.10.2021 Von Stefan Müller

Anbieter zum Thema

it-novum GmbH

Deutsche Telekom AG

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

QUNIS GmbH

Fivetran Germany GmbH

Der rasante technologische Fortschritt führt dazu, dass die weltweit produzierten Datenmengen Jahr für Jahr exponentiell anwachsen. Während das Thema Daten für die meisten Menschen noch vor zwei Jahrzehnten kaum eine Rolle gespielt hat, sind wir heute quasi bei jedem Klick mit der Frage konfrontiert, wer unsere Daten zu welchem Zweck nutzt und ob wir ihm die Erlaubnis dafür erteilen wollen. Dass Daten heute eine so wichtige Rolle spielen, hat einen einfachen Grund: Wer Daten hat, kann diese auf vielfältigste Art und Weise zu Geld machen.

Der Autor: Stefan Müller ist Director Big Data Analytics & IoT bei IT-Novum(Bild: IT-Novum) — Der Autor: Stefan Müller ist Director Big Data Analytics & IoT bei IT-Novum
(Bild: IT-Novum)

Und das betrifft bei Weitem nicht nur die Daten, die auf Websites gesammelt werden, um Informationen über Besucher und ihr Verhalten zu gewinnen, sondern sämtliche Daten. Alle Daten, die innerhalb eines Unternehmens anfallen, sind verwertbar, um Prozesse zu optimieren und effektivere Geschäftsstrategien zu entwickeln. Der bloße Zugriff auf die Daten reicht allerdings nicht aus, um von ihnen profitieren zu können. Sie müssen sinnvoll aggregiert und analysiert werden, damit sie als Entscheidungsgrundlage dienen können.

Damit haben viele Unternehmen nach wie vor ihre Probleme. Laut dem Databerg Report von Veritas handelt es sich bei 54 Prozent der Unternehmensdaten um Dark Data. Also um Daten, die zwar irgendwo im Unternehmen herumschwirren, jedoch nicht verwertbar sind. Dafür gibt es verschiedene Gründe: In 85 Prozent der Fälle fehlt es an Tools, die den Zugriff auf Dark Data ermöglichen. Oft sind Unternehmen nicht in der Lage, Daten in guter Qualität aufzubereiten (66 Prozent) oder sie sind schlichtweg mit der vorhandenen Datenmenge überfordert (39 Prozent). Die folgenden fünf Handlungsempfehlungen helfen Unternehmen dabei, ihren Datenschatz mithilfe moderner Open-Source-Lösungen ans Licht zu holen.

Tipp 1: Fortschrittliche Datenmodelle verwenden

Das Fundament für die erfolgreiche Analyse und Nutzung von Daten bildet die Anwendung eines effizienten Datenmodells. Bewährt hat sich hierzu der Data-Vault-Ansatz, wie er beispielsweise auch bei der Datenintegrationsplattform Pentaho zum Einsatz kommen kann. Das Modell setzt sich aus verschiedenen Layern (Ebenen) zusammen. Am Anfang werden die Rohdaten im Staging Layer aus unterschiedlichen Datenquellen zusammengeführt. Anschließend gelangen sie in den Raw Data Vault (Vault = „Tresorraum“) des Data Warehouse Layers sowie je nach Herkunft der Daten in einen von mehreren optionalen Vaults, die beispielsweise für spezifische Geschäftsdaten, Laufzeitinformationen oder Daten aus operativen Systemen vorgesehen sind. Die dritte Ebene ist der Information Mart Layer, in welchem die analysierten Daten dem Konsumenten in visualisierter Form zur Verfügung stehen.

Auf diese Art und Weise haben Fachabteilungen schnellen Zugriff auf Informationen, die für Entscheidungen erforderlich sind. Darüber hinaus bietet eine Modellierung nach Data Vault zahlreiche weitere Vorteile. Die Entwicklungszeit für die Implementierung neuer Business-Anforderungen ist sehr kurz, wodurch das Modell ein hohes Maß an Flexibilität und Skalierbarkeit bietet. Die Architektur unterstützt die Einhaltung von Compliance-Anforderungen, indem sie eine hundertprozentige Auditfähigkeit durch Historisierung und Nachvollziehbarkeit aller Daten bis zum Quellsystem gewährleistet.

Tipp 2: Self-Service-Ansatz für effizientere Datenanalyse

Oft ist der Personenkreis, der in einem Unternehmen Zugriff auf die Datenquellen und Analyseergebnisse hat, begrenzt. Das bringt im Hinblick auf die effiziente Verarbeitung von Daten einige Probleme mit sich. Hinzu kommt eine oftmals mangelhafte User Experience durch langwierige Bereitstellungsprozesse.

Damit Daten jedoch in allen Unternehmensbereichen profitabel genutzt werden können, ist es wichtig, Mitarbeiter in einem sinnvollen Rahmen zur eigenständigen Auswertung von Daten zu autorisieren. Man könnte hier von einer Demokratisierung der Datennutzung sprechen. Gelingen kann das durch die Implementierung eines sogenannten Self-Service-Konzepts.

Die Vorteile sind zahlreich: Abteilungen, die mit der Bereitstellung von Datenanalysen betraut sind, werden entlastet, während Fachabteilungen den Spezialisten besseres Feedback geben können, da sie zur Optimierung analytische Instrumente nutzen können. Entscheidende Faktoren für die erfolgreiche Umsetzung von Self-Service sind eine intuitive Benutzeroberfläche für User ohne tiefgehende Fachkenntnisse und entsprechende Datenschutzmaßnahmen, um das erhöhte Risiko für Datenlecks bei Self-Service Anwendungen zu minimieren.

Zu den besonders leistungsfähigen Self-Service-Analysetools aus dem Open-Source-Bereich zählen Pentaho, Apache Superset oder Metabase.

Tipp 3: Datenströme in Echtzeit analysieren

Lange Zeit vollzog sich die Datenanalyse in Unternehmen überwiegend Batch-orientiert. Das heißt, dass Daten zu einem bestimmten Zeitpunkt aus den Vorsystemen extrahiert, aufbereitet und analysiert werden. Heute hingegen werden Daten ununterbrochen von zahllosen Quellen wie Apps, Websites oder Sensoren generiert. In vielen Fällen ist eine Analyse in Echtzeit nötig, um von Insights profitieren zu können. Daher wird die traditionelle Batch-Philosophie den Anforderungen der Gegenwart nicht mehr gerecht. Zukünftig kommt der moderne Ansatz der Streaming-Analyse zum Einsatz. Wie der Name schon sagt, geht es hierbei um die Analyse kontinuierlich anfallender Datenströme – und das in Echtzeit. So profitieren Unternehmen kontinuierlich von neuesten, datenbasierten Informationen und können Prozesse ohne Verzögerung entsprechend anpassen. Die Speicherung der Daten erfolgt im Gegensatz zum Batch-Verfahren nicht vor, sondern nach der Analyse.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Um die Streaming-Analyse in bestehende Datenarchitekturen zu integrieren, müssen diese durch eine Realtime-Processing-Technologie ergänzt werden. Diese ermöglicht es, enorme Datenströme in Echtzeit zu organisieren, zu verarbeiten und zu analysieren. Bewährte Open Source-Lösungen zur Umsetzung der Streaming-Analyse sind Apache Kafka, Flume oder Spark Streaming.

Tipp 4: Standardisierung von Datenzugriffen per API Gateway

Die Verwendung von API Gateways ermöglicht einen standardisierten und sicheren Datenzugriff für alle Zugriffsberechtigten. Die Vorteile gegenüber klassischen Datenzugriffsansätzen liegen unter anderem in hoher Zuverlässigkeit und Sicherheit bei der Kommunikation zwischen allen relevanten Quellen sowie bei der flexiblen Anwendung in On-Premise- oder Cloud-Infrastrukturen.

Standardisierte API Gateways ermöglichen Anwendern und Entwicklern den schnellen Einsatz geeigneter Daten-APIs für den jeweiligen Anwendungsfall. Auch der Entwicklungsprozess datengetriebener Anwendungen beschleunigt sich dadurch signifikant, was letztendlich zu einer einfacheren und effizienteren Datennutzung im Unternehmen beiträgt.

API Gateways bilden innerhalb der Architektur eine sämtlichen Microservices übergeordnete Ebene, sodass die Kommunikation der Microservices über das Gateway erfolgt. Ein Konsument erhält per Anfrage an das Gateway Zugang zu allen nötigen Services. Der Zugriff über das Gateway findet also entkoppelt von der zugrundeliegenden Microservice Architektur statt. Weiterer Vorteil: Gateways sind individuell im Hinblick auf Nutzungsrichtlinien, Zugriffskontrollen oder Performance-Monitoring konfigurierbar. Kong ist eine bewährte und leistungsfähige Konnektivitätsplattform auf Open Source-Basis.

Tipp 5: Skalierbare Infrastrukturen schaffen

Zu den Anfangszeiten des Data Warehouse war es erforderlich, das Einsatzspektrum im Vorfeld der Nutzung präzise zu planen, da spätere Änderungen oder Skalierungen nur mit großem Aufwand umzusetzen waren. Heute ist das kaum mehr vorstellbar, da die Anforderungen an IT-Infrastrukturen sich sehr schnell ändern müssen. Vor diesem Hintergrund ist es erforderlich, dass die Infrastruktur möglichst kurzfristig und mit wenig Aufwand an neue Datenapplikationen und gesteigerte Workloads angepasst werden kann.

Die dafür erforderliche Flexibilität bieten beispielsweise die Cloud-basierten Datenplattformen von Microsoft, Amazon oder Google. Unternehmen profitieren dabei von einer Pay-as-you-go-Infrastruktur: bezahlt wird nur, was zum jeweiligen Zeitpunkt tatsächlich gebraucht wird, anstatt bereits im Vorfeld der Implementierung große Summen zu investieren. Einen weiteren Eckpfeiler für die flexible und einfache Skalierung von Ressourcen bilden containerisierte Datenlösungen. Hier hat sich in der Praxis besonders die offene Technologie Kubernetes quasi als Standard durchgesetzt.

Fazit: Mit Open Source modernes Datenmanagement umsetzen

Die intelligente Kombination offener Lösungen ermöglicht es Unternehmen heute, sämtliche Unternehmensdaten aus unterschiedlichsten Quellen effizient einzusammeln, zu aggregieren und zu analysieren. Alles zusammen bildet die Grundlage für datenbasierte Entscheidungen und damit für die Optimierung sämtlicher Geschäftsprozesse in zunehmend kompetitiven Umfeldern.

Artikelfiles und Artikellinks

Link: Whitepaper: Informationen zum Thema Datenmanagement mit Open Source sowie Use Cases (Registrierung erforderlich)

(ID:47698327)