Kommentar von Tobias Goerke, Viadee Unternehmensberatung DataHub – die Zukunft der unternehmensweiten Datenstrategie?

Von Tobias Goerke Lesedauer: 7 min

Anbieter zum Thema

Durch die zunehmende Bedeutung von Daten wird ein reibungsloser Umgang mit ihnen immer wichtiger. Die zentrale Verwaltung und Bereitstellung von (Meta-)Daten spielen dabei entscheidende Rollen. Moderne Datenplattformen wie DataHub versprechen Unterstützung, indem sie als zentrale Instanzen Beschreibungen und Dokumentationen von Datenquellen verschiedener Geschäftseinheiten zusammenführen und so eine unternehmensweite Datenstrategie befähigen.

Der Autor: Tobias Goerke ist Berater KI und Data Science bei der Viadee Unternehmensberatung
Der Autor: Tobias Goerke ist Berater KI und Data Science bei der Viadee Unternehmensberatung
(Bild: (c) Andreas Loechte)

Dieser Beitrag berichtet von unseren Projekterfahrungen im Aufbau solcher DataHub-Instanzen. Wir erläutern ihre datenstrategische Bedeutung und erklären, wie die Plattformlösung wertschaffend für Unternehmen eingesetzt werden kann. Zudem berichten wir über typische Probleme, die bei der Integration der Plattform auftreten können. Schlussendlich diskutieren wir architekturelle Überlegungen für dezentrale Datenstrukturen und zeigen, wie selbst semistrukturierte, bislang nicht durch DataHub unterstützte Datenquellen angebunden werden können.

Einleitung und Hintergrund

Unternehmen erkennen zunehmend den Wert von Daten für innovative und wettbewerbsfähige Geschäftsmodelle. Dennoch besteht im Umgang mit ihnen oft ein Mangel an Flexibilität, Zugriffsmöglichkeiten und klaren Zuständigkeiten. Die Disziplin der Data Governance ist entstanden, um dieses Problem zu lösen und effiziente Datensteuerung und -Nutzung zu ermöglichen. Sie soll Transparenz, Vertrauen und Kontrolle über unternehmensinterne Daten schaffen und so neuartige, dezentrale Paradigmen wie Data Mesh unterstützen.

Methodisch basiert Data Governance dafür auf Datenkatalogen, Datenqualität und Data Ownership. Datenkataloge ermöglichen Benutzern, Informationen über alle im Unternehmen verfügbare Daten zu erhalten. Datenqualität wird durch Validierung ihrer Beschaffenheit sichergestellt. Data Ownership weist klare Verantwortlichkeiten zu und unterstützt die Einhaltung von Datenschutzrichtlinien. Die Umsetzung dieser Data-Governance-Konzepte fördert schließlich die effiziente Steuerung und Nutzung von Daten im Unternehmen. Operativ ist dies jedoch nur durch die Unterstützung technischer Plattformenlösungen möglich, die den Zugriff auf Datenpools und deren Nutzung regeln.

DataHub als Grundlage der Datenstrategie

DataHub ist eine solche Data-Governance-Plattform. Sie unterstützt Unternehmen bei der effektiven Verwaltung ihrer Daten und der Bewältigung der damit verbundenen Herausforderungen. Ursprünglich von LinkedIn entwickelt und schließlich unter der Apache-2.0-Lizenz der Open Source Community zur Verfügung gestellt, zählt DataHub mit seiner wachsenden Gemeinschaft von Beitragenden zu den aufstrebenden Datenplattformen. Die Selbstbezeichnung „The #1 Open Source Data Catalog“ hebt ihren Selbstanspruch deutlich hervor.

Der Kern und die Stärke von DataHub liegen in der Verwaltung von Metadaten. Diese beschreiben den gesamten internen Datenbestand eines Unternehmens, können u. a. Verantwortlichkeiten definieren und durch automatisierte Validierungen eine hohe Datenqualität gewährleisten. Die Datenquellen und ihre Domänen können zudem händisch ergänzt bzw. kommentiert werden. DataHub schafft so einen gepflegten Datenkatalog und ermöglicht eine umfassende Betrachtung und ein besseres Verständnis der Datenlandschaft. Stakeholdern wird ermöglich, effizient und einheitlich nach Metadaten zu suchen, wodurch Kommunikation und Zusammenarbeit zwischen verschiedenen Teams in Unternehmen verbessert wird.

Die Integration und Erzeugung von Metadaten erfolgen auf drei Wegen:

  • 1. Automatische Erfassung der Metadaten durch die sog. Ingestion: Dabei werden die hinterlegten Datenquellen in regelmäßigen Abständen abgefragt und die ermittelten Metadaten im Datenkatalog hinterlegt. Das ermöglicht eine fortlaufende und konsistente Historie bzw. Lineage über den gesamten Lebenszyklus aller Datenbanken. Dadurch wird Transparenz und Vertrauen in die Daten geschaffen, insbesondere in Bezug auf die Einhaltung von Datenschutzbestimmungen und die Nachvollziehbarkeit von Analysen. DataHub bietet vorgefertigte Ingestions und Integrationen für eine Vielzahl verbreiteter Systeme wie MySQL, Postgres und Snowflake. Anbindungen an nicht unterstützte Datenquellen können selbst erstellt werden. Später mehr zu den Herausforderungen, denen wir bei der Integration einer bislang nicht unterstützen RavenDB-Datenbank begegnet sind.
  • 2. Die automatisch eingelesenen Daten können jederzeit manuell ergänzt werden, beispielsweise durch ausführliche Erklärungen von Tabellenspalten oder die Dokumentation des zugrundeliegenden Geschäftsprozesses. Zudem können Metadaten zur Zuständigkeit und Verantwortlichkeit, sowie der Zugriffsberechtigungen hinterlegt werden.
  • 3. DataHub ermöglicht außerdem die Integration von Datenvalidierungen mithilfe des Great Expectations Frameworks. Es können Datenschemata validiert und Werte regelmäßig auf bestimmte Kriterien getestet werden (bspw. Null-Werte, Datenverteilungen etc.). Bei Verletzung der Datenbeschaffenheit werden Warnungen erstellt.

Grafik 1
Grafik 1
(Bild: Tobias Goerke)

Technisch gesehen stellt DataHub diese Funktionen durch eine Sammlung von containerisierten Microservices bereit. Eine zentrale Rolle spielt dabei der Metadaten-Service. Er verbindet die erfassten Metadaten mit der Persistenzschicht und versorgt das Frontend mit den darzustellenden Daten. Weitere Abhängigkeiten umfassen Kafka, um die Metadaten als Stream einzulesen und zu verarbeiten. Konsumenten können das Kafka-Topic und somit alle DataHub-Events abonnieren, wodurch die Plattform einfach in Drittsysteme integriert werden kann. Des Weiteren benötigt DataHub eine SQL-Datenbank (bspw. Postgres oder MySQL), die als Single-Point-of-Truth fungiert und die eingelesenen Daten und manuell erstellten Dokumentationen speichert. Zusätzlich wird eine Elasticsearch-Instanz benötigt, die komplexe Metadaten-Suchabfragen ermöglicht. Eine detaillierte Darstellung dieser Architektur gibt Grafik 1.

Aufgrund seiner auf containerisierten Microservices basierenden Architektur kann DataHub in beliebige Infrastrukturen eingesetzt werden. So sind auch Kubernetes Installationen möglich, die durch die bereitgestellten Helm-Charts stark vereinfacht werden.

Dezentrale Governance trotz zentralem DataHub?

Viele Data Governance Ansätze sind zentralistisch ausgerichtet und stehen im Konflikt mit den modernen, dezentralen Datenstrukturen in Unternehmen. Paradigmen wie Data Mesh und seine verteilten Datenprodukte setzen nämlich zunehmend voraus, dass Governance in dezentralen Umgebungen neu durchdacht werden muss: Eine Föderalisierung der Data Governance ist unvermeidbar, damit die Verwaltung von Daten skaliert und die Prinzipien des Self Service und Self Ownership umsetzt werden können. Das bedeutet, dass die Verantwortung für Daten auf verschiedene Teams und Geschäftseinheiten selbstverwaltend verteilt werden muss, um den dezentralen Charakter der Datenlandschaft einzufangen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

DataHub, das sein volles Potenzial nur als zentrale und integrierende Plattform entfaltet, unterstützt den föderierten Self-Service-Gedanken; jedoch nicht ohne gesonderte Konfiguration. Denn wenn eine Datenquelle über die Benutzeroberfläche erfasst wird, führt dies dazu, dass die Plattform im Pull-Prinzip die Metadaten von der Datenbank abruft. DataHub erfordert somit Netzwerkzugriff und Zugriffsberechtigungen auf die Datenbank.

Grafik 2
Grafik 2
(Bild: Tobias Goerke)

Stattdessen kann eine Push-Architektur für DataHub implementiert werden. Dabei bleibt DataHub unverändert als zentrale Plattform im Einsatz. Die Ingestion-Jobs werden hierbei direkt von den jeweils zuständigen Teams verwaltet und die Daten werden in Richtung DataHub gepusht. Dadurch können die einzelnen Teams die Anbindung ihrer Datenquellen an DataHub frei verwalten, ohne der Plattform erweiterte Rechte einräumen zu müssen. Ein Nachteil dieser Architektur besteht darin, dass die Teams nun eine eigene Anwendung betreiben müssen. Wir haben jedoch gute Erfahrungen mit der Bereitstellung eines standardisierten Container-Images gemacht, das lediglich mit einer entsprechenden Datenbankkonfiguration in der Infrastruktur des Teams ausgeführt werden muss. Ein Vergleichsdarstellung der Pull- und Push-Architektur findet sich in Abbildung 2.

Die Quadratur des Kreises – Anbindung semistrukturierter Datenbanken

Die zuvor besprochenen Ingestion-Jobs verwenden die durch DataHub vorgefertigten Ingestion-Recipes, die eine einfache und automatische Integration vieler bekannter Datenbanktechnologien ermöglichen. Als wir jedoch versuchten, eine RavenDB anzubinden, stießen wir auf unerwartete Herausforderungen. Denn zum damaligen Zeitpunkt war noch keine Integration für diesen Datenbanktyp verfügbar. Versuche, eine eigene Anbindung der Datenbank über die flexible DataHub-API zu schreiben, wurden von der semistrukturierten Natur der dokumentenorientierten RavenDB erschwert. Es stellte sich die Frage, wie Metadaten über das Schema von schemalosen Datenbanken wie RavenDB oder MongoDB gesammelt werden sollten.

Die Lösung fand sich für uns in der Erstellung einer automatisierten Inferenz, die alle JSON-Datensätze einer Collection durchläuft und die vorgefundenen Attribute und ihre Typen in einem Schema sammelt. Da das Auslesen aller Dokumente, je nach Anzahl, zeitaufwendig sein kann, entwickelten wir zusätzlich einen Mechanismus, der Datenstichproben konfigurierbarer Größe entnimmt und aus diesen heraus das Schema ableitet. Wird die Stichprobe unter der Annahme genutzt, dass die einzelnen Datensätze konsistent abgelegt wurden, ist sie repräsentativ und deckt sich mit dem Gesamtschema.

Schließlich entschieden wir uns, den entwickelten Connector der Community zur Verfügung zu stellen. Er fungiert als ein architekturunabhängiges Add-On, das genutzt werden kann, ohne dabei die bestehende DataHub-Installation verändern zu müssen. Aktuell befindet sich unser Pull Request im Review und wir sind zuversichtlich, dass die offene und hilfsbereite Community uns weiterhin bei unserem Beitrag unterstützen wird.

Fazit

DataHub spielt eine entscheidende Rolle bei der Umsetzung einer datenstrategischen Ausrichtung in Unternehmen. Als zentrale Verwaltungs- und Governance-Plattform ermöglicht DataHub eine effektive Verwaltung des gesamten Datenbestands und verbessert die Zusammenarbeit zwischen verschiedenen Teams und Geschäftseinheiten. Die Implementierung einer unternehmensweiten Datenstrategie mit DataHub als Kernplattform ermöglicht es Unternehmen, das volle Potenzial ihrer Daten auszuschöpfen, die Datenqualität und -transparenz zu steigern und eine Grundlage für innovative und wettbewerbsfähige Geschäftsmodelle zu schaffen. Dabei unterstützt DataHub dank seiner Push-Mechanismen föderative Data-Governance-Strukturen und Paradigmen wie Data Mesh.

Unsere Erfahrungen bei der Konzeptionierung, Installation und dem Betrieb von DataHub haben gezeigt, dass die Plattform problemlos an verschiedene (Cloud-)Umgebungen angepasst und mit Drittsystemen integriert werden kann, während die Kontrolle über die Datenintegration in den jeweiligen Teams verbleibt. Die Installation mit Helm und der Betrieb auf Kubernetes gestalten sich einfach und ermöglichen eine nahtlose Integration in bestehende Infrastrukturen. Durch die Nutzung gemanagter Datenbanken für die Single-Point-of-Truth-SQL-Datenbank kann das Risiko von Ausfällen und Datenverlusten einfach und durch das geringe Volumen der Metadaten kostengünstig reduziert werden. Zudem haben wir festgestellt, dass Erweiterungen, wie beispielsweise die Anbindung an RavenDB, dank der umfassenden Dokumentation, einer offenen API und der unterstützenden Community gut möglich und als flexible Add-ons realisierbar sind.

Angesichts der Leistungsfähigkeit, Flexibilität und der zunehmenden Verbreitung von DataHub sind wir zuversichtlich, dass die Plattform einen festen Platz in der nächsten Generation der Datenplattformen einnehmen und sich als wichtiger Baustein für effektive und erfolgreiche Datenstrategien erweisen wird. Unternehmen können von den vielfältigen Vorteilen profitieren und eine solide Grundlage für ihre datengetriebenen Strategien schaffen.

Artikelfiles und Artikellinks

(ID:49597790)