Kommentar von Ba Khai Tran, Y42 Datenpipelines – Erkenntnisse maximieren, Aufwand minimieren

Von Nico Litzel

Anbieter zum Thema

Daten sollten heutzutage das Herz der meisten Unternehmen sein. Marketing-Daten, Produkt-Daten, Daten über die eigenen Kunden, Mitarbeitern – die Reihe ließe sich fortsetzen. Doch die Betonung liegt auf „sollte“. Nur lediglich fünf Prozent aller Unternehmen nutzen das Potenzial aus, das in Daten schlummert. Die meisten bleiben auf der Strecke – versinken, im „Worst Case“, im Datenchaos. Es stellt sich die naheliegende Frage: Was zeichnet die vergleichsweise wenigen Organisationen aus, denen es gelingt, Daten als ihr Herzstück zu nutzen?

Der Autor: Ba Khai Tran ist Vice President Growth bei Y42
Der Autor: Ba Khai Tran ist Vice President Growth bei Y42
(Bild: Y42)

Grundsätzlich bergen Daten, einmal bereinigt, analysiert und visualisiert, für Unternehmen das Potenzial, Prozesse zu optimieren, Kosten zu reduzieren und intelligenter agieren zu können. Dafür müssen Organisationen, die bereinigte Daten extrahieren und bündeln, diese auch ihren operativ tätigen Teams zur Verfügung stellen. Ein zentraler Datenpool führt schließlich nur zu Mehrwert, wenn nicht nur IT-Experten die dort vorliegenden Daten verstehen können. Der Vertrieb will beispielsweise wissen, bei wem sich welcher Anruf lohnt oder welche Zielgruppen auf bestimmte Marketingkampagnen besonders angesprungen sind. Das ganze möglichst auf einen Blick und nicht erst, nachdem man selbst verschiedene Tools durchforstet hat oder die IT-Abteilung Marketing-Daten nach einigen Tagen in einer eigenen Datei aufbereitet.

So weit so gut. Doch der Teufel liegt in diesem Fall nicht nur im Detail, sondern in den Daten selbst – und in der Herangehensweise. Denn viele Unternehmen versuchen, ihre Business Intelligence oder auch „Data Science“ mithilfe von Ad-hoc-Reportings aufzubauen. Für solche Ad-hoc-Reportings nutzen Unternehmen entweder ein Visualisierungstool, um direkt auf den Rohdaten Dashboards zu bauen, oder sie setzen in einem Data Warehouse auf vereinzelte SQL Queries, mit denen Abfragen für eine bestimmte Frage gemacht werden.

Ein Vorgehen, das zum Scheitern verurteilt ist, sobald ein Unternehmen mehr als nur die einzelne Frage des Ad-hoc-Reports beantworten möchte, die Anzahl verschiedener Datenquellen und die Datenvolumina zunehmen. Dann müssen permanent, oft manuell, neue Reportings erstellt werden, in die die Daten aus verschiedenen Quellen eingepflegt werden. Auch jenseits dessen gibt es einige Nachteile dieser weit verbreiteten Reporting-Kultur.

Beispielsweise verschwenden solche Reportings das eigentliche Potenzial der Daten und entpuppen sich in der Praxis oft als unzuverlässig. Endnutzer können nicht in Echtzeit mit kritischen Insights versorgt werden, da die Reportings, wie der Name es schon sagt, immer nur „Ad-hoc“ entstehen, nicht aber kontinuierlich Daten einfließen. Doch statt Ad-hoc-Reportings als Methode zu hinterfragen, verlieren Mitarbeitende und Führungskräfte viel zu oft das Vertrauen in Daten. Entscheidungen treffen sie dann aus dem Bauch, nicht mehr empirisch.

Dabei müssen wir uns fragen, warum so viele Unternehmen überhaupt noch auf Ad-hoc-Reportings setzen? Es liegt vor allem daran, dass es zumindest auf den ersten Blick kurzfristig einfach ist, eine bestimmte Frage zu beantworten – Hauptsache schnell irgendwelche Daten vorlegen, die weder unbedingt stimmen noch in der Zukunft wiederverwendbar sind. Stand heute haben lediglich fünf Prozent aller Unternehmen das nötige Know-how und die Ressourcen im Haus, um Daten intelligenter und effektiver zu nutzen.

Zielbild: Datenpipelines

Was bis dato noch nicht in die Unternehmen vorgedrungen ist: Inzwischen gibt es auch Lösungen, die ohne solche interne Expertise den Aufbau automatischer Daten-Prozesse ermöglichen.

Genau an dieser Stelle kommen Datenpipelines ins Spiel: Basierend auf dem Austausch mit mehr als 400 Datenteams und Vordenkern, wissen wir, dass Unternehmen die Daten an einem Ort bündeln sollten, um diese aufzubereiten und sie schließlich zu verwenden, beispielsweise in Downstream-BI-Tools wie Tableau oder Looker,

Erforderlich, um solche Pipelines zu erstellen, sind Integrations-, Transformations- und Publishingschritte. Dabei werden zunächst Rohdaten ins meist Cloud-basierte Data Warehouse geladen, welche dann bereinigt und in mehreren Schritten transformiert werden, um sie mit anderen Daten kombinieren und analysieren zu können. Steht einmal der Prozess, können die Pipelines dann automatisiert werden, damit die Daten stets aktuell für Daten-Konsumenten zur Verfügung stehen, auch wenn diese aus unterschiedlichen Quellen stammen. Der Aufbau solcher Datenpipelines rentiert sich, denn sie unterstützen abteilungsübergreifend verschiedene Teams, die von den gleichen Daten profitieren.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Herausforderungen

Auf den ersten Blick hört sich das nach mehr Arbeit an als für Ad-ho- Reports. Und das ist es auch, wenn man es nicht richtig macht. In vielen Fällen setzen Unternehmen eigene Data Engineers ein, um die Daten aus verschiedenen Tools zu bereinigen, zu bündeln und parallel dazu noch bestehende Pipelines sehr manuell zu unterstützen.

Zu viele Datenquellen überfordern oft die Teams, ändern sich einmal integrierte Schnittstellen, können mit einem Mal Quellen aus den Analysen entfallen. Reduzieren Unternehmen hingegen die Komplexität der Pipelines, verzichten sie im Worst Case auch auf wichtige Ergebnisse.

Das erfordert nicht nur Geld, sondern auch viel Zeit, die Data Engineers anderswo besser verwenden könnten. Die entscheidende Frage für Organisationen lautet daher, wie sie mit minimalen Ressourcen Struktur, Qualität und Erkenntnisse aus Daten-Pipelines maximieren. Die Antwort ist recht einfach: Unternehmen setzen auf DataOps.

DataOps als die Antwort auf Komplexität

DataOps ist ein Begriff, der sich auf eine Reihe von Prinzipien, Praktiken und Tools bezieht, die darauf abzielen, die Effizienz, Qualität und Geschwindigkeit der Datenverarbeitung in einem Unternehmen zu verbessern. Es handelt sich um eine Methode für das Datenmanagement, die sich an den Bedürfnissen der Datennutzer und des Unternehmens orientiert und sich darauf konzentriert, den Wert der Daten durch kontinuierliche Verbesserung und Automatisierung zu maximieren. So können unter anderem die folgenden DataOps-Prinzipien helfen bessere, stabilere Datenpipelines schneller zu bauen:

Skalierbare & zugängliche Datenpipelines: Der erste Schritt eines jeden DataOps-Projekts besteht darin, die Tools einzurichten, die es ermöglichen, Datenpipelines auf ihrem Data Warehouse zu verwalten. Das Minimum, welches Unternehmen benötigen, umfasst Tools für Data Ingestion wie Fivetran oder Airbyte, für die Transformation wie DBT, für die Batch-Orchestrierung wie Airflow, zum Veröffentlichen der Daten beispielsweise cube.dev und für Reverse-ETL etwa Hightouch. Darüber hinaus sollte diese Datenpipeline die Ressourcen automatisch skalieren, um der Serverlast gerecht zu werden, insbesondere bei der Datenaufnahme und dem Reverse-ETL.

Kollaboration und Self-Service Analytics: Sobald diese Tools am Laufen sind, nutzen erfolgreiche Unternehmen ihre Dateninfrastruktur kollaborativ und machen die Daten bereit für Self-Service Analytics. Dadurch ermöglichen Unternehmen eine teamübergreifende Zusammenarbeit, den Wissensaustausch und die Verwendung von verlässlichen Daten. Durch das Einbinden von Datenkonsumenten kann mehr Vertrauen in Daten erreicht und eine Schatten-IT vermieden werden. Zum Beispiel, indem die Daten und Definitionen in einem Datenkatalog transparent für jeden Konsumenten zur Verfügung gestellt werden und damit die Last für Anfragen nach bestimmten Daten beim Datenteam reduziert wird.

Automatisierte Tests & Monitoring: Tests & Monitoring helfen, Fehler im Code als auch in den Daten zu finden, diese schneller zu beseitigen und dadurch die Daten zügiger & verlässlicher bereitzustellen. Unternehmen können ihre Pipelines auf diesem Wege extrem schnell aktualisieren. Außerdem vermeiden sie, dass Businessnutzer als Tester eingesetzt werden müssen, was das Vertrauen in die Daten untergräbt.

Das sind nur einige der wichtigsten Bestandteile von DataOps – viele Unternehmen setzen aber auch auf andere Bestandteile von DataOps, wie z. B. Data-Infrastructure-as-Code, Environment Management mit CI/CD aber auch auf Governance und Change Control.

Vorteile von Datenpipelines mit DataOps

Dadurch können Unternehmen noch schneller und effizienter arbeiten, ihre Kollegen mit den dringend benötigten Daten versorgen, ohne weitere Data Engineers einstellen zu müssen oder Überstunden zu machen. Gleichzeitig werden Fehler vermieden, die in Ad-hoc-Reportings entstehen, wenn mehrere Stakeholder mit den Daten arbeiten: Veränderungen an den Pipelines werden gründlich getestet, bevor sie live gehen und es gibt eine einzige Quelle, aus der die stets aktuellen Daten konsumiert werden.

Ohne Daten Pipelines und DataOps droht ein Unternehmen zu entstehen, das Entscheidungen ohne Daten trifft. Das ist ein Problem, das mit der steigenden Menge und Bedeutung von Daten nur noch teurer zu lösen ist. Daher investieren Unternehmen lieber heute in skalierbare Daten Pipelines.

Artikelfiles und Artikellinks

Link: Y42 im Web

(ID:49041652)