Kommentar von Stefan Sigg, Software AG Daten-Pipelines – Reibungsverluste bei der Datenintegration vermeiden
Anbieter zum Thema
Moderne Geschäftsentscheidungen haben einen ungeheuren Datenhunger: Kundendaten, Vertriebsdaten, Produktionsdauer, Lieferkettendaten, Personaldaten, Logistikdaten, IoT-Informationen – die Auswahl an Quellen ist groß. Doch selten fließen die Daten ungehindert in die businessrelevanten Dashboards und Applikationen. Legacy-Systeme, unstrukturierte Daten, Edge-Komponenten und schwer zugängliche SaaS-Daten blockieren die Daten-Pipelines.

Eine aktuelle Umfrage von Sapio Research im Auftrag von StreamSets unter Datenverantwortlichen zeigt, dass fast die Hälfte (48 Prozent) der Verwaltungs-, Betriebs- und Kundendienstabteilungen mindestens wöchentlich Daten anfordert, dicht gefolgt von den Bereichen Buchhaltung und Finanzen (44 Prozent), IT und Digitaltechnik (43 Prozent) sowie Vertrieb und Marketing (40 Prozent). Das kostet IT-Verantwortliche viel Zeit. 68 Prozent der Datenverantwortlichen geben zudem an, dass Reibungsverluste bei der Datenintegration sie daran hindern, Daten in der Geschwindigkeit der Geschäftsanforderungen bereitzustellen. Eine Datenintegrationsplattform (DataOps-Plattform) beseitigt diese Reibungsverluste und ist ein Garant für den freien Datenfluss.
So funktionieren DataOps
Data Collector Engines sammeln die Daten aus verschiedenen Quellen und hybriden Anwendungslandschaften und eine zentrale Kontrollinstanz führt die in verschiedenen Anwendungen enthaltenen Transaktionsdaten zusammen. Eine Transformer Engine bereitet diese Daten für Analysen und Machine-Learning-Prozesse vor. Über den Control Hub können Anwender Daten-Pipelines modellieren, die diese Daten an eine Reihe hybrider Zielsysteme übertragen, beispielsweise an Cloud Data Warehouses, Data Lakes, Messaging-Systeme und Event Hubs. So behält die IT die Oberhand über die Datenflüsse und kann zugleich mehr Verantwortlichkeiten an die Business-Teams abgeben, die die Daten benötigen. Wer seine Pipelines im Griff hat, ermöglicht also schnellere und intelligentere Entscheidungen und hat einen entscheidenden Einfluss auf die Geschäftsergebnisse.
Voraussetzung für erfolgreiche Daten-Pipelines
Damit Daten erfolgreich dort ankommen, wo sie benötigt werden, sollte man vorab einige Überlegungen anstellen:
- Zusammenarbeit zwischen Teams: Die Entwicklung von Daten-Pipelines erfordert eine enge Zusammenarbeit zwischen verschiedenen Teams – von Data Scientists und Entwicklern, über Betriebsteams und bis hin zu Business-Anwendern. Die verschiedenen Stakeholder haben jeweils ihre eigene Sicht auf die Anforderungen. Daher ist es entscheidend, ein gemeinsames Verständnis zu schaffen und klare Kommunikationswege zu entwickeln.
- Echtzeit-Datenintegration: Die Verarbeitung von Daten in Echtzeit ist die Voraussetzung, um schnelle Entscheidungen zu treffen. Es ist daher unerlässlich, Echtzeit-Daten- und Applikationsintegration und -verarbeitung in die Pipeline-Entwicklung einzubeziehen.
- Die Datenqualität ist entscheidend für den Erfolg von Daten-Pipelines. Es ist wichtig, sicherzustellen, dass die Daten sauber, vollständig und genau sind. Dazu müssen Daten zunächst abgeglichen, vereinheitlicht und konsolidiert werden. Zudem lohnt sich eine Datenvalidierung in Echtzeit, um sicherzustellen, dass die Daten korrekt verarbeitet werden.
- End-to-End-Tests: Um die End-to-End-Leistung und Zuverlässigkeit von Pipelines zu gewährleisten, sollten kontinuierlich (automatisierte) Tests durchgeführt werden, einschließlich Integrationstests, Regressionstests und Lasttests.
- Überwachung und Analyse: Sind die Datenwege und Zugriffsrechte erst einmal etabliert, muss eine kontinuierliche und effektive Überwachung und Analyse von Daten-Pipelines erfolgen. Sie ist entscheidend, um potenzielle Probleme schnell zu identifizieren und zu beheben. Dabei können Überwachungs- und Analysetools helfen, um eine proaktive Fehlererkennung und -behebung zu ermöglichen.
- Sicherheit und Datenschutz: Es ist heute unerlässlich, Datenverschlüsselung und Datenschutzrichtlinien bei der Entwicklung von Datenintegrationsstrategien und Daten-Pipelines zu berücksichtigen. Es sollten geeignete Sicherheitsvorkehrungen getroffen werden, um die Vertraulichkeit, Integrität und Verfügbarkeit der Daten zu gewährleisten.
Diese Auflistung zeigt: Die Integration von Daten aus verschiedenen Quellen kann eine Herausforderung sein, insbesondere wenn es um Daten geht, die in unterschiedlichen Formaten und Strukturen vorliegen. Datenintegrationsstrategien müssen daher flexibel und anpassungsfähig sein, um sich an die sich ständig ändernden Geschäftsanforderungen anzupassen. Die Automatisierung von Datenintegrationsprozessen kann dazu beitragen, die Effizienz bei der Bereitstellung von Daten zu steigern und menschliche Fehler zu minimieren. Um das Datenchaos zu bezwingen, hilft eine einzige Oberfläche für die Verwaltung und Beobachtung aller Pipelines in hybriden und Cloud-Architekturen, um bislang dem Blickfeld entgangene blinde Flecken und Kontrolllücken zu beseitigen.
Case Study – Ad Astra
Ein klares Beispiel für einen ungehinderten Datenfluss ist Ad Astra. Ad Astra arbeitet in den USA mit mehr als 500 Hochschulen, Universitäten und Systemen zusammen und trägt dazu bei, die Verwaltung von Lehrressourcen zu verbessern, den Zugang der Studenten zu Kursen zu optimieren und die Studienabschlüsse zu beschleunigen. Um Schulen und Studenten gemeinsam zu helfen, zieht Ad Astra große Datenmengen aus verschiedenen Studenteninformationssystemen zusammen. Dieses ERP-System enthält 90 Prozent oder mehr der Daten einer Schule, einschließlich Informationen über Studenten und Dozenten, Klassen, Studentenhistorie und Finanzinformationen.
Leider bedeutete die Entwicklung eines eigenen Systems, dass sich die Entwicklungsteams in erster Linie auf die wichtigsten Studenteninformationssysteme (die 80 Prozent der Kunden von Ad Astra ausmachen) konzentrieren mussten, anstatt auf alle Systeme gleichzeitig. Dies führte dazu, dass etwa 20 Prozent der Kunden von Ad Astra nicht berücksichtigt wurden. Mit dem StreamSets Data Collector, konnte Ad Astra Daten aus den verschiedenen Studenteninformationssystemen über Pipelines in separate Amazon S3-Buckets und schließlich in Snowflake einspeisen. Mit den so erstellten Pipelines kann die Organisation auch Daten zurück in die Studenteninformationssysteme schreiben. Darüber hinaus hat Ad Astra einige Kunden, die besondere Datenanforderungen haben. In diesen Fällen ermöglicht das System die Verwendung von Laufzeitparametern, um Daten zum richtigen Zeitpunkt in die richtige Tabelle zu verschieben, sodass keine zusätzlichen Änderungen vorgenommen werden müssen, wenn die Kundendaten die Transformationsphase erreichen. Schließlich bietet es den Entwicklern ein gemeinsames Basisdatenset und ein Schema, gegen das sie programmieren können, wodurch das Unternehmen flexibler auf Fehlerbehebungen reagieren kann.
Weniger Wartung, mehr Kundenzufriedenheit
Mit der Nutzung der Datenintegrationsplattform, konnte Ad Astra die Wartung von Dutzenden separaten XML-Dateien auf vier grundlegende Pipelines reduzieren, die Hunderte von Aufträgen für ihre Kunden ausführen. Die Implementierungszeit für neue Kunden hat sich von Monaten auf Tage verkürzt, und die Zeit bis zum Beginn der Datenerfassung, der Analyse und der Übermittlung von Empfehlungen und Ergebnissen an die Kunden verringerte sich von fast einem Jahr auf wenige Wochen. Durch die Implementierung der StreamSets-Plattform ist das Unternehmen nicht nur flexibler geworden, sondern kann auch seine oberste Priorität erfüllen: Studenten zu helfen, ihren Abschluss schneller zu erreichen.
(ID:49581121)