Kommentar von Michael Diestelberg, Webtrekk

Streaming von Rohdaten ist ein Erfolgsfaktor

| Autor / Redakteur: Michael Diestelberg / Nico Litzel

Der Autor: Michael Diestelberg ist Vice President Product & Marketing bei Webtrekk
Der Autor: Michael Diestelberg ist Vice President Product & Marketing bei Webtrekk (Bild: Webtrekk)

Durch die fortschreitende digitale Transformation nehmen die Verfügbarkeit und das Sammeln von Daten – über interne Prozesse oder die eigenen Kunden – immer weiter zu. Laut Schätzungen von IDC Research wird das jährlich kumulierte Datenvolumen im Jahr 2025 weltweit bereits 180 Zettabyte umfassen. Das entspricht einer Milliarde Terabytes, ein kaum vorstellbares Ausmaß. Für Unternehmen stellt das eine wachsende Ressource und ein enormes Wissenspotenzial dar.

Doch das Arbeiten mit Big Data birgt für viele Unternehmen gleichzeitig eine große Herausforderung. In einer aktuellen Studie der Marktforscher von Vanson Bourne gaben IT-Mitarbeiter aus Unternehmen mit einem unstrukturierten Datenmanagement an, am Tag durchschnittlich zwei Stunden mit der Suche nach benötigten Daten zu verbringen. Die Mitarbeitereffizient sinkt dabei um 18 Prozent. Um die Produktivität zu erhöhen und Kosten zu sparen, muss also ein planvolles Datenmanagement etabliert werden. Das beinhaltet u. a. einen geregelten Datenzugriff, die Prüfung und Sicherstellung der Datenqualität, die einheitliche Integration von unterschiedlichen Datentypen sowie die Festlegung eines Ordnungsrahmens, der Data Governance. Eine essenzielle Frage für das Datenmanagement ist: In welcher Form sollen die für das Unternehmen relevanten Daten gesammelt und aufbereitet werden?

Batch Processing adé

In den vergangenen Jahren haben sich dabei Datenverarbeitungsprozesse etabliert, die unter dem Begriff „Batch Processing“ zusammengefasst werden können. Die verschiedenen Datenquellen exportieren in regelmäßigen Abständen, meist täglich, ihre angefallenen Daten auf ein Zielsystem. Da diese in ihrer reinen Form oft nicht direkt in das Data Warehouse importiert werden können, finden rechenintensive Umwandlungsprozesse statt, um das benötigte Format zu erzeugen. Erst anschließend ist es möglich, die Daten in die Datenbank einzupflegen.

Solch ein Prozess hat mehrere Nachteile: Die gesammelten Daten stehen mit einer hohen Verzögerung im Data Warehouse zur Verfügung und können somit erst in der Retrospektive analysiert und genutzt werden. Der unmittelbare Wert der Daten wird also nicht ausgeschöpft. Zudem können die exportierten Datenpakete, die „Batches“, je nach Unternehmensgröße und Quelle sehr groß sein. Das erfordert im Transformationsschritt eine erhebliche Rechenkapazität.

Innovation durch Daten-Streaming

Streaming-Architekturen sind eine innovative Form der Datenerhebung. Grundlage für solche technisch hochkomplexen Prozesse ist die Open-Source-Software von Apache Kafka. Diese Lösung hilft nicht nur dabei, die oben genannten Nachteile zu beseitigen, sondern bietet darüber hinaus noch weitere Vorzüge. Statt die Daten in regelmäßigen Abständen als Paket zu exportieren, werden sie konstant als Datenstrom zur Verfügung gestellt. Abhängig vom Datenumfang kann dies sogar in Echtzeit passieren.

Da keine großen „Batches“, sondern immer nur einzelne Datensätze behandelt werden, sind für die Transformation daher keine riesigen Rechenkapazitäten nötig. Das Zielsystem nimmt die Daten unmittelbar entgegen, sodass diese für Analysen oder andere Verwendungszwecke sofort zur Verfügung stehen. Eventuell notwendige Datenverarbeitungsschritte finden ebenfalls direkt statt und verzögern den Datenfluss nur marginal. So werden die Rohdaten z. B. auf die richtige Syntax geprüft und bereinigt sowie durch Details wie Nutzereigenschaften, Gerätklassen oder Produktkatalog-Informationen angereichert. Darüber hinaus können die Daten hinsichtlich wichtiger Merkmale, wie beispielsweise dem Referrer, analysiert und mit auf Künstlicher Intelligenz basierenden statistischen Vorhersagen (Predictive Services) verlängert werden. Anschließend werden die aufbereiteten Daten als Stream an die Empfänger ausgespielt.

Data Democracy

Der Wunsch, datengetrieben zu arbeiten, wird dabei nicht mehr nur von Analysten und Business-Intelligence-Experten geäußert. Ob für Marketingzwecke, zur Validierung des Produktionsflusses oder zur Verbesserung des Kundenservice, Big Data ist für eine Vielzahl von Abteilungen und Mitarbeiter relevant. Doch während das Data Warehouse mit einem ungefilterten Stream befüllt wird, benötigt das Marketing oder Customer Care Team nur einen Bruchteil der Informationen. Streaming-Architekturen ermöglichen es Unternehmen, eine sogenannte Data Democracy zu realisieren. Daten können im jeweils benötigten Format für diverse Business-Cases bereitgestellt werden, sodass „eine Wahrheit“ für alle Zugriffsberechtigten besteht, während die Datenqualität für alle Nutzergruppen einheitlich hoch bleibt.

Auch die Anforderungen einer Data Governance, die oftmals in großen Unternehmen und Konzernen eine Herausforderung darstellt, können mithilfe des Streamings intelligent gelöst werden. Interne und externe Stakeholder benötigen lediglich die für sie relevanten Daten – sensible Informationen, die aus rechtlichen oder anderweitigen regulatorischen Gründen mit besonderer Sorgfalt behandelt werden müssen, lassen sich vor Bereitstellung des Streams entfernen.

Rohdaten beim Verbund Dänischer Bibliotheken

Ein Beispiel für gelungenes Datenmanagement in Verbindung mit Streaming stellt die Success Story der Dänischen Digitalbibliothek (DDL) dar. Die DDL ist das dänische Online-Portal für die Fernleihe von elektronischen Medien, E-Books sowie vergleichbaren Unterlagen. Die DDL ist gesetzlich dazu verpflichtet, gewisse Informationen, wie Visits, öffentlich zugänglich zu machen. Mit dieser Aufgabe wurde die in Kopenhagen ansässige Digitalagentur Management Value (MAVA) beauftragt, die in Zusammenarbeit mit Webtrekk ein mehrstufiges Export-, Verarbeitungs- und Präsentationsverfahren aufbaute, das in der Plattform KPI INDEX resultierte. Hinter der öffentlich zugänglichen Auflistung steckt ein komplexes Datenmanagement. Zudem können Daten von verschiedenen Bibliotheksseiten dynamisch nach Regionen gruppiert werden. Die Daten können auf jede gewünschte Bibliothek runtergebrochen werden, konkrete Suchanfragen werden unterstützt und auch die zeitliche Selektion nach einem beliebigen Tag ist möglich. So werden maßgeschneiderte Nutzerabfragen ermöglicht.

Darüber hinaus werden die bereitgestellten Daten um weitere Informationen angereichert und anschießend in einer SQL-Datenbank bereitgestellt. Dann werden die Informationen durch eine Webseitenoberfläche auf die Endgeräte der Nutzer ausgespielt. Zugleich sendet Microsoft Power BI Abfragen an die SQL-Datenbank und visualisiert die Informationen in frei konfigurierbaren Dashboards. Das Projekt der DDL ist ein anschauliches Beispiel dafür, wie durch ein strukturiertes Management Daten für die Bedürfnisse der jeweiligen Nutzergruppe passgenau aufbereitet werden können.

Sei es im Rahmen von digitalen Transformationsprozessen klassischer Mittelständler oder als essenzielle Arbeitsgrundlage für „digital native“ Unternehmen, datengetriebenes Handeln ist in vielen Unternehmen erklärtes Ziel. Die Streaming-Technologie ermöglicht ein Datenmanagement, das gegenüber herkömmlichen Prozessen transparent, effektiv und stark vereinfacht ist. Zudem wird dank der schnelleren Informationsverfügbarkeit das Potenzial der vorliegenden Daten deutlich effektiver ausgeschöpft. So stellt das Streaming von Rohdaten einen zentralen Erfolgsfaktor der digitalen Transformation dar.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45828187 / Analytics)