Kommentar von Günther Derstroff, Denodo

Big Data ist der Rohstoff – Datenvirtualisierung die Raffinerie

| Autor / Redakteur: Günther Derstroff / Nico Litzel

Der Autor: Günther Derstroff ist Senior Sales Director bei Denodo
Der Autor: Günther Derstroff ist Senior Sales Director bei Denodo (Bild: Denodo)

Big Data ist eine stetig wachsende Ressource. Das ist nicht neu. Diese „Rohdaten“ effizient zu verwalten und zu analysieren, bereitet Unternehmen jedoch noch immer große Probleme. Günther Derstroff, Senior Sales Director bei Denodo, nennt drei Gründe, warum Datenvirtualisierung die richtige Antwort darauf ist.

Die moderne Datenlandschaft hat eine im Überfluss vorhandene, wachsende Ressource hervorgebracht: Big Data. Daten von smarten Sensoren im Internet der Dinge (IoT), aus mobilen Anwendungen, dem Web oder Clickstreams, Social Data und Open Data – sie alle nähren das Datengewächs, das uns heute umwuchert. Laut einer aktuellen Studie von IDC und Seagate werden sich die weltweiten Datenbestände bis 2025 auf insgesamt 163 Zettabyte verzehnfachen.

Daten sind somit reichlich vorhanden, wie viele andere natürliche Ressourcen in ihrer Rohform sind sie jedoch nicht notwendigerweise nützlich. Es gilt, die Rohdaten zu veredeln, um sie produktiv nutzen zu können – etwa für die Wartung von Geräten, für Produktinnovationen, die Konkurrenzforschung, im Marketing, zur Datenmonetarisierung oder in der Gesundheitsversorgung. Nur mit einer korrekten Datengrundlage kann die Datenanalyse verlässliche Ergebnisse liefern, die aussagekräftige Rückschlüsse, exakte Prognosen und fundierte Entscheidungen zulassen.

Herausforderung Datenanreicherung

Rohdaten sind oftmals fragmentiert und unvollständig. Digitale Patientenakten liefern ein eindrucksvolles Beispiel, welche Herausforderungen die Anreicherung von Daten bereithält. Sie orientieren sich in erster Linie an den Patientenbedürfnissen hinsichtlich der Gesundheitsversorgung, Verwaltung und Kostenabrechnung. Solch multifunktionale Ziele – bei denen die Datenanalyse selbst allerdings keine Rolle spielt – führen zu verstreuten Daten. Diese sind schlecht gekennzeichnet und folgen keiner konsistenten Semantik. Die Daten müssen korrigiert werden, bevor sie für weitergehende Analysen, wie sie etwa die klinische Forschung betreibt, genutzt werden können.

Zudem folgt die Implementierung elektronischer Patientenakten in Gesundheitseinrichtungen keinem Standard. Das führt zu Abweichungen auch innerhalb ein und derselben Organisation. Radiologie, Orthopädie und Innere Medizin nutzen die digitale Patientenakte in Krankenhäusern beispielsweise sehr unterschiedlich, um ihre spezifischen Anforderungen bei Datenerfassung, Dokumentation und Bestellung zu erfüllen. So entstehen Datensilos. Und auch Datenschutz und Datensicherheit können die Analyse bestimmter Daten behindern – speziell im Fall von Patientenakten.

So hilft Datenvirtualisierung, das „Rohöl“ Big Data zu veredeln

Eine korrekte Datenanreicherung muss somit nicht nur Security- und Governance-Vorgaben sauber anwenden. Sie muss semantische Gesichtspunkte genauso berücksichtigen wie die Behandlung von Datenausnahmen. Sie muss vollständige, kontextbezogene Sichten ermöglichen und die notwendigen Metadaten für die nachgelagerten Prozesse anreichern. Eine enorme Herausforderung für das Datenmanagement, auf die Datenvirtualisierung passende Antworten bereithält.

1. Datenvirtualisierung setzt neue Maßstäbe

Die moderne Analytik stützt sich auf Daten aus unzähligen fragmentierten Datenquellen. Die Erfahrung zeigt, dass große Datenquellen nicht immer replizierbar sind, insbesondere wenn die Daten über mehrere Systeme verteilt sind. Die Datenvirtualisierung ermöglicht es, mit großen Datenquellen effektiv zu arbeiten – und zwar mithilfe eines neuen Paradigmas: Die Daten werden nicht bewegt oder kopiert, sondern dort verarbeitet, wo sie sich befinden. Das minimiert den Netzwerkverkehr zwischen den Datenquellen und den darauf zugreifenden Anwendungen.

Auf diese Weise sorgt die Datenvirtualisierung für die Geschwindigkeit und Skalierbarkeit, die beim Anreichern der Daten nötig ist. Sie setzt auf logische Datenarchitekturen. Damit erscheinen alle zugrunde liegenden Datenquellen als ein einziges System. Zudem liefert die Datenvirtualisierung mehrere Optimierungsstrategien wie plattformspezifische Optimierungen oder eine Push-Down-Verarbeitung.

2. Datenschutz „by design“ – der Schlüssel zum verantwortungsvollen Umgang mit Daten

Große Datenanalysen leben vom Datenaustausch. Doch kulturelle und gesetzliche Hürden schränken diesen oft deutlich ein. Rechtliche Bestimmungen verpflichten Unternehmen heute etwa dazu, den Datenschutz bereits in den Entwurfs- und Implementierungsphasen eines neuen Projekts angemessen zu berücksichtigen. Hier hilft der zentralisierte Ansatz der Datenvirtualisierung. Verteilte Daten bleiben an Ort und Stelle und der Nutzer greift von einem einzigen Punkt aus darauf zu. Eine kontinuierliche Datenreplikation entfällt. Weniger Replikation bedeutet automatisch weniger Kopien von persönlichen und sensiblen Daten im Unternehmen – und damit weniger Probleme in Sachen Datensicherheit und -verwaltung.

Außerdem erleichtert es die Datenvirtualisierung deutlich, unternehmensweit aggregierte, konsistente Sichten zu erstellen – zum Beispiel auf Risikodaten. Ausgewählte Sichten lassen sich unter vollständiger Einhaltung der Datenzugriffs- und Datenschutzrichtlinien im Unternehmen austauschen.

3. Datenvirtualisierung stellt ein universelles semantisches Modell zur Verfügung

Es ist essenziell, zu verstehen, wer welche Daten benötigt. Handelt es sich bei den Anwendern um Datenanalysten, Power-User, Führungskräfte oder Maschinen? Und sollen die Daten voraggregiert, vorberechnet, in einer bestimmten Granularität, rollenspezifisch oder domänenspezifisch bereitgestellt werden? Speziell im Bereich Machine Learning sind sauber gekennzeichnete Daten von immenser Bedeutung. Auch müssen die Daten für Analysen in einer Sprache bereitstehen, die der entsprechende Fachanwender versteht. Wenn ein User im Finanzsektor beispielsweise von einem „Account“ spricht, könnte derselbe Datensatz bei einem Anwender im Kundenservice unter der Bezeichnung „Kunde“ laufen. Damit der Nutzer nicht seine Fachterminologie anpassen muss, ist es notwendig, verschiedene Wortbedeutungen zu berücksichtigen.

Die Datenvirtualisierung liefert ein universelles semantisches Modell, das eine gemeinsame und konsistente Sicht auf alle Daten im Unternehmen ermöglicht. Das Modell ist nicht in ein einzelnes Business-Intelligence Tool eingebettet. Somit können mehreren BI-Lösungen gemeinsam damit arbeiten und für ihre Auswertungen auf praktisch jede Datenquelle zugreifen.

Auf diese Weise hilft die Datenvirtualisierung auch, wichtige Ziele im Zusammenhang von Self-Service-Analysen zu erreichen:

  • Ein flexibles semantisches Modell lässt sich schnell und einfach erstellen.
  • Sie ermöglicht die Bereitstellung einer gesicherten Self-Service-Platform.
  • Fachanwender können genauso damit arbeiten wie "Daten-Spezialisten".
  • Sie beseitigt Analyse-Silos und beschleunigt Self-Service-Initiativen – ohne Einbußen bei der Kontrolle und Steuerung der Datenbestände.

Fazit

Vollständige, zuverlässige und qualitativ hochwertige Informationen sind Grundvoraussetzung für aussagekräftige Analysen und fundierte Entscheidungen. Um sie im Zuge eines Datenanreicherungsprozesses bereitzustellen, sind allerdings einige Hürden zu nehmen. Für Unternehmen, die ihre Datenmassen als strategisches Asset nutzen wollen, liefert Datenvirtualisierung die passende technologische Basis.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45398716 / Data Sourcing)