Kommentar von Davy Nys, Pentaho

Die richtige Balance finden

| Autor / Redakteur: Davy Nys / Nico Litzel

Der Autor: Davy Nys ist Vice President EMEA von Pentaho
Der Autor: Davy Nys ist Vice President EMEA von Pentaho (Bild: Pentaho)

Der Erfolg von Big-Data-Analysen ist, ebenso wie bei klassischen BI-Analysen, von der Qualität der Ausgangsdaten abhängig. Es ist daher nicht verwunderlich, dass laut der Benchmark-Untersuchung „Big Data Requires Integration Technology“ von Ventana Research die Datenaufbereitung zu den umfangreichsten und zeitaufwendigsten Big-Data-Aufgaben gehört.

Um aussagekräftige Analyseergebnisse zu erhalten, muss der Prozess der Datenaufbereitung optimiert werden. Laut gleichem Bericht geben zwei von fünf Unternehmen an, dass Probleme bei der Datenqualität und beim Informationsmanagement Barrieren für Big-Data-Analysen darstellen. Zu einem ähnlichen Ergebnis kommt auch die IDC Studie „Big Data – Business Value in deutschen Unternehmen auf dem Prüfstand“. In der Zusammenfassung der Studie heißt es: „Ein Drittel der Befragten klagt über einen zu langsamen Datenzugriff und für 30 Prozent ist der Schutz der Daten nicht ausreichend.”

In dem Maße, in dem Geschäftsanwender Daten als das neue Öl entdecken und entsprechend voll ausschöpfen wollen, wächst auch das Dilemma: Haben Anwender, die in der Regel nicht die den Datensätzen zugrunde liegende Semantik und Modelle verstehen, freien Zugriff auf alle Datensätze und können diese nach Gutdünken miteinander verknüpfen, sind die Datensicherheit und die Data Governance schnell beeinträchtigt. Im schlimmsten Fall führt das zu falschen Schlussfolgerungen und zu falschen Geschäftsentscheidungen. Wird jedoch die IT-Abteilung oder ein ETL-Entwickler dazwischengeschaltet, um die Datenintegrität zu gewährleisten, verlangsamt sich der Datenaufbereitungsprozess und es entstehen höhere Personalkosten.

Ausweg aus dem Dilemma

David Norris, Analyst bei Bloor Research, beschreibt in einer Research Note einen möglichen Ausweg aus diesem Dilemma. Gebraucht werde, so Norris, eine Umgebung, in der die IT die benötigte Infrastruktur zur Verfügung stellen kann – und das schnell, hinter den Kulissen und mit minimalen Auswirkungen aufs Geschäft. Die Ergebnisse sollten dann dem Unternehmen direkt in einer nicht-technischen Umgebung zur Verfügung gestellt werden. Unternehmen, so Norris, wollten die Daten schließlich ausschöpfen, integrieren und mit allen möglichen anderen Daten verknüpfen, sich dabei aber keine Sorgen über die Kompatibilität oder die Herkunft der Daten machen.

Genau das ist es, was eine Architektur für eine optimierte Datenaufbereitung für Big-Data-Umgebungen ermöglicht. Eine optimierte Datenaufbereitung erlaubt Anwendern über einen automatisierten Prozess, die gewünschten, oft auch komplexen Datensätze mühelos anzufordern. Diese werden dann in einem gesteuerten und kontrollierten Prozess miteinander verknüpft und zeitnah bereitgestellt. Dem Endanwender bleiben die komplexen Details der zugrunde liegenden Systeme verborgen und die Einhaltung von Data-Governance-Regeln kann gewährleistet werden.

Der Aufbau einer Architektur für eine optimierte Datenaufbereitung für Big-Data-Umgebungen umfasst im Wesentlichen einen On-Demand-Prozess für durch Anwender ausgelöste Datenanforderungen, die Verknüpfung und Aufbereitung beliebiger Daten, die automatische Generation von Analyseschemas sowie die Veröffentlichung von Analyse-Datensätzen in einem beliebigen Format.

Die Architektur setzt sich aus mehreren Komponenten zusammen, die sich wie folgt beschreiben lassen:

Skalierbarer Datenverarbeitungs-Hub: Dieser Speicher (etwa Hadoop oder MongoDB) dient zur Aufbewahrung und Verwaltung verschiedener strukturierter und unstrukturierter Daten aus dem gesamten Unternehmen. Er fungiert als Landezone für Daten aus dem Internet, sozialen Medien, Transaktionssystemen und von Maschinen/Sensoren.

Leistungsstarke Datenbank: Die gewählte Datenbank muss leistungsstarke Abfragen für die Analyse und Visualisierung unterstützen. Sie fungiert als temporärer Speicher und verkürzt die Dauer der Datenbereitstellung.

Datenintegration: Eine hoch skalierbare Datenintegrations-Engine, die über eine intuitive Anwenderoberfläche verwaltet wird, bringt die unterschiedlichen Datenquellen und Datenspeicher in dieser Architektur zusammen. Die Engine sollte den folgenden Prozess unterstützen:

  • Datenverknüpfung und Orchestrierung: In der Datenintegrations-Engine werden Daten aus praktisch jeder Datenquelle eingespeist, darunter auch herkömmliche Systeme und Big-Data-Speicher. Anschließend werden die Daten verarbeitet, bereinigt und zu Analysezwecken miteinander verknüpft.
  • Automatische Modellierung und Veröffentlichung: Als Teil des Datenorchestrierungsprozesses erstellt die Engine automatisch ein OLAP-Schema und stellt es dem Frontend zur Verfügung
  • Data Governance: Die IT-Abteilung kann schnell und einfach die an der Quelle miteinander verknüpften Daten validieren. Das sorgt für das angemessene Maß an Kontrolle, ohne dass jedoch der Zugriff durch Endanwender unnötig behindert wird.

Self-Service-Datenanforderung: Anwender können über eine webbasierte Schnittstelle die On-Demand-Lieferung analysebereiter Daten anfordern. Über eine Onlineschnittstelle können Anwender schnell und einfach Parameter (Datenfelder, Quellsysteme, Zeiträume usw.) eingeben. Außerdem können sie wählen, ob Daten als verwaltete Datenquelle einem Frontend zur Verfügung gestellt werden oder in einem anderen Format (Excel, CSV usw.) an einem anderen Zielort gespeichert werden sollen.

Anwendungsbeispiele

Eine optimierte Datenaufbereitungs-Architektur kann überall dort zum Einsatz kommen, wo Datensicherheit und Data Governance wichtig sind und Geschäftsanwender proaktiv Big-Data-Analysen ausführen wollen. Für die folgenden Anwendungsszenarien ist die Architektur besonders hilfreich:

On-Demand-Daten für Wirtschaftsanalysten und Forscher: In diesen Rollen fungierende Personen müssen oft auf fortschrittlichere Methoden als die herkömmlichen SQL-basierten zurückgreifen, um Daten aus einzelnen Datenbanken abzufragen. So benötigen Forscher vielfach umfassende Daten aus eher „schlecht zugänglichen“ Quellen, wie Maschinen-/Sensordaten, Weblog-Daten und unstrukturierten Texten, die meist in Hadoop archiviert sind.

Eine Lösung ist die einfache Bereitstellung von individuellen Datensätze auf Abruf, bei der verknüpfte Big-Data-Sätze an einer praktischen Stelle (z. B. auf dem FTP-Server oder einem Kollaborationsportal) und in einem verwendungsbereiten Format (z. B. Excel oder CSV) abgelegt werden. Zudem können Datensätze für eine Analyse-Datenbank wie HP Vertica bereitgestellt werden, was die Auslagerung komplexer Arbeitslasten aus Hadoop ermöglicht.

Gesteuerte Bereitstellung von Datasets an Prüfer und Regulierungsstellen: Unternehmen in stark regulierten Branchen wie im Finanzdienstleistungsbereich, dem Gesundheitswesen und dem Energiesektor stehen unter dem Druck, die Einhaltung von rechtlichen Bestimmungen nachweisen zu müssen. Aus diesem Grund müssen sie häufig Daten aus mehreren Quellen verknüpfen, Statistiken aufstellen und belegen, dass ihre Datenmanagementverfahren bestimmten Standards entsprechen. Zur Beurteilung der Compliance sind für verschiedene Quellen von Bankbetriebsdaten „Stresstests“ auszuführen und die Ergebnisse dieser Tests müssen nachprüfbar sein.

Forensische Analysen nach außergewöhnlichen Geschäftsereignissen: Das Ausmaß von Big Data hindert Unternehmen oftmals daran, diese mithilfe herkömmlicher ETL-Prozesse im Voraus in ein Data Warehouse zu integrieren. Unternehmen verlassen sich zunehmen auf prognostische Analysen, um Unregelmäßigkeiten (wie Finanzbetrug oder Bedrohungen der Netzwerksicherheit) zu prüfen und Warnmeldungen zu generieren, mit denen eine detaillierte forensische Untersuchung durch Analysten veranlasst wird. Durch eine Automatisierung der Vorbereitung von Analyse-Datasets für Endanwender kann dieser Prozess optimiert und beschleunigt werden.

„Datenverknüpfung-as-a-Service“

Datenlösungen stellen eine neue Einnahmequelle für SaaS-Anbieter da und viele traditionelle Unternehmen integrieren Analysen in ihre Kunden- und Partneranwendungen, um ihre Beziehungen zu Stakeholdern zu fördern. Neben der Bereitstellung von Rohdaten-Feeds an Dritte können Unternehmen Data Blending (das Verknüpfen verschiedener Datensets) als wertsteigernden Service anbieten. In diesem Szenario laden Anwender Daten auf eine Site hoch, wo sie mit den Daten der Host-Organisation kombiniert und dann als angereicherter Datensatz zurückgegeben werden.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 43191618 / Infrastruktur)