In der Datenhaltung und -verarbeitung ist ein Umdenken notwendig

Der Sieben-Punkte-Check zum Praxiseinsatz von Hadoop

| Autor / Redakteur: Hans-Joachim Edert / Ulrike Ostler

Praxiseinsatz: Exploration von Big Data in Hadoop

Eine für den Benutzer besonders einfache Möglichkeit, aus den riesigen polystrukturierten Datenvolumen in Hadoop einen Mehrwert zu ziehen, ist einfaches „Point and Click“ oder „Drag and Drop“ mittels einer grafischen Nutzeroberfläche, wie sie etwa SAS Visual Analytics bietet.

Im Praxis-Test zahlt sich die Verbindung zu Hadoop aus.
Im Praxis-Test zahlt sich die Verbindung zu Hadoop aus. (Bild: Konstantin Gastmann / pixelio.de)

Ein Beispiel dazu: Anhand von Modellen, mit denen das Spendenverhalten besser nachvollzogen werden kann, sollen die Beträge maximiert werden. Die Nutzeroberfläche ist intuitiv und schnell. Per Drag and Drop wird eine Variable auf den Desktop gezogen, um zu sehen, welche Auswirkungen diese hat.

Die Einbindung weiterer Variablen gibt Aufschluss darüber, inwieweit diese mit dem Spendenbetrag korrelieren. Die Korrelationsmatrix zeigt eine lineare multiple Regression, die den Betrag als Funktion der ausgewählten Variablen wiedergibt. Aus einem Pop-up-Menü wählt der Nutzer das prädiktive Modell, woraufhin das System automatisch ein Regressionsmodell erstellt.

Das Regressionsmodell

Dieser Vorgang lässt sich beliebig wiederholen: Zieht man weitere (potenziell interessante) Variablen aus dem linken Fensterbereich auf den Desktop, entsteht automatisch ein neues Regressionsmodell.

Das Regressionsmodell zeigt, dass die meisten Variablen Einfluss auf die Zielvariable (Spendenbetrag) haben. Ein automatisch generiertes Liniendiagramm vergleicht die vorhergesagten mit den tatsächlichen Spenden. Über die Clickauswahl zeigt eine Heatmap, wo das Modell noch angepasst werden muss. Effekte lassen sich nach Bedarf interaktiv hinzufügen oder entfernen.

Diese Methode ist sehr einfach und interaktiv. Dank der In-Memory-Verarbeitung müssen die Daten nur ein einziges Mal von der Festplatte gelesen werden, die folgenden Berechnungen finden über das Grid hinweg statt. Mitarbeiter können interaktiv mit den Daten „spielen“, sie ganz nach ihren Anforderungen zusammenstellen und immer neue Analysen testen.

Das SAS-Angebot

Dem Anwender öffnet sich ein weites Feld an logistischen Regressionen, generalisierten linearen Modellen, Entscheidungsbäumen, Random-Forest-Klassifikationsverfahren, integrierten Modellvergleichen, Clustering und vielem mehr. Der Hauptvorteil: Für Big-Data-Analysen auf Hadoop mit „SAS Visual Analytics“ sind keinerlei Programmierkenntnisse erforderlich.

Für Anwender, die eine Programmierumgebung und die damit verbundene Kontrolle und Flexibilität bevorzugen, bietet sich „SAS In-Memory Statistics for Hadoop“ an. Data Scientists sind mit der interaktiven Programmierumgebung in der Lage, analytische Datenaufbereitung, variable Transformation, exploratorische Analysen, Techniken für statistische Modellbildung und maschinelles Lernen, integriertes Modeling und Scoring innerhalb der Hadoop-Umgebung durchzuführen.

* Hans-Joachim Edert ist Senior Solutions Architect bei SAS Deutschland.

Inhalt des Artikels:

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 42927606 / Infrastruktur)