In der Datenhaltung und -verarbeitung ist ein Umdenken notwendig Der Sieben-Punkte-Check zum Praxiseinsatz von Hadoop

Autor / Redakteur: Hans-Joachim Edert / Ulrike Ostler

Den Wert von Big-Data-Analytics-Projekten stellt heute kaum noch jemand infrage. Einen wichtigen Part bei der Eroberung von Big-Data-Terrain wird Hadoop spielen. Wie kann das Open-Source-Framework – mit der passenden analytischen Infrastruktur – wertschöpfend im Rahmen von Big Data Analytics eingesetzt werden? Eine Checkliste liefert die wesentlichen Eckpunkte.

Firmen zum Thema

SAS Institute hat einen Siebnen-Punkte-Check entwickelt, mit dem sich abklären lässt, ob und wie Hadoop in die Datanhaltungs- und -analyse-Landschaft eines Unternehmens passt.
SAS Institute hat einen Siebnen-Punkte-Check entwickelt, mit dem sich abklären lässt, ob und wie Hadoop in die Datanhaltungs- und -analyse-Landschaft eines Unternehmens passt.
(Bild: Pustefix / pixelio.de)

Hadoop-Cluster, die dem klassischen Enterprise Data Warehouse (DWH) vorgeschaltet werden, bieten zahlreiche Vorteile wie signifikante Kosteneinsparungen. Wenn im Zusammenspiel mit In-Memory Analytics auch noch Verarbeitungstempo in Echtzeitnähe hinzukommt, begünstigt die Technologie eine bessere und schnellere Entscheidungsfindung. Und letztlich hilft Big Data Analytics – basierend auf besseren Kundeninformationen – bei der Einführung neuer Produkte und Services.

Doch wie lässt sich das Potenzial von Big Data mithilfe von Hadoop ausschöpfen? Unternehmen stellen sich diesbezüglich Fragen, etwa:

  • „Wie gehe ich bei der Datenaufbereitung auf Hadoop vor?“,
  • „Welche Analysetechniken gibt es, um Hadoop-Daten auszuwerten?“, oder
  • „Wie nutze ich Hadoop in Verbindung mit In-Memory-Verarbeitung?“

Diese und weitere Fragen lassen sich anhand der folgenden Checkliste beantworten.

1. Hadoop verstehen

Hadoop ist keinesfalls selbsterklärend. Das Open-Source-Projekt umfasst folgende Komponenten:

  • Hadoop Distributed File System (HDFS) als kostengünstiger, bandbreitenstarker Datenspeicher
  • MapReduce Engine für hochperformantes Distributed/Parallel Processing

Hadoop erfordert im Gegensatz zum Data Warehouse kein vorgegebenes Schema. Daten jedes Typs können aus beliebiger Quelle erhoben werden, und erst dann wird entschieden, wie diese Daten organisiert werden sollen. Das heißt, man muss noch nicht wissen, wie die Tabellen aussehen, bevor die Daten geladen werden.

Das prädestiniert Hadoop für unstrukturierte Daten. Die Kehrseite ist, dass Hadoop nicht für die iterative Verarbeitung optimiert ist, die Analytics oftmals erfordert. Hier helfen gebündelte Angebote im Rahmen von kommerziellen Distributionen.

2. Prozess zur Datenaufbereitung ändern

Die aktive Kontrolle der Datenqualität ist bei der Analyse großer, polystrukturierter Datenbestände genauso unerlässlich wie ein Metadatenkonzept. Diese stellt jedoch ganz andere Anforderungen als das Reporting über ein Data Warehouse, wo die Daten vordefiniert sind.

So geht´s, sagt Hans-Joachim Edert von SAS Deutschland. Feinste Analyse-Tools, In-Memory Hadoop und Data-Warehaus-Wissen und Big Data bringt Mehrwert.
So geht´s, sagt Hans-Joachim Edert von SAS Deutschland. Feinste Analyse-Tools, In-Memory Hadoop und Data-Warehaus-Wissen und Big Data bringt Mehrwert.
(Bild: Jorma Bork / pixelio.de)

Big Data Analytics schafft die Möglichkeit, Daten ungefiltert und unvoreingenommen auszuwerten. Dies erfordert einerseits raffinierte Analytics-Techniken und andererseits eine Untersuchung und Aufbereitung, um interessante Variablen für Vorhersagen, fehlende Werte oder Ausreißer auszumachen.

3. Datenexploration ermöglichen

Datenexploration ist elementar, um Erkenntnisse aus den vorhandenen Daten zu gewinnen oder interessante Variablen für tiefer gehende Analysen zu bestimmen. Die Erstellung von Reports oder Modellen ist dann der nächste Schritt.

Dafür stehen verschiedene Techniken zur Verfügung. Abfragen können mithilfe von MapReduce verteilt gefahren werden. Nachteil dabei ist, dass es mit HiveQL Minuten oder sogar Stunden dauern kann, bis man eine Antwort bekommt.

Visualisierung ist oftmals die beste Möglichkeit zur verständlichen Darstellung der Analyseergebnisse. Analytische Darstellungsformen wie Box- oder Streu-Diagramme, Wortwolken, konzeptuelle Netzwerkdiagramme oder Heatmaps verschaffen aussagekräftige Ansichten und bilden den Ausgangspunkt für weitere Analysen. Deskriptive Statistiken sind ebenfalls ein praktikabler Ansatz, um Daten zusammenzufassen und auszuwerten.

4. In-Memory Analytics nutzen

In-Memory Analytics führt Datenverarbeitung und mathematische Berechnungen im Arbeitsspeicher des Rechners aus und vermeidet so zeitaufwendige I/O-Prozesse. Weil die Bewegung der Datenmengen entfällt, ist diese Methode um ein Vielfaches schneller, wovon vor allem moderne Analysetechniken wie Advanced Statistics, Data Mining, Machine Learning, Text Mining oder Empfehlungssysteme profitieren. Neben der besseren Analyse-Performance bietet In-Memory höhere Interaktivität, und das Modell lässt sich quasi „on the fly“ anpassen.

5. Möglichkeiten moderner Analyse ausschöpfen

Moderne Ansätze halten Algorithmen für die komplexe Analyse von strukturierten und unstrukturierten Daten bereit. Zu den am häufigsten eingesetzten statistischen Methoden gehören Mustererkennung, Klassifizierung, Prognose-Erstellung, Optimierung oder Empfehlung.

Wer in die Daten hineinschauen möchte, braucht die richtigen Werkzeuge.
Wer in die Daten hineinschauen möchte, braucht die richtigen Werkzeuge.
(Bild: Rainer Sturm / pixelio.de)
Data Mining hilft bei der Entdeckung von Mustern und verborgenen Beziehungen in den umfassenden polystrukturierten Datenbeständen, wobei Regression und Hauptkomponentenanalyse zum Einsatz kommen. Ebenso wird maschinelles Lernen (Machine Learning) für die Erstellung von Vorhersagen verwendet: Hier nutzt ein Computer automatisch die vorangegangenen Beobachtungen für weiterführende Erkenntnisse.

6. Textdaten in den Analytics-Mix aufnehmen

Unstrukturierte Daten in Form von Text finden sich in E-Mail-Nachrichten, Artikeln, sozialen Netzen, Blogposts und unendlich vielen anderen Quellen. Sie geben oftmals Antwort auf das „Warum?“ hinter bestimmten Aktionen.

Im Hadoop-Cluster bilden Textdaten einen großen Anteil aller dort vorgehaltenen Daten. Als Dateisystem ist HDFS besonders geeignet für die Speicherung von halb- oder unstrukturierten Daten.

Textanalyse kombiniert Natural Language Processing mit statistischen Verfahren, um bestimmte Entitäten und Fakten (Person, Ort, Gegenstand), Konzepte (Wortverbindungen, die eine bestimmte Idee transportieren), Themen (Gruppe von zusammen auftauchenden Konzepten) oder Meinungen und Stimmungen aus den Textdaten zu ziehen und für die Analyse zu nutzen. Sind die Daten extrahiert und strukturiert, können sie mit vorhandenen strukturierten Daten in Verbindung gebracht und zum Beispiel für prädiktive Modellbildung verwendet werden.

7. Modelleinsatz operationalisieren

Big Data Analytics bringt nur dann einen Mehrwert, wenn die Ergebnisse des einmal eingesetzten Modells in die laufenden Geschäftsprozesse integriert und somit genutzt werden, um bessere Entscheidungen zu treffen. Dazu ist es notwendig, das Modell direkt in den operativen Data Store zu integrieren, was als „In-Database Scoring“ bezeichnet wird.

Der Hauptvorteil: Die Datenverarbeitung findet direkt im Data Store statt, die Notwendigkeit, Daten zu bewegen, entfällt, was viel Zeit und große Ressourcen spart – vor allem bei Big Data. Bereits Bestandteil in allen wichtigen Datenplattformen soll In-Database Scoring auch in Hadoop eingebunden werden.

Die Verarbeitung funktioniert so: Wenn neue Daten in Hadoop einlaufen, werden die gespeicherten Model-Scoring-Dateien für MapReduce-Funktionen genutzt, um das Scoring-Modell auf diese neuen Informationen anzuwenden. So entstehen sehr rasch verwertbare Ergebnisse.

Praxiseinsatz: Exploration von Big Data in Hadoop

Eine für den Benutzer besonders einfache Möglichkeit, aus den riesigen polystrukturierten Datenvolumen in Hadoop einen Mehrwert zu ziehen, ist einfaches „Point and Click“ oder „Drag and Drop“ mittels einer grafischen Nutzeroberfläche, wie sie etwa SAS Visual Analytics bietet.

Im Praxis-Test zahlt sich die Verbindung zu Hadoop aus.
Im Praxis-Test zahlt sich die Verbindung zu Hadoop aus.
(Bild: Konstantin Gastmann / pixelio.de)

Ein Beispiel dazu: Anhand von Modellen, mit denen das Spendenverhalten besser nachvollzogen werden kann, sollen die Beträge maximiert werden. Die Nutzeroberfläche ist intuitiv und schnell. Per Drag and Drop wird eine Variable auf den Desktop gezogen, um zu sehen, welche Auswirkungen diese hat.

Die Einbindung weiterer Variablen gibt Aufschluss darüber, inwieweit diese mit dem Spendenbetrag korrelieren. Die Korrelationsmatrix zeigt eine lineare multiple Regression, die den Betrag als Funktion der ausgewählten Variablen wiedergibt. Aus einem Pop-up-Menü wählt der Nutzer das prädiktive Modell, woraufhin das System automatisch ein Regressionsmodell erstellt.

Das Regressionsmodell

Dieser Vorgang lässt sich beliebig wiederholen: Zieht man weitere (potenziell interessante) Variablen aus dem linken Fensterbereich auf den Desktop, entsteht automatisch ein neues Regressionsmodell.

Das Regressionsmodell zeigt, dass die meisten Variablen Einfluss auf die Zielvariable (Spendenbetrag) haben. Ein automatisch generiertes Liniendiagramm vergleicht die vorhergesagten mit den tatsächlichen Spenden. Über die Clickauswahl zeigt eine Heatmap, wo das Modell noch angepasst werden muss. Effekte lassen sich nach Bedarf interaktiv hinzufügen oder entfernen.

Diese Methode ist sehr einfach und interaktiv. Dank der In-Memory-Verarbeitung müssen die Daten nur ein einziges Mal von der Festplatte gelesen werden, die folgenden Berechnungen finden über das Grid hinweg statt. Mitarbeiter können interaktiv mit den Daten „spielen“, sie ganz nach ihren Anforderungen zusammenstellen und immer neue Analysen testen.

Das SAS-Angebot

Dem Anwender öffnet sich ein weites Feld an logistischen Regressionen, generalisierten linearen Modellen, Entscheidungsbäumen, Random-Forest-Klassifikationsverfahren, integrierten Modellvergleichen, Clustering und vielem mehr. Der Hauptvorteil: Für Big-Data-Analysen auf Hadoop mit „SAS Visual Analytics“ sind keinerlei Programmierkenntnisse erforderlich.

Für Anwender, die eine Programmierumgebung und die damit verbundene Kontrolle und Flexibilität bevorzugen, bietet sich „SAS In-Memory Statistics for Hadoop“ an. Data Scientists sind mit der interaktiven Programmierumgebung in der Lage, analytische Datenaufbereitung, variable Transformation, exploratorische Analysen, Techniken für statistische Modellbildung und maschinelles Lernen, integriertes Modeling und Scoring innerhalb der Hadoop-Umgebung durchzuführen.

* Hans-Joachim Edert ist Senior Solutions Architect bei SAS Deutschland.

(ID:42927606)