In der Datenhaltung und -verarbeitung ist ein Umdenken notwendig Der Sieben-Punkte-Check zum Praxiseinsatz von Hadoop

Autor / Redakteur: Hans-Joachim Edert / Ulrike Ostler |

Den Wert von Big-Data-Analytics-Projekten stellt heute kaum noch jemand infrage. Einen wichtigen Part bei der Eroberung von Big-Data-Terrain wird Hadoop spielen. Wie kann das Open-Source-Framework – mit der passenden analytischen Infrastruktur – wertschöpfend im Rahmen von Big Data Analytics eingesetzt werden? Eine Checkliste liefert die wesentlichen Eckpunkte.

Anbieter zum Thema

SAS Institute hat einen Siebnen-Punkte-Check entwickelt, mit dem sich abklären lässt, ob und wie Hadoop in die Datanhaltungs- und -analyse-Landschaft eines Unternehmens passt.
SAS Institute hat einen Siebnen-Punkte-Check entwickelt, mit dem sich abklären lässt, ob und wie Hadoop in die Datanhaltungs- und -analyse-Landschaft eines Unternehmens passt.
(Bild: Pustefix / pixelio.de)

Hadoop-Cluster, die dem klassischen Enterprise Data Warehouse (DWH) vorgeschaltet werden, bieten zahlreiche Vorteile wie signifikante Kosteneinsparungen. Wenn im Zusammenspiel mit In-Memory Analytics auch noch Verarbeitungstempo in Echtzeitnähe hinzukommt, begünstigt die Technologie eine bessere und schnellere Entscheidungsfindung. Und letztlich hilft Big Data Analytics – basierend auf besseren Kundeninformationen – bei der Einführung neuer Produkte und Services.

Doch wie lässt sich das Potenzial von Big Data mithilfe von Hadoop ausschöpfen? Unternehmen stellen sich diesbezüglich Fragen, etwa:

  • „Wie gehe ich bei der Datenaufbereitung auf Hadoop vor?“,
  • „Welche Analysetechniken gibt es, um Hadoop-Daten auszuwerten?“, oder
  • „Wie nutze ich Hadoop in Verbindung mit In-Memory-Verarbeitung?“

Diese und weitere Fragen lassen sich anhand der folgenden Checkliste beantworten.

1. Hadoop verstehen

Hadoop ist keinesfalls selbsterklärend. Das Open-Source-Projekt umfasst folgende Komponenten:

  • Hadoop Distributed File System (HDFS) als kostengünstiger, bandbreitenstarker Datenspeicher
  • MapReduce Engine für hochperformantes Distributed/Parallel Processing

Hadoop erfordert im Gegensatz zum Data Warehouse kein vorgegebenes Schema. Daten jedes Typs können aus beliebiger Quelle erhoben werden, und erst dann wird entschieden, wie diese Daten organisiert werden sollen. Das heißt, man muss noch nicht wissen, wie die Tabellen aussehen, bevor die Daten geladen werden.

Das prädestiniert Hadoop für unstrukturierte Daten. Die Kehrseite ist, dass Hadoop nicht für die iterative Verarbeitung optimiert ist, die Analytics oftmals erfordert. Hier helfen gebündelte Angebote im Rahmen von kommerziellen Distributionen.

2. Prozess zur Datenaufbereitung ändern

Die aktive Kontrolle der Datenqualität ist bei der Analyse großer, polystrukturierter Datenbestände genauso unerlässlich wie ein Metadatenkonzept. Diese stellt jedoch ganz andere Anforderungen als das Reporting über ein Data Warehouse, wo die Daten vordefiniert sind.

So geht´s, sagt Hans-Joachim Edert von SAS Deutschland. Feinste Analyse-Tools, In-Memory Hadoop und Data-Warehaus-Wissen und Big Data bringt Mehrwert.
So geht´s, sagt Hans-Joachim Edert von SAS Deutschland. Feinste Analyse-Tools, In-Memory Hadoop und Data-Warehaus-Wissen und Big Data bringt Mehrwert.
(Bild: Jorma Bork / pixelio.de)

Big Data Analytics schafft die Möglichkeit, Daten ungefiltert und unvoreingenommen auszuwerten. Dies erfordert einerseits raffinierte Analytics-Techniken und andererseits eine Untersuchung und Aufbereitung, um interessante Variablen für Vorhersagen, fehlende Werte oder Ausreißer auszumachen.

3. Datenexploration ermöglichen

Datenexploration ist elementar, um Erkenntnisse aus den vorhandenen Daten zu gewinnen oder interessante Variablen für tiefer gehende Analysen zu bestimmen. Die Erstellung von Reports oder Modellen ist dann der nächste Schritt.

Dafür stehen verschiedene Techniken zur Verfügung. Abfragen können mithilfe von MapReduce verteilt gefahren werden. Nachteil dabei ist, dass es mit HiveQL Minuten oder sogar Stunden dauern kann, bis man eine Antwort bekommt.

Visualisierung ist oftmals die beste Möglichkeit zur verständlichen Darstellung der Analyseergebnisse. Analytische Darstellungsformen wie Box- oder Streu-Diagramme, Wortwolken, konzeptuelle Netzwerkdiagramme oder Heatmaps verschaffen aussagekräftige Ansichten und bilden den Ausgangspunkt für weitere Analysen. Deskriptive Statistiken sind ebenfalls ein praktikabler Ansatz, um Daten zusammenzufassen und auszuwerten.

(ID:42927606)