Kostengünstiger De-facto-Standard für das Datensammeln und -auswerten Hadoop als Big-Data-Betriebssystem überzeugt Datenanalysten

Autor / Redakteur: Hans-Joachim Edert / Ulrike Ostler

In der IT dreht sich momentan alles um große und heterogene Datenbestände. „Hadoop“ macht Furore bei Ingenieuren und Infrastruktur-Architekten. Und das aus gutem Grund – denn das Open-Source-Framework ist bestens geeignet für den Einsatz im Rahmen von Big Data Analytics, die Hadoop für Geschäftsanwendungen produktiv macht.

Firmen zum Thema

Für viele Unternehmen ein smarte Kombination: Hadoop und In-Memory-Verarbeitung
Für viele Unternehmen ein smarte Kombination: Hadoop und In-Memory-Verarbeitung
(Bild: SAS Institute)

Hadoop ist heute als kostengünstige Lösung für die verteilte Speicherung und parallele Verarbeitung von sehr großen Mengen an semi- und unstrukturierten Daten ein integraler Bestandteil der Big-Data-Anwendungslandschaft. Die Vorteile liegen auf der Hand: Hadoop bietet einen De-facto-Standard, ist branchenübergreifend und kostengünstig nutzbar.

Somit gilt: Wer heute Big Data sagt, meint längst auch Hadoop; denn diese Plattform erfüllt die Voraussetzungen für eine Analyse riesiger Mengen an polystrukturierten Daten:

  • Parallel Processing: Das Distributed-Computing-Modell sorgt dafür, dass riesige Datenvolumen schnell verarbeitet werden können.
  • Skalierbarkeit: Die Systeme lassen sich ganz einfach durch Hinzufügen von Knoten erweitern, und das praktisch hardwareunabhängig.
  • Speicherflexibilität: Im Gegensatz zu herkömmlichen relationalen Datenbanken müssen Daten nicht aufbereitet werden, um sie zu speichern; auch unstrukturierte Daten werden problemlos gespeichert.

Die IT-Welt steht mit Hadoop vor dem nächsten Paradigmenwechsel: Kostengünstige Commodity Hardware, meist unter Linux betrieben, läuft teuren Spezial-Servern den Rang ab, zumal Hadoop nur geringe Anforderungen an die darunterliegende Plattform stellt. Für Unternehmen, die ihre Daten auswerten wollen, bedeutet dies auch eine Befreiung aus der Bindung an einen bestimmten Datenbankanbieter.

Hadoop ist „in“

Analysten sagen Hadoop eine blühende Zukunft voraus, IDC geht von einem Jahreswachstum von 60,2 Prozent auf 812,8 Millionen Dollar im Jahr 2016 aus. Der Erfolg von Hadoop zeigt sich nicht zuletzt auch in der Historie: Was Anfang des Jahrtausends zuerst in Google-Forschungspapieren für ein verteiltes Dateisystem und ein Cluster-taugliches Datenverarbeitungsverfahren skizziert wurde, wird heute als Apache-Projekt und von kommerziellen Distributionen (zum Beispiel Cloudera oder Hortonworks) vorangetrieben.

Und diese Distributionen bekommen die volle Aufmerksamkeit der großen Unternehmen: So hat Intel jüngst 740 Millionen Dollar für einen Anteil von 18 Prozent an Cloudera investiert, ein Börsengang steht in Aussicht.

Kostengünstiger Massenspeicher und Datenverarbeitungsplattform in einem

Allerdings: Hadoop ist kein Ersatz für eine Datenbank im herkömmlichen Sinn und darf schon deshalb nicht in eine konventionelle Data-Warehouse(DWH)-Strategie gezwängt werden. Stattdessen sollte Hadoop dem vorhandenen Data Warehouse vorgelagert werden.

Dort werden Daten vorverarbeitet und veredelt, bevor sie in das klassische Enterprise Data Warehouse eingespielt werden. Dies entlastet das DWH und befreit Ressourcen, die bislang für ETL-Aufgaben gebunden waren.

Horizontale Skalierung und Datenlokalität sind die beiden Grundprinzipien von Hadoop. Versteht man unter Ersterem die Möglichkeit zur flexiblen Erweiterbarkeit des Clusters („scale out“), so bezeichnet Letzteres das Konzept, den Programmcode zu den Daten zu bringen (und nicht umgekehrt).

Kern und Kosten

Technisch umgesetzt ist dies in den Kernkomponenten „Hadoop Distributed File System“ (HDFS), einem Java-basierten verteilten Dateisystem, sowie dem „MapReduce“-Framework zur parallelen Verarbeitung großer Mengen strukturierter und unstrukturierter Daten.

in-database bedeutet heute oftmals „in-hadoop“.
in-database bedeutet heute oftmals „in-hadoop“.
(Bild: SAS Institute)

Einer der wichtigsten Vorteile von Hadoop zeigt sich bei den Kosten. Als Bestandteil einer Tiered-Storage-Architektur punktet Hadoop mit einem einfach skalierbaren, kostengünstigen Massenspeicher. Hochskalierbare Datenspeicherung ist mit Hadoop für fünf Prozent der Kosten alternativer Lösungen (wie NAS, Engineered Systems, Enterprise Data Warehouses oder SAN) möglich, lediglich die Speicherung in der Cloud ist in der Regel noch günstiger. Hadoop ist also gleichzeitig kostengünstiger Massenspeicher (Storage) und Datenverarbeitungsplattform (Computing).

Hadoop und das MapReduce-Framework alleine reichen jedoch nicht für Anforderungen von Big Data Analytics aus. Für eine Auswertung riesiger Mengen an un- oder semistrukturierten Daten ist eine In-Memory-Verarbeitung essenziell, die den Einsatz moderner Analyseverfahren wie Advanced Statistics, Data Mining, Machine Learning, Text Mining oder Empfehlungssysteme begünstigt.

Hadoop und In-Memory

Der In-Memory-Ansatz bringt eine bessere Performance bei der Analyse: Die Iteration für ein prädiktives Modell benötigt so zum Beispiel nur noch Minuten, wo bislang Stunden anfielen. Darüber hinaus sind ein besserer Zugriff auf die Daten und eine effektivere Interaktion möglich, analytische Modelle lassen sich so quasi „on the fly“ anpassen. Diese positiven Effekte sind umso bedeutsamer, als Hadoop – historisch bedingt – im Kern immer noch als ein Batch-Verarbeitungssystem anzusehen ist, das sich erst in jüngster Zeit Richtung Echtzeitverarbeitung entwickelt.

Gründe, die für die Wahl einer kommerziellen Hadoop-Distribution sprechen, sind Stabilität und Planungssicherheit. Hadoop sollte nicht als ein geschlossenes und monolithisches System missverstanden werden, sondern vielmehr als ein lebendiges „Ökosystem“, bestehend aus einer Vielzahl von Projekten und Frameworks, die unterschiedliche Aufgaben erfüllen.

Die Hadoop-Distributionen bieten Unternehmen daher ein harmonisiertes Programmpaket, das gerade „Einsteigern“ einen schnellen Start mit der neuen Technologie erlaubt. Und nicht zuletzt stehen den Unternehmen natürlich Support durch den Distributor ebenso wie distributionsspezifische Features (zum Beispiel Administrations-Tools) zur Verfügung, die einen echten Mehrwert bieten.

Mehr als Daten-Management

Allerdings beginnen die meisten Unternehmen heute nicht auf einer „grünen Wiese“, wenn es um Analytics geht. In der Regel sind bereits mehr oder weniger ausgebaute Infrastrukturen vorhanden – und nicht zuletzt auch das Know-how der Anwender, diese zu nutzen.

Interessant ist Hadoop deshalb vor allem dann, wenn es in diese Strukturen eingebunden werden kann und deren Möglichkeiten erweitert. Idealerweise ist Hadoop für den Endanwender weitgehend transparent und verlangt kein Umlernen.

Die Integration von SAS-Werkzeugen und Hadoop
Die Integration von SAS-Werkzeugen und Hadoop
(Bild: SAS Institute)

Ein erheblicher Teil des Mehrwertes von Hadoop im Unternehmensumfeld steckt also in der Integration in die Unternehmens-IT. In Verbindung mit Big-Data-Analytics-Lösungen wie denen von SAS erhalten Unternehmen eine Analytics-Plattform, mit der sich Massendaten in Echtzeit auswerten lassen.

Insgesamt gibt es drei Einsatzszenarien für Hadoop:

  • 1. Daten-Management
  • 2. In-Database Processing
  • 3. In-Memory-Technologie/High-Performance Analytics

Über das klassische Data Management hinaus (sei es SQL-basiert oder unter Verwendung von Hadoop-eigenen Skriptsprachen wie „Pig“) kann Hadoop auch für weitere Arten der Datenverarbeitung genutzt werden. Beim In-Database Processing wird (analytische) SAS Funktionalität wie beispielsweise Scoring-Läufe, die die Eintrittswahrscheinlichkeit von Ereignissen wie Kündigungen, Betrugsfällen oder Materialfehlern vorhersagen, direkt im Hadoop-Cluster ausgeführt (in-database = „in-hadoop“). Offensichtlicher Nutzen dieses Vorgehens: der Verzicht auf unnötige Datenbewegungen, die im Big-Data-Umfeld besonders kritisch zu betrachten sind.

Schneller und schneller

Ein weiteres Einsatzszenario zeichnet sich im Rahmen von High-Performance Analytics ab, bei der Daten sehr performant aus Hadoop gezogen und in den LASR In-Memory-Server von SAS abgelegt werden können. Das Besondere: Die Daten können parallelisiert aus Hadoop gelesen und wieder zurückgeschrieben werden, wodurch auch sehr große Datenmengen in kürzester Zeit für den Zugriff bereitstehen. Diese neuen Auswertungsmöglichkeiten generieren erst einen unternehmerischen Wert aus den Hadoop-Daten.

Der Trend geht dahin, dass Hadoop zunehmend in die IT-Landschaft integriert wird. Allerdings sind deutsche Unternehmen hier noch wesentlich zögerlicher als Unternehmen in den USA, wo große Hadoop-Cluster im Produktivbetrieb bereits alltäglich sind.

So kommt am Thema Hadoop zwar niemand vorbei, jedoch gibt es in Deutschland und Europa noch kaum Hadoop-spezifisches Know-how. Vorreiter bei der Einführung von Hadoop sind die Internet-Unternehmen. Aber das Thema kommt langsam auch im Handel, in der Telekommunikationsbranche, in der Industrie oder sogar in der Versicherungsbranche an.

Weg mit den Wissenslücken!

Wesentliche Voraussetzung für den erfolgreichen Einsatz der neuen Technologie ist die Bereitschaft, die IT-Strategie auf Hadoop abzustimmen. SAS hilft Unternehmen dabei, zum Beispiel mit Lösungen wie SAS In-Memory Statistics for Hadoop und über Partnerschaften mit Hortonworks und Cloudera.

Durch die Integration mit den SAS Lösungen können Unternehmen auch für Hadoop den gesamten Analytics-Lifecycle abdecken – beginnend beim vorbereitenden Datenmanagement über Exploration und Visualisierung der Daten bis hin zur Generierung von Erklärungsmodellen und Anwendung der gewonnenen Erkenntnisse.

Hadoop hat sich bereits als De-facto-Standard von „Big-Data“-Anwendungen etabliert, und die Weiterentwicklung des Open-Source-getriebenen „Big-Data-Betriebssystems“ erfolgt in atemberaubender Geschwindigkeit. Unternehmen, die diese Entwicklung nicht frühzeitig für sich nutzen, riskieren nach Ansicht von Experten, Wettbewerbsvorteile ungenutzt zu lassen, die bereits in naher Zukunft einen entscheidenden Unterschied machen können.

Der Autor:

Hans-Joachim Edert ist Senior Solutions Architect bei SAS Deutschland.

(ID:42820062)