Kostengünstiger De-facto-Standard für das Datensammeln und -auswerten

Hadoop als Big-Data-Betriebssystem überzeugt Datenanalysten

Seite: 2/3

Firmen zum Thema

Kostengünstiger Massenspeicher und Datenverarbeitungsplattform in einem

Allerdings: Hadoop ist kein Ersatz für eine Datenbank im herkömmlichen Sinn und darf schon deshalb nicht in eine konventionelle Data-Warehouse(DWH)-Strategie gezwängt werden. Stattdessen sollte Hadoop dem vorhandenen Data Warehouse vorgelagert werden.

Dort werden Daten vorverarbeitet und veredelt, bevor sie in das klassische Enterprise Data Warehouse eingespielt werden. Dies entlastet das DWH und befreit Ressourcen, die bislang für ETL-Aufgaben gebunden waren.

Horizontale Skalierung und Datenlokalität sind die beiden Grundprinzipien von Hadoop. Versteht man unter Ersterem die Möglichkeit zur flexiblen Erweiterbarkeit des Clusters („scale out“), so bezeichnet Letzteres das Konzept, den Programmcode zu den Daten zu bringen (und nicht umgekehrt).

Kern und Kosten

Technisch umgesetzt ist dies in den Kernkomponenten „Hadoop Distributed File System“ (HDFS), einem Java-basierten verteilten Dateisystem, sowie dem „MapReduce“-Framework zur parallelen Verarbeitung großer Mengen strukturierter und unstrukturierter Daten.

in-database bedeutet heute oftmals „in-hadoop“.
in-database bedeutet heute oftmals „in-hadoop“.
(Bild: SAS Institute)

Einer der wichtigsten Vorteile von Hadoop zeigt sich bei den Kosten. Als Bestandteil einer Tiered-Storage-Architektur punktet Hadoop mit einem einfach skalierbaren, kostengünstigen Massenspeicher. Hochskalierbare Datenspeicherung ist mit Hadoop für fünf Prozent der Kosten alternativer Lösungen (wie NAS, Engineered Systems, Enterprise Data Warehouses oder SAN) möglich, lediglich die Speicherung in der Cloud ist in der Regel noch günstiger. Hadoop ist also gleichzeitig kostengünstiger Massenspeicher (Storage) und Datenverarbeitungsplattform (Computing).

Hadoop und das MapReduce-Framework alleine reichen jedoch nicht für Anforderungen von Big Data Analytics aus. Für eine Auswertung riesiger Mengen an un- oder semistrukturierten Daten ist eine In-Memory-Verarbeitung essenziell, die den Einsatz moderner Analyseverfahren wie Advanced Statistics, Data Mining, Machine Learning, Text Mining oder Empfehlungssysteme begünstigt.

Hadoop und In-Memory

Der In-Memory-Ansatz bringt eine bessere Performance bei der Analyse: Die Iteration für ein prädiktives Modell benötigt so zum Beispiel nur noch Minuten, wo bislang Stunden anfielen. Darüber hinaus sind ein besserer Zugriff auf die Daten und eine effektivere Interaktion möglich, analytische Modelle lassen sich so quasi „on the fly“ anpassen. Diese positiven Effekte sind umso bedeutsamer, als Hadoop – historisch bedingt – im Kern immer noch als ein Batch-Verarbeitungssystem anzusehen ist, das sich erst in jüngster Zeit Richtung Echtzeitverarbeitung entwickelt.

Gründe, die für die Wahl einer kommerziellen Hadoop-Distribution sprechen, sind Stabilität und Planungssicherheit. Hadoop sollte nicht als ein geschlossenes und monolithisches System missverstanden werden, sondern vielmehr als ein lebendiges „Ökosystem“, bestehend aus einer Vielzahl von Projekten und Frameworks, die unterschiedliche Aufgaben erfüllen.

Die Hadoop-Distributionen bieten Unternehmen daher ein harmonisiertes Programmpaket, das gerade „Einsteigern“ einen schnellen Start mit der neuen Technologie erlaubt. Und nicht zuletzt stehen den Unternehmen natürlich Support durch den Distributor ebenso wie distributionsspezifische Features (zum Beispiel Administrations-Tools) zur Verfügung, die einen echten Mehrwert bieten.

(ID:42820062)