Das Hadoop-Wer-Gewinnt: Hortonworks versus Cloudera

Anbieter zum Thema

Das OpenSource-Framework zum Beginn

Seit 2008 ist Hadoop ein Top-Level-Projekt der Apache Software Foundation. Der wichtigste Unterschied von Hadoop zur konventionellen Datenhaltung besteht in den Prinzipien der horizontalen Skalierung (Scale Oout) und der Datenlokalität. Datenlokalität bedeutet, dass Hadoop im Unterschied zur klassischen DV nicht die Daten zu den Servern überträgt, auf denen dann ein Programmcode zur Analyse ausgeführt würde, sondern umgekehrt.

Hadoop verteilt den auszuführenden Programmcode auf genau die Server im Hadoop-Cluster auf denen die zugehörigen Daten lagern, führt den Code verteilt (parallel) aus und fügt die Ergebnisse oder Teilergebnisse wieder zusammen. Dieser Ansatz reduziert die sonst üblichen, in der Regel zeitintensiven Datei-Übertragungen über das Netzwerk auf ein Minimum. Da außerdem der Cluster gut skaliert, erhöht sich die Geschwindigkeit der Datenverarbeitung signifikant und bringt diese überhaupt erst in eine Dimension, die Big-Data-Projekte erst möglich macht.

Batch-Verarbeitung und File-System

Der Ansatz impliziert aber auch die prinzipiellen Grenzen von Hadoop, weil Hadoop vom Ursprung her ein Batch-Ansatz ist. Das bedeutet, dass sich Hadoop quasi nicht oder nur mit großem Aufwand (Near-Realtime) oder mit Erweiterungen wie „Apache Storm“ und oder „Tez“ für Echtzeit-Probleme oder interaktive Algorithmen eignet.

Ergänzendes zum Thema

Schwachpunkte im Kern von Hadoop

Echtzeitfähigkeit: Das Core Hadoop-System ist prinzipiell nicht in der Lage, Daten in Echtzeit auszuwerten und die Integration eines der zahlreichen Third-Party-Tools ist aufwendig.

Backup: Das Core Hadoop-System bietet nur rudimentäre Backup- und Disaster-Recovery-Funktionen.

Sicherheit: Bis Hadoop 2 hatten Anwender, die sich erfolgreich an einem Hadoop-Cluster anmelden konnten, auch Zugang zu sämtlichen dort gespeicherten Daten. Eine Verbesserung steht aber mit dem von Intel initiierten Rhino ins Haus, das hardwareunterstützte Verschlüsselung und Zweifaktor-Authentisierung einschließlich Single-Sign-on für die einzelnen Hadoop-Ressourcen implementiert. Aber auch Hadoop pur bietet mit der Version 2 (YARN) und dem Apache Knox-Projekt inzwischen entsprechende Sicherheitserweiterungen.

Aufwendige Installation und Administration: Das manuelle Aufsetzen und Verwalten eines Hadoop-Cluster ist sehr komplex und eine der Haupt-Daseinsberechtigungen für Hadoop-Distributionen, die zum Teil (Cloudera) Web-basierte Administrationswerkzeuge bieten.

Darüber hinaus ist eine Migration auf Hadoop 2 (YARN) ein zwar mögliches, aber ebenfalls komplexes Unterfangen.

Der Hauptaufgabenbereich liegt daher bei der in der Regel nachträglichen, dafür aber massiv-parallelen Verarbeiten von Daten beziehungsweise der Aggregation. Unter Aggregation versteht man in der Informatik entweder die Verbindung zwischen Daten oder Objekten oder den Prozess zum Gewinnen von Metadaten aus Daten.

Hadoop nutzt Standard-Hardware und skaliert

Diesen und weitere prinzipbedingte Schwachpunkte von Hadoop sollte man bei der Planung von Big-Data Projekten nicht aus dem Auge verlieren. Ein entscheidender Vorteil von Hadoop gegenüber auf traditionellen Datenbank-Technologieren basierenden Big-Data-Technologien besteht aber zweifelsohne in der Kostenbetrachtung.

Dass diese für Hadoop so immens positiv ausfällt, ergibt sich unmittelbar aus dem Prinzip der horizontalen Skalierung, denn jeder Hadoop-Cluster kann problemlos aus mehreren Tausend Servern bestehen, welche die bei Big Data anfallenden Datenmengen sicher und fehlertolerant verteilen. Dazu kommt bei Hadoop im Gegensatz zur vertikalen Skalierung (Scale Up) mit einzelnen teuren Spezial-Servern kostengünstige Commodity-Hardware etwa mit 86-/x64-CPUs von Intel oder AMD zum Einsatz.

Im Kern besteht das bei der Apache Foundation gehostete Hadoop-Projekt aus den beiden wesentlichen Kern-Komponenten, dem Hadoop Distributed File System (HDFS) und dem Hadoop MapReduce Framework. Der Algorithmus selbst wurde ursprünglich von Google entwickelt. Ersteres ist das Dateisystem, das ein verteiltes Speichern und Verwalten von Daten ermöglicht, MapReduce ist das Framework zum verteilten und parallelen Verarbeiten der gespeicherten Daten im HDFS. HDFS unterstützt dabei Dateisysteme mit mehreren 100 Millionen Dateien.

Artikelfiles und Artikellinks

Link: Hortonworks

Link: Cloudera

Link: MapR

(ID:42695649)

Big Data 2014 und die Elefantenrunde für das Enterprise

Das Hadoop-Wer-Gewinnt: Hortonworks versus Cloudera

Das OpenSource-Framework zum Beginn

Batch-Verarbeitung und File-System

Hadoop nutzt Standard-Hardware und skaliert

Artikelfiles und Artikellinks