Big Data 2014 und die Elefantenrunde für das Enterprise Das Hadoop-Wer-Gewinnt: Hortonworks versus Cloudera

Autor / Redakteur: Thomas Drilling / Ulrike Ostler

Der Erkenntnis-Gewinn aus Big-Data-Projekten übersteigt oft die Erwartungen. Allerdings besteht das bezeichnende Charakteristikum darin, dass die Daten Teil des Problems sind. Mit der sich momentan abzeichnen Konsolidierung im Bereich der Hadoop-Distributionen, ist es für viele Unternehmen entscheidend, die Big-Data-Anwendungen planen, auf den richtigen Elefanten zu setzen.

Anbieter zum Thema

Das Ambari-Dashboard.
Das Ambari-Dashboard.
(Bild: Hortonworkd)

Das CeBIT-Motto 2014 Big Data & Datability ist ein guter Indikator für den Stellenwert, den Big Data als Technologie-Thema innerhalb der IT insgesamt momentan einnimmt. Auch wenn der Begriff Big Data bisweilen mit seiner Schwammigkeit nervt und dessen inflationäre Verwendung den Verdacht schürt, hier würde wieder einmal nur neue Sau durchs Dorf getrieben, stellen nicht nur traditionelle Datenbank- und Data-Warehouse-Anbieter derzeit fest, dass es sich bei Big Data keineswegs um eine vorübergehendes Phänomen handelt. Sie investieren selbst ebenfalls in eine eigentlich konkurrierende Technologie, ebenso, wie es momentan alle großen IT-Player in dem Wissen tun, dass Big Data nicht mehr verschwinden wird.

Das Millionenspiel

Dass Intel den momentanen Marktführer Cloudera, was die Anzahl der Installationen betrifft, im vergangenen Monat im Rahmen dessen aktueller Finanzierungsrunde rund 740 Millionen Dollar reicher gemacht hat, welche damit ein Gesamtergebnis von 900 Millionen US-Dollar erzielte, ist nur das prominenteste Beispiel. Mit dem noch für dieses Jahr zu erwartenden Börsengang von Cloudera dürfte der Big-Data-Spezialist nach Einschätzung Analysten in Bälde rund 4 Milliarden Dollar wert sein.

Dagegen sind die rund 100 Millionen Dollar Kapital, die der Yahoo-Spin-Off Hortonworks als Haupt-Konkurrent im Rahmen seiner im vergangenen Monat abgeschlossenen Finanzierungsrunde an frischem Kapital aufnehmen konnte, zwar Peanuts, zeigt aber doch, in welcher Dimension sich die Zahlen bewegen, mit denen die Branche operiert.

Dabei sollte die Kapitalausstattung des jeweiligen Anbieters für Unternehmen, die den Einsatz von Big-Data-Anwendungen erwägen, aber nicht das einzige Kriterium für die Auswahl einer Hadoop-Lösung sein. Dass Hortonworks als einziger Anbieter einer so genannten Hadoop-Distribution und als Hadoop-Protagonist der ersten Stunde bereits zehn Jahre Hadoop-Erfahrung im die Waagschale werfen kann, zeigt nicht nur, dass die Bezeichnung „neu“ für Big Data als Technologietrend relativ ist, sondern auch, dass insbesondere Hortonworks strategisch gut aufgestellt ist.

Die wichtigsten Player

Mit dem Einstieg von Intel bei Cloudera und der Aufgabe der eigenen Hadoop-Variante reduziert sich die Anzahl derzeit marktrelevanten Hadoop-Distributionen auf acht, von denen Cloudera, Hortonworks, Microsoft. Amazon Elastic Map Reduce und Pivotal die wichtigsten und in der aktuellen Forrester-Wave-Analyse Big Data Solutions Q1 2014 berücksichtigt sind. Cloudera und Hortonworks operieren hier momentan als wichtigste Protagonisten des Genres an entgegengesetzten Polen auch wenn hinsichtlich des Etiketts „kostengünstig“ in Vergleich zu traditionellen Datenbank- und Data-Warehouse-Lösungen eher auf der gleichen Seite stehen.

Da Amazons Hadoop-Distribution auf dem Einsatz des eigenen Cloud-Speichers S3 anstelle von HDFS ausgelegt ist, scheidet sie für viele Anwender aus, ebenso wie die direkt auf das Unix-Dateisystem anstelle von HDFS aufsetzende MapR-Distribution. Nahezu alle in diesem Jahr veröffentlichten Big-Data-Studien, wie „Big Data Analytics in Deutschland 2013“ von IDC kommen zu dem Schluss, dass sich der Markt künftig auf Hortonworks und Cloudera konzentrieren wird, was sich auch in der skizzierten Kapitalausstattung widerspiegelt.

Hortonworks

Das rund 300 Mitarbeiter starke Unternehmen und Hersteller der gleichnamigen Hadoop-Distribution aus Palo Alto hat im Februar eine Strategie-Allianz mit Red Hat bekannt gegebenen, woran sich unschwer erkennen lässt, dass derzeit alle IT- und Open-Source-Schwergewichte in der einen oder anderen Weise massiv in Big Data investieren. Auch mit Microsoft gibt es seit 2011 eine Zusammenarbeit.

Hortonworks Integration mit der Außenwelt
Hortonworks Integration mit der Außenwelt
(Bild: Hortonworks)

In deren Rahmen setzen die Redmonder Hortonworks-Technik in ihrer eigenen Hadopp-Distribution für Windows Azure und Windows Server ein. Ebenfalls im Februar hat Hortonworks die Verfügbarkeit der Beta-Version seiner „Hortonworks Data Platform for Windows“ angekündigt, die unter anderem Fundament der in gleichem Monat angekündigten Preview-Version von Windows „Azure HDInsight“ist, das erstmals „Hadoop 2.2“ (YARN) in Azure verfügbar macht.

Auch die Zusammenarbeit mit Red Hat sieht vor, dass beiden Unternehmen ihre Produktlinien besser aufeinander abstimmen und gemeinsame Lösungen auf den Markt bringen. Beide Unternehmen haben im Februar das Beta-Programm des Hortonworks Data Platform (HDP) Plugins für Red Hat Storage angekündigt. Den aktuellen Stand der Zusammenarbeit haben beiden Unternehmen auf dem im vergangenen Monat über die Bühne gegangenen Red Hat Summit demonstriert.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Ergänzendes zum Thema
Schwachpunkte im Kern von Hadoop
  • Echtzeitfähigkeit: Das Core Hadoop-System ist prinzipiell nicht in der Lage, Daten in Echtzeit auszuwerten und die Integration eines der zahlreichen Third-Party-Tools ist aufwendig.
  • Backup: Das Core Hadoop-System bietet nur rudimentäre Backup- und Disaster-Recovery-Funktionen.
  • Sicherheit: Bis Hadoop 2 hatten Anwender, die sich erfolgreich an einem Hadoop-Cluster anmelden konnten, auch Zugang zu sämtlichen dort gespeicherten Daten. Eine Verbesserung steht aber mit dem von Intel initiierten Rhino ins Haus, das hardwareunterstützte Verschlüsselung und Zweifaktor-Authentisierung einschließlich Single-Sign-on für die einzelnen Hadoop-Ressourcen implementiert. Aber auch Hadoop pur bietet mit der Version 2 (YARN) und dem Apache Knox-Projekt inzwischen entsprechende Sicherheitserweiterungen.
  • Aufwendige Installation und Administration: Das manuelle Aufsetzen und Verwalten eines Hadoop-Cluster ist sehr komplex und eine der Haupt-Daseinsberechtigungen für Hadoop-Distributionen, die zum Teil (Cloudera) Web-basierte Administrationswerkzeuge bieten.
  • Darüber hinaus ist eine Migration auf Hadoop 2 (YARN) ein zwar mögliches, aber ebenfalls komplexes Unterfangen.

Hortonworks, als vollständig quelloffen erhältliches Framework orientiert sich zudem möglichst am Hadoop-Standard. Zudem fließen sämtliche von Hortonworks voran getriebenen Weiterentwicklungen unmittelbar in das Open-Source-Projekt der Apache Software Foundation ein. Laut Hortonworks` Vice President Coporate Strategy verstehe das Unternehmen seine Distribution primär als Ergänzung zur konventionellen Datenhaltung. Das mache es für Partnerunternehmen wie Microsoft und Red Hat relativ leicht, die „Hortonworks Data Platform“ (HDP) zu integrieren beziehungsweise als OEM-Produkt zu vermarkten.

Denn Hortonworks paketiert und versioniert im Wesentlichen den Hadoop-Core und die verschiedenen Tools aus dem Hadoop-Universum. Die Installation erfolgt bei Hortonworks im Gegensatz zu Cloudera vorwiegend manuell, ist aber sehr gut dokumentiert und eine Web-basierte Cluster-Vewaltung ist mit „Apache Ambari“ inzwischen ebenfalls möglich.

Features für die Echtzeitanalyse

Eine Echtzeitanalyse, wie in Cloudera bereits enthalten, können Hortonworks-Nutzer mit dem auf „Apache Lucene“ basierenden Projekt „Elasticsearch“ realisieren. Elasticsearch muss allerdings manuell parallel zu Hortonworks installiert werden und kann Daten aus CRM- und ERP-Systemen auswerten, sowie Click-Streams und Log-Informationen.

Prominente Hortonworks-Nutzer sind zum Beispiel XING, WD oder Bloomberg. Das Unternehmen Hortonworks ist zudem auch die treibende Kraft hinter dem Hadoop-2.0-Standard YARN. Auch wenn für Hortonworks selbst keine Lizenzgebühren zu bezahlen sind, verdient das Unternehmen sein Geld mit Support-Gebühren (Enterprise Hadoop) für Hadoop, die nach der Größe des Hadoop-Clusters gestaffelt sind.

Cloudera

Das ebenfalls in Palo Alto ansässige, rund 600 Mitarbeiter starke Unternehmen Cloudera operiert mit seiner Hadoop-Distribution dank zahlreicher eigener Erweiterungen und Tools an der Grenze zu Big-Data-Suiten und versteht sich als preisgünstige „Alternative“ zu relationalen Datenbanken, weniger als Ergänzung. Während sich Hortonworks möglichst eng am Apache-Standard orientiert, entfernt sich Cloudera mit zahlreichen eigenen Entwicklungen zunehmend einen Hadoop-Standard, den es offiziell gar nicht gibt.

Das Cloudera Manager Dashboard
Das Cloudera Manager Dashboard
(Bild: Claudera)

Daher besteht der wichtigste und möglicherweise entscheidende Vorteil der Cloudera Distribution darin, dass diese neben einem Installations-Werkzeug auch proprietäre Tools zur Cluster-Administraton wie den Cloudera Manager mitbringt. Darüber hinaus treibt Cloudera mit „Impala“ ein eigenes Open-Source-Projekt zur Echtzeitanalyse voran.

Das Cluster Setup mit der frei verfügbaren Version von Cloudera Manager
Das Cluster Setup mit der frei verfügbaren Version von Cloudera Manager
(Bild: Claudera)

Zwar gibt es auch von Cloudera eine kostenfreie Variante der Distribution „Cloudera Express“, für den kommerziellen Einsatz mit „Cloudera Enterprise“ fallen aber immer von der Cluster-Größe abhängige Lizenzgebühren an, die dann ebenfalls professionellen Support umfassen. Allerdings unterstützt der „Cloudera-Manager“ in der Enterprise-Version wesentlich mehr Funktionen. Prominente Cloudera-Anwender sind etwa Ebay, Autoscout 24, Netapp, Rackspace Hosting oder Samsung, die zum Teil (Samsung, Ebay) aber auch Hortonworks nutzen.

Was ist Hadoop ist und was nicht?

Um zu verstehen, welche Distribution für das eigene Unternehmen sinnvoll ist, sollte bekannt sein, was Hadoop eigentlich ist. Derzeit lässt sich Hadoop als ein freies in Java geschriebenes Framework für das verteilte Speichern und zum parallelen Verarbeiten sehr großer Datenmengen auf Basis eines horizontal verteilten Dateisystems beschreiben – nicht mehr, aber auch nicht weniger.

Das Hadoop-Projekt weist inzwischen einen Reifegrad von zehn Jahren auf und wurde ursprünglich vom Lucene-Entwickler Doug Cutting und von Mike Cafarella bei Yahoo entwickelt. Der Name Hadoop nebst Maskottchen (der kleine Elefant) stammt von Cutting: Hadoop war der Name des Plüschelefanten seines kleinen Sohnes.

Das OpenSource-Framework zum Beginn

Seit 2008 ist Hadoop ein Top-Level-Projekt der Apache Software Foundation. Der wichtigste Unterschied von Hadoop zur konventionellen Datenhaltung besteht in den Prinzipien der horizontalen Skalierung (Scale Oout) und der Datenlokalität. Datenlokalität bedeutet, dass Hadoop im Unterschied zur klassischen DV nicht die Daten zu den Servern überträgt, auf denen dann ein Programmcode zur Analyse ausgeführt würde, sondern umgekehrt.

Hadoop verteilt den auszuführenden Programmcode auf genau die Server im Hadoop-Cluster auf denen die zugehörigen Daten lagern, führt den Code verteilt (parallel) aus und fügt die Ergebnisse oder Teilergebnisse wieder zusammen. Dieser Ansatz reduziert die sonst üblichen, in der Regel zeitintensiven Datei-Übertragungen über das Netzwerk auf ein Minimum. Da außerdem der Cluster gut skaliert, erhöht sich die Geschwindigkeit der Datenverarbeitung signifikant und bringt diese überhaupt erst in eine Dimension, die Big-Data-Projekte erst möglich macht.

Batch-Verarbeitung und File-System

Der Ansatz impliziert aber auch die prinzipiellen Grenzen von Hadoop, weil Hadoop vom Ursprung her ein Batch-Ansatz ist. Das bedeutet, dass sich Hadoop quasi nicht oder nur mit großem Aufwand (Near-Realtime) oder mit Erweiterungen wie „Apache Storm“ und oder „Tez“ für Echtzeit-Probleme oder interaktive Algorithmen eignet.

Ergänzendes zum Thema
Schwachpunkte im Kern von Hadoop
  • Echtzeitfähigkeit: Das Core Hadoop-System ist prinzipiell nicht in der Lage, Daten in Echtzeit auszuwerten und die Integration eines der zahlreichen Third-Party-Tools ist aufwendig.
  • Backup: Das Core Hadoop-System bietet nur rudimentäre Backup- und Disaster-Recovery-Funktionen.
  • Sicherheit: Bis Hadoop 2 hatten Anwender, die sich erfolgreich an einem Hadoop-Cluster anmelden konnten, auch Zugang zu sämtlichen dort gespeicherten Daten. Eine Verbesserung steht aber mit dem von Intel initiierten Rhino ins Haus, das hardwareunterstützte Verschlüsselung und Zweifaktor-Authentisierung einschließlich Single-Sign-on für die einzelnen Hadoop-Ressourcen implementiert. Aber auch Hadoop pur bietet mit der Version 2 (YARN) und dem Apache Knox-Projekt inzwischen entsprechende Sicherheitserweiterungen.
  • Aufwendige Installation und Administration: Das manuelle Aufsetzen und Verwalten eines Hadoop-Cluster ist sehr komplex und eine der Haupt-Daseinsberechtigungen für Hadoop-Distributionen, die zum Teil (Cloudera) Web-basierte Administrationswerkzeuge bieten.
  • Darüber hinaus ist eine Migration auf Hadoop 2 (YARN) ein zwar mögliches, aber ebenfalls komplexes Unterfangen.

Der Hauptaufgabenbereich liegt daher bei der in der Regel nachträglichen, dafür aber massiv-parallelen Verarbeiten von Daten beziehungsweise der Aggregation. Unter Aggregation versteht man in der Informatik entweder die Verbindung zwischen Daten oder Objekten oder den Prozess zum Gewinnen von Metadaten aus Daten.

Hadoop nutzt Standard-Hardware und skaliert

Diesen und weitere prinzipbedingte Schwachpunkte von Hadoop sollte man bei der Planung von Big-Data Projekten nicht aus dem Auge verlieren. Ein entscheidender Vorteil von Hadoop gegenüber auf traditionellen Datenbank-Technologieren basierenden Big-Data-Technologien besteht aber zweifelsohne in der Kostenbetrachtung.

Dass diese für Hadoop so immens positiv ausfällt, ergibt sich unmittelbar aus dem Prinzip der horizontalen Skalierung, denn jeder Hadoop-Cluster kann problemlos aus mehreren Tausend Servern bestehen, welche die bei Big Data anfallenden Datenmengen sicher und fehlertolerant verteilen. Dazu kommt bei Hadoop im Gegensatz zur vertikalen Skalierung (Scale Up) mit einzelnen teuren Spezial-Servern kostengünstige Commodity-Hardware etwa mit 86-/x64-CPUs von Intel oder AMD zum Einsatz.

Im Kern besteht das bei der Apache Foundation gehostete Hadoop-Projekt aus den beiden wesentlichen Kern-Komponenten, dem Hadoop Distributed File System (HDFS) und dem Hadoop MapReduce Framework. Der Algorithmus selbst wurde ursprünglich von Google entwickelt. Ersteres ist das Dateisystem, das ein verteiltes Speichern und Verwalten von Daten ermöglicht, MapReduce ist das Framework zum verteilten und parallelen Verarbeiten der gespeicherten Daten im HDFS. HDFS unterstützt dabei Dateisysteme mit mehreren 100 Millionen Dateien.

Das Hadoop Öko-System

Um diese beiden Kern-Komponenten (Core Hadoop) herum tummelt sich ein ganzes Öko-Systems an weiteren Komponenten, wie die von Yahoo entwickelten Scripting Engine „Apache Pig“, „Apache Hive“, eine auf dem MapReduce-Framework basierende Abstraktionsebene mit einer SQL-ähnliche Abfragesprache „HiveQL“, Weiterhin sind „Hortonworks HCatalog“ für das Metadaten-Management oder die NoSQL-Datenbank „Apache HBase“ zu nennen, welche immer dann zum Einsatz kommt, wenn die Batch-orientierte Arbeitsweise von Hadoop mit ihrer Optimierung auf das einmalige Speichern und mehrmalige Lesen der Daten dem Problem nicht angemessen ist, etwa wenn ein Manipulieren der Daten gewünscht ist oder bei sehr schreib intensiven Szenarien.

Aus dem Vergleich der Anbieter von Hadoop-Analyse-Werkzeugen ...
Aus dem Vergleich der Anbieter von Hadoop-Analyse-Werkzeugen ...
(Bild BARC)

Die SQL-ähnliche Abfragesprache HiveQL hingegen erlaubt das Ausführen von Abfragen oder ermöglicht Aggregationen und die Analyse der im HDFS gespeicherte Daten. Hive ist damit quasi die Data-Warehouse-Komponente des Hadoop-Frameworks.

Der Zoo

Das Ambari-Dashboard.
Das Ambari-Dashboard.
(Bild: Hortonworkd)
Darüber hinaus gibt es im Hadoop-Framework noch weitere mehr oder weniger unabhängige Komponenten wie „Apache ZooKeeper“, „Apache Oozie“, „Apache Scoop“, „Apache Flume“, „Apache Mahout“ oder „Apache Ambari“. ZooKeeper etwa kümmert sich um das Koordinieren der zahlreichen verteilten Prozesse, Oozie erlaubt das Erzeugen und Automatisieren von Prozessketten, Scoop hilft beim Im- und/oder Export großer Datenmengen aus relationalen Datenbanken und bei Mahoop handelt es sich um eine speziell für Hadoop entwickelte Bibliothek für Data Mining und Machine Learning. Erleichterung beim Installieren, Administrieren und Überwachen eines Hadoop-Cluster aus Tausenden Servern mit Hilfe eines Web-Interface verspricht zudem die quell-offene Hadoop-Komponente „Apache Ambari“, die inzwischen auch bei bei der Hadoop-Distribution von Hortonworks zum Einsatz kommt.

Hadoop kann inzwischen nicht nur relationale Datenbanken verwalten, sondern auch eine ganze Reihe von Spezial-Daten. So erlaubt etwa „Apache Flume“ das Sammeln und Aggregieren von Log-Daten.

Die Hadoop-Distributionen

Während das Hadoop-Kernsystem (Core Hadoop) nur aus dem HDFS und MapReduce besteht, meint man mit Hadoop im allgemeinen Sprachgebrauch das oben skizzierte Ökosystem von verwandten, zusammenhängende, aufeinander basierenden Einzel-Projekten. Deshalb ist die Bezeichnung Hadoop-Framework sehr treffend.

Bleiben nur zwei Distributoren zur Dsiposition?
Bleiben nur zwei Distributoren zur Dsiposition?
(Bild: Rolf Handke / pixelio.de)

Das Installieren und Betreiben eines Hadoop-Cluster ist allerdings eine sehr komplexe Angelegenheit, weil Hadoop weder irgendeine Hilfe bei der Installation, noch bei der Überwachung eines Hadoop-Clusters bietet. Außerdem ist es sehr aufwendig, einzelnen Komponenten des geschilderten Hadoop-Öko-Systems zu nutzen oder in eigene Projekte zu integrieren, da jede davon einzeln installiert und konfiguriert werden muss.

Ferner sind nicht alle Komponenten miteinander kompatibel, so dass Unternehmen eine gehörige Portion Know How benötigen, um die jeweils zueinander passenden Versionen der jeweiligen Hadoop-Komponenten zu bestimmen und zur Zusammenarbeit zu bewegen. Hadoop pur eignet sich daher nur für hoch spezialisierte Fachleute oder Entwickler.

Hadoop-Distribution wie die oben genannten sind dagegen aufeinander abgestimmte Suiten aus der Hadoop-Basis-Software und weiteren Hadoop-Komponenten, zusätzlichen Tools und zum Teil herstellerspezifischen Erweiterungen. Eine Hadoop-Distribution lässt sich als integriertes Softwarepaket daher in der Regel einfacher konfigurieren und in Betrieb nehmen, als das quelloffene Hadoop-Core-System. Zudem bieten Hadoop-Distributionen den für viele Unternehmen unerlässlichen Hersteller-Support. Darüber hinaus gibt es noch die so genannten Big-Data-Suiten. Diese beruhen nur zum Teil auf Core-Hadoop, kombiniert mit eigenen Frameworks und enthalten im Gegensatz zu den Hadoop-Distributionen auch Werkzeuge für die Echtzeitanalyse, sowie Tools zur Datenmodellierung und Visualisierung.

Der Autor:

Thomas Driilling ist freier Autor und bloggt auf Datacenter-Insider: Drillings Open-Source-Eck

Artikelfiles und Artikellinks

Link: Hortonworks

Link: Cloudera

Link: MapR

(ID:42695649)