MapReduce und Java zur Datenverarbeitung nutzen

So funktioniert Apache Hadoop

Seite: 2/2

Anbieter zum Thema

Um einen Hadoop-Cluster aufzubauen, ist keine besondere Hardware notwendig. Administratoren können mit Standard-Rechnern den Cluster erstellen, Basis ist Linux. Allerdings sollten die Rechner über genügend Kapazität verfügen, um die Datenpakete von MapReduce berechnen zu können.

Ein interessanter Einstieg in Hadoop kann auch über Microsoft Azure und den HDInsight-Dienst erfolgen. Diesen können Administratoren kostenlos einen Monat testen. Vorteil dabei ist, dass kein eigener Cluster aufgebaut werden muss und alle Serverdienste und Berechnungen in der Cloud durchgeführt werden.

Was kostet Hadoop?

Hadoop steht über die Apache-Lizenz vollkommen kostenlos zur Verfügung. Es sind keine zusätzlichen Lizenzen notwendig. Als Basisbetriebssystem bietet sich Linux an, welches in den meisten Distributionen ebenfalls kostenlos zur Verfügung steht.

Große Softwarehersteller wie IBM, Oracle und EMC bieten, genau wie Microsoft, eigene Serverdienste an, die auf Hadoop aufbauen und das Produkt noch erweitern. Amazon bietet in AWS ebenfalls einen Hadoop-Cluster an. Dieser trägt die Bezeichnung „Elastic MapReduce“. Die Daten dieses Dienstes lassen sich in der AWS-Cloud in Simple Storage Services (S3) speichern.

Sobald Administratoren einen Hadoop-Cluster in AWS erstellen, lassen sich auch die Daten im dazu gehörigen Cloud-Speicher ablegen. Die Einrichtung erfolgt auf Basis eines Assistenten, Linux-Know-how ist beim Einsatz von Hadoop in AWS also nicht notwendig. In Amazon Web Services wird die Apache Hadoop-Version verwendet, die allerdings für die Verarbeitung in AWS optimiert wurde. Zur Auswahl stehen aber auch andere Distributionen von Hadoop, zum Beispiel MapR in verschiedenen Versionen. Diese Distribution lässt sich auch ohne AWS nutzen.

MapR ist eine Drittanbieter-Distribution von Hadoop. MapR unterstützt das Network File System (NFS) und Open Database Connectivity (ODBC). Außerdem ist die Distribution sehr robust und kann defekte Knoten zuverlässig reparieren. Zusätzlich lassen sich sehr große Datenmengen auch zwischen Clustern spiegeln, nicht nur zwischen einzelnen Knoten. In AWS sind verschiedene Editionen von MapR verfügbar.

Hadoop erweitern

Die beschriebenen Komponenten, Hadoop Common, HDFS und MapReduce, werden häufig auch als „Hadoop Core“ bezeichnet, da hier die Grundkomponenten zusammengefasst werden. Unternehmen, die mehr Möglichkeiten brauchen, zum Beispiel effiziente Abfragen benötigen oder In-Memory-Datenbanken verwenden wollen, finden auf dem Markt zahlreiche Zusatzprojekte, die auf Hadoop aufbauen.

Beispiele dafür sind Hadoop YARN und Apache Hive. Auch Apache Spark spielt in diesem Zusammenhang eine wichtige Rolle. Alle diese Projekte ergänzen Hadoop um weitere Funktionen und erweitern die Funktionen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

(ID:42928560)