MapReduce und Java zur Datenverarbeitung nutzen

So funktioniert Apache Hadoop

| Autor / Redakteur: Thomas Joos / Nico Litzel

Hadoop-Cluster auf Basis von Google MapReduce können Unternehmen auch in Amazon Web Services verwenden. Das erspart die Installation und Betrieb eigener Server.
Hadoop-Cluster auf Basis von Google MapReduce können Unternehmen auch in Amazon Web Services verwenden. Das erspart die Installation und Betrieb eigener Server. (Bild: VBM-Archiv)

Geht es im Unternehmen um die Verarbeitung großer Datenmengen, also den Umgang mit Big Data, kommen Verantwortliche kaum darum herum, sich mit Hadoop zu beschäftigen. In diesem Beitrag zeigen wir, um was es sich bei Hadoop handelt und was Verantwortliche wissen müssen.

Hadoop ist, einfach ausgedrückt, ein Programmiergerüst (Framework) auf Basis von Java und dem bekannten MapReduce-Algorithmus von Google. Durch die Apache-Lizenz steht das Produkt generell kostenlos zur Verfügung und wurde von Microsoft sogar in Microsoft Azure integriert. Hier trägt Hadoop die Bezeichnung HDInsight. Auch in den Amazon Web Services ist Hadoop dabei, doch dazu später mehr. Die Aufgabe von Hadoop ist es, sehr große Datenmengen – bis in den Petabye-Bereich hinein – effizient in Clustern zu verarbeiten und zu berechnen.

Was kann Hadoop?

Hadoop bietet den Vorteil, vollkommen kostenlos, auf Basis von Linux, Big-Data-Infrastrukturen im Unternehmen bereitzustellen und dabei enorm skalierbar zu sein. Durch die Notwendigkeit, auch extrem große Datenmengen verarbeiten zu können, lassen sich Cluster mit tausenden Knoten aufbauen. Die Entwickler nutzen in Hadoop hauptsächlich den MapReduce-Algorithmus von Google.

Bei dieser Technologie lassen sich riesige Datenmengen parallel auf zahlreichen Rechnern verarbeiten. Das funktioniert nach einem recht einfachen Prinzip: Hadoop teilt enorme Datenmengen in kleine Päckchen auf, die auf mehreren Clusterknoten parallel verarbeitet und später wieder zusammengeführt werden. Google nutzt MapReduce, um die enormen Datenmengen der Suchmaschine zu verarbeiten. Das bedeutet, dass es nahezu unmöglich ist, an die Grenze der Möglichkeiten von Hadoop zu stoßen.

Woraus besteht Hadoop?

Hadoop besteht immer aus einem mehr oder weniger großen Cluster. Ein Knoten übernimmt die Steuerung (NameNode), die anderen die Berechnungen (DataNodes). Die Clusterknoten werden durch die einzelnen Hadoop-Komponenten gesteuert und verwaltet.

Hadoop besteht aus mehreren Komponenten, die zusammenarbeiten. Grundlage ist „Hadoop Common“. Dieser Bereich stellt die Schnittstelle für alle anderen Bestandteile dar und verbindet Hadoop mit dem Dateisystem der Rechner. Außerdem enthält dieser Part die notwendigen Skripte und Bibliotheken für die Zusammenarbeit der Rechner im Cluster.

Ergänzendes zum Thema
 
Die wichtigsten Hadoop-Distributionen

Um die enormen Datenmengen zu speichern wird das „Hadoop Distributed File System“ (HDFS) genutzt. Dieses kann riesige Datenmengen und Dateien über mehrere Server hinweg speichern und bildet die Speicher-Grundlage für den Hadoop-Cluster. Dieser Teil ist vor allem dafür verantwortlich, dass die großen Datenmengen effizient auf den Clustern verteilt und gespeichert werden können. Nur wenige andere Dateisysteme, wie etwa IBMs General Parallel File System (GPFS), sind dazu in der Lage.

MapReduce

Der dritte wichtige Bestandteil ist die eigene Integration von MapReduce. Diese Funktion stellt den Rechenbereich zur Verarbeitung der Daten dar, die mit HDFS gespeichert und über die Skripte in Hadoop Common verarbeitet werden. MapReduce teilt große Datenmengen in kleinere Teile auf, verteilt diese auf die Server im Hadoop-Cluster und kann diese nach der Berechnung wieder zusammenführen. Basis ist HDFS, welches die Speicherung übernimmt. MapReduce sorgt für die Berechnung der Daten zwischen den Clusterknoten.

Inhalt des Artikels:

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 42928560 / Infrastruktur)