Suchen

Hadoop-Cluster erstellen, verwalten und überwachen So steuern Sie Big Data effizient mit Apachi Ambari

| Autor / Redakteur: Thomas Joos / Nico Litzel

Hadoop-Cluster sind in den meisten Fällen recht große Konstruktionen, die mit Standardbordmitteln nur schwer zu installieren, zu verwalten und zu überwachen sind. Hortonworks hat in seiner Data Platform daher Apache Ambari integriert. Mit dieser Lösung lassen sich Cluster verwalten, überwachen und auch bereitstellen. Ambari lässt sich aber auch in andere Hadoop-Distributionen einbinden.

Firmen zum Thema

Mit Ambari können Administratoren auf Basis einer webbasierten Oberfläche einen Hadoop-Cluster einrichten.
Mit Ambari können Administratoren auf Basis einer webbasierten Oberfläche einen Hadoop-Cluster einrichten.
(Bild: The Apache Software Foundation)

Gerade bei der Verarbeitung großer Datenmengen im Big-Data-Umfeld spielt die Sicherheit eine wichtige Rolle. Und gerade hier ist es sinnvoll, auf Lösungen wie Ambari zu setzen, um den eigenen Cluster immer unter Kontrolle zu haben.

Ambari bietet eine grafische Oberfläche zur Installation von Hadoop-Clustern und kann jederzeit beim Hinzufügen weiterer Knoten und Prozesse helfen. Neben der einfachen Überwachung von Clustern lassen sich auch die Anwendungen, Abfragen und deren Auslastung auslesen. Dazu kommt die parallele Anbindung an Oozie, Zookeeper und Hive. Sehr wichtig in diesem Zusammenhang ist auch, dass Ambari Administratoren bei Fehlern in einzelnen Jobs oder des ganzen Servers informiert.

Bildergalerie

Umfangreiche Hilfe

Mit Apachi Ambari können Administratoren schon bereits bei der Erstellung eines Hadoop-Clusters arbeiten um diesen so sicher und effizient wie möglich zu erstellen. Dazu unterstützt Ambari mit Assistenten bei der Erstellung. Die webbasierte GUI führt Administratoren durch die Erstellung des Hadoop-Clusters.

Die Installation von Ambari erfolgt auf einem Linux-Server. Dazu muss die jeweilige 64-Bit-Version des Betriebssystems eingesetzt werden. Aktuell unterstützt Ambari die folgenden Betriebssysteme:

  • RHEL (Red Hat Enterprise Linux) 5 und 6
  • CentOS 5 und 6
  • OEL (Oracle Enterprise Linux) 5 and 6
  • SLES (SuSE Linux Enterprise Server) 11
  • Ubuntu 12

Grundsätzlich bietet sich hier auch die Zusammenarbeit mit dem Red Hat Storage Server an. Dieser lässt sich an Hadoop-Umgebungen anbinden und ebenfalls mit Ambari überwachen. Dazu hat Red Hat die Unterstützung von Hadoop direkt in den Server integriert. Das ermöglicht das Ablaufen von Workloads aus Hadoop heraus auf dem Storage Server und die Überwachung der Workloads mit Ambari. Die Produkte arbeiten also eng miteinander zusammen.

Ambari lässt sich auch virtualisieren. Für Testumgebungen können Administratoren hier auch auf Virtualbox setzen. Wie dabei vorgegangen wird, erklären die Entwickler in einem Quick Start Guide.

Nachdem ein Cluster erstellt wurde, lässt sich dieser mit Ambari konfigurieren und nach der Konfiguration auch überwachen. Administratoren können über Ambari alle Dienste und Prozesse auf allen angebundenen Clusterknoten in Hadoop starten, stoppen und deren Status überwachen. Dazu stellt Ambari auch ein Webbasiertes Dashboard für die Verwaltung zur Verfügung.

Ambari verfügt auch über APIs, mit denen Entwickler eigene Überwachungsfunktionen in ihre Anwendungen integrieren und an Ambari anbinden können. Mehr zu den APIs ist auf GitHub zu finden. Die Kommunikation mit Ambari erfolgt über ein Webinterface. Mit diesem wird der Ambari-Server gesteuert, die angebundenen Hadoop-Clusterknoten.

Überwachen von Hadoop-Clustern in HDInsight mit der Ambari API

Neben selbst erstellten Clustern, lassen sich mit Ambari auch Cloud-basierte Hadoop-Cluster überwachen, auch in Microsoft Azure. Dazu hat Microsoft die Möglichkeit integriert HDInsight, die Hadoop-Lösung in Azure, mit Ambari zu verbinden. Allerdings lassen sich derzeit nur die Überwachungsfunktionen von Ambari in HDInsight integrieren.

Microsoft hat dazu auch ein Beispielskript zur Verfügung gestellt sowie eine Anleitung, wie Ambari in HDInsight integriert werden kann. Die Einrichtung von Ambari mit der Hortonworks Data Platform können Administratoren mit einem Get Started Guide verfolgen.

Auch in Amazon Web Services (AWS) lassen sich virtuelle Server mit Ambari integrieren. Dazu müssen Administratoren in der Virtualisierungsumgebung (EC2) von AWS eine VM erstellen und mit Linux installieren. Auf dieser wird Ambari installiert und mit dem Hadoop-Cluster verbunden.

Fazit: Zookeeper, Chukwa und Ambari

Zwar gibt es auch noch Apache Zookeeper in diesem Bereich, allerdings kann diese Anwendung wiederum keine Überwachung bieten. Hier ist Ambari klar überlegen. Wer auf der anderen Seite keine Überwachungs- und Installations-Lösung für Hadoop-Cluster sucht, kann auch auf Zookeeper setzen, da hier die Verwaltung des Clusters im Vordergrund steht.

In vielen Umgebungen wird noch Apache Chukwa zur Überwachung eingesetzt, allerdings bietet hier Ambari wesentlichen Mehrwert, da Chukwa nicht mehr so umfassend weiter entwickelt wird.

(ID:43430013)