HA-HDFS in Hadoop 2.2.x und: Yahoo testet YARN

Hadoop sorgt nun auch für die Hochverfügbarkeit von Big Data

| Autor / Redakteur: Filipe Pereira Martins und Anna Kobylinska / Ulrike Ostler

Die Architektur von Hadoop 2x

Die Modularisierung der Hadoop-Engine in der 2. Generation des Frameworks hat weitreichende Implikationen für die Zukunft der Plattform. Sie soll es Entwicklern ermöglichen, das Hadoop-Ökosystem um nützliche Plug-ins zu erweitern.

Als optionalen Ersatz für „MapReduce“ wurde „YARN“ (Yet Another Resource Negotiator) aka MapReduce Version 2 (kurz: MRv2) eingeführt. YARN setzt direkt auf HDFS auf und übernimmt die Rolle eines verteilten Betriebssystems zur Ressourcenverwaltung für Big Data-Applikationen. Dank YARN können Anwender mit Hadoop 2.2.x interaktive Workloads, Echtzeit-Workloads und automatisierte Workloads ineinander verweben.

YARN ist rückwärtskompatibel zu MapReduce auf der API-Ebene (hadoop-0.20.205) und verbessert die Kompatibilität von Hadoop mit anderen Projekten der Apache Software Foundation. Das „alte“ MapReduce lässt sich jetzt als ein Modul laden. Das sollte allerdings nicht nötig sein, denn MapReduce-Applikationen sind binärkompatibel zwischen beiden Generationen von Hadoop. (siehe auch: Vergleich der Hadoop-Distributionen von MapR Technologies)

Namen und Daten in getrennten Nodes

HDFS sieht zwei obligatorische Typen von Servern, sogenannte Cluster-Knoten (Clusternodes), vor: Namensknoten (NameNodes) und Datenknoten (DataNodes). Die Namensknoten verwalten die Medataden des Clusters; die Datenknoten zeichnen für die Aufbewahrung der Daten verantwortlich.

Jede Datei und jedes Verzeichnis haben jeweils eine Entsprechung auf dem zugehörigen Namensknoten in Form von „inodes“; diese speichern Attribute der betreffenden Objekte wie die Zugriffsrechte, das Erstellungs- und Änderungsdatum und Speicherkontingente. Die eigentlichen Daten werden in Datenblöcke aufgeteilt und über mehrere Datenknoten repliziert gesichert.

Ergänzendes zum Thema

Über die Anzahl und Konsistenz der Kopien wacht der zugehörige Namensknoten. Sollte eine Kopie beschädigt werden, veranlasst der Namensknoten die Erstellung einer Replikation.

Der Hadoop 2.x-Stack mit Apache TEZ: Er ergibt sich eine Performance-Steigerung dank der Datenverarbeitung im Arbeitsspeicher des Cluster.
Der Hadoop 2.x-Stack mit Apache TEZ: Er ergibt sich eine Performance-Steigerung dank der Datenverarbeitung im Arbeitsspeicher des Cluster. (Bild: McKinley Denali Inc.)

Für jeden Knoten des Clusters (also eine einzelne Maschine) zeichnet sein eigener Node-Manager verantwortlich. Dieser überwacht die Verwendung der Ressourcen der Container und berichtet an den Resource-Manager/Scheduler, was auf dem jeweiligen Knoten gerade vor sich hin geht.

Die neue Architektur ermöglicht erhebliche Kosteneinsparungen. Yahoo schätzt die erzielten Verbesserungen der Node-Auslastung auf 60 bis 150 Prozent pro Tag. Yahoo testete YARN mit 365 Petabyte an Daten und 400.000 Jobs auf über 40.000 Cluster-Nodes mit einer Gesamtrechenzeit von 10 Millionen Stunden. Eine Hochverfügbarkeitsimplementierung des YARN ResourceManager ist allerdings für eine künftige Version geplant.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 42544712 / Infrastruktur)