HA-HDFS in Hadoop 2.2.x und: Yahoo testet YARN

Hadoop sorgt nun auch für die Hochverfügbarkeit von Big Data

| Autor / Redakteur: Filipe Pereira Martins und Anna Kobylinska / Ulrike Ostler

Federation in HDFS2

Die horizontale Skalierung des Namensdienstes in Hadoop 2.2.x erfolgt durch die Partitionierung des Namensraums über mehrere unabhängige Namensknoten, die sogenannte Federation. Alle Namensknoten greifen unabhängig voneinander auf eine gemeinsame Sammlung von Datenknoten.

Da tanzt der Haddoop-Elefant - das HDFS-Logo
Da tanzt der Haddoop-Elefant - das HDFS-Logo (Bild: Apache.org)

Jeder dieser Datenknoten registriert sich bei allen Namensknoten des eigenen Cluster; er sendet an sie periodisch ein Herzschlag-Signal sowie Block-Berichte und kann von jedem der Namensknoten Befehle entgegen nehmen. Im Gegensatz dazu „reden“ die Namensknoten überhaupt nicht miteinander; jeder verwaltet nur seinen eigenen Ausschnitt des Namensraums. Beim Hinzufügen oder Entfernen von Namensknoten ist ein Neustart des gesamten Clusters fällig.

HDFS-Snapshots

Snapshots des HDFS-Dateisystems sind ebenfalls eine willkommene Neuerung. Bei HDFS-Snapshots handelt es sich um nicht-beschreibbare Kopien des Dateisystems, die seinen Zustand zu einem definierten Zeitpunkt erfassen (point-in-time copy). Was diesem Feature seinen Reiz verleiht, ist die äußerst gelungene Implementierung.

Ein HDFS-Snapshot entsteht momentan, denn es werden dabei keine DataNodes kopiert. Das Snapshot erfasst lediglich die Liste aller Datenblöcke und die Größe der Dateien. Der Vorgang hat keinen negativen Effekt auf sonstige I/O-Operationen und benötigt in der Regel auch keinen zusätzlichen Arbeitsspeicher (außer wenn das Dateisystem gleichzeitig Schreibzugriffe umsetzt).

Ergänzendes zum Thema

Super-User können ...

Änderungen werden in umgekehrter chronologischer Reihenfolge aufgezeichnet, sodass auf die aktuellen Daten direkt zugegriffen werden kann. Der Zustand der Daten für ein Snapshot errechnet HDFS2 durch die Subtraktion betreffender Änderungen von dem aktuellen Zustand des Dateisystems.

Um Snapshots zu erlauben, kommt der folgende Befehl mit Berechtigungen des Super-User zum Einsatz:

hdfs dfsadmin -allowSnapshot <Pfad-zum-snapshotbaren-Verzeichnis>

Der betreffende Verzeichnisbaum lässt sich dann mit den Benutzerrechten des betreffenden Besitzers in einem Snapshot zum Beispiel wie folgt erfassen:

hdfs dfs -createSnapshot <Pfad-zum-snapshotbaren-Verzeichnis> [<snapshotName>]

Alternativ können Admins das Java-API nutzen.

Um den Pfad zu Snapshots zu kennzeichnen, wurde der Objektname .snapshot reserviert. Sollte in dem HDFS-Dateisystem Ihrer bestehenden Hadoop-1.x-Installation diese Zeichenkette vorkommen, müssen sie die betreffenden Objekte vor dem Upgrade unbedingt umbenennen.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 42544712 / Infrastruktur)