Neue Version des Big Data Frameworks Apache Software Foundation veröffentlicht Hadoop 2.7
Anbieter zum Thema
Mit Hadoop 2.7 ist das nunmehr siebte Update nach der offiziellen Freigabe der Hadoop-2-Architektur und gleichzeitig die erste große Hauptversion des Big Data Frameworks in diesem Jahr erschienen. Laut Angabe der Entwickler wurden in der aktuellen Version über 500 Fehler behoben.

Seit Erscheinen von Hadoop 2.0 reduziert sich Hadoop nicht mehr nur auf MapReduce. Die Verarbeitung von Graphen, In-Memory-Objekten oder klassischen Tabellen sind nur einige der Möglichkeiten der neuen YARN-Architektur.
YARN + HDFS = Hadoop 2
Die „Älteren“ unter den Big-Data-Nutzern erinnern sich: Hadoop 1.x bestand im Wesentlichen aus MapReduce und dem HDFS-Dateisystem als redundanten, verteilten Storage, wobei MapReduce gleichermaßen für das Cluster-Ressourcen-Management und für das eigentliche Data Processing zuständig war – hier aber nur per MapReduce-Algorithmus.
Mit Hadoop 2 (YARN) kommt YARN (Yet Another Ressource Negotiator) die Rolle des Cluster-Ressource-Managers zu, der Ressourcen im HDFS-Cluster auf sämtliche „Bewohner“ (Worker) verteilt. Allerdings ist die „Bevölkerungszusammensetzung“ in einem Hadoop-Cluster seit Hadoop 2.0 wesentlich multikultureller: MapReduce ist hier nur noch eine optionale „Gattung“ im Hadoop-Zoo und zwar im Bereich der Execution Engines und bei Weitem nicht mehr die wichtigste. Apache Tez und vor allem Apache Spark (als In-Memory Engine) gewinnen zunehmend an Bedeutung. Dazu gesellen sich Spezialisten für NoSQL (HBase), Stream-Processing (Storm) oder In-Memory Streaming (Flink).
Neuerungen in Hadoop 2.7
Was YARN selbst betrifft, so unterstützt die neue Version 2.7 der in Java geschriebenen Kernkomponente des Big Data Frameworks ab sofort kein JDK 6 mehr und setzt nun mindestens eine JDK7-Laufzeitumgebung oder höher voraus. Hadoop 2.7 ist zudem noch nicht für den Produktionseinsatz freigegeben, allerdings soll die erste stabile Version des 2.7.x-Zweiges in Kürze folgen.
Neuerungen beim Hadoop File System (HDFS) selbst finden sich beispielsweise in Form neuer Lese-/Schreibszenarios in Folge der Unterstützung von Dateien mit Blöcken variabler Länge. Ferner haben die Entwickler die YARN-Engine unter anderem um einer Funktion für ein automatisch geteiltes, globale Caching lokalisierter Ressourcen erweitert. Das Feature hat allerdings derzeit noch im Beta-Status. Darüber hinaus wurden Verwaltung und Überwachung des NFS Gateway Server erweitert.
Neuerungen in MapReduce
Aber auch an MapReduce haben die Entwickler weiter gearbeitet und den Algorithmus mit neuen Möglichkeiten ausgestattet. So lässt sich ab sofort die Größe eines laufenden MapReduce-Jobs begrenzen. Das geschieht in der Form, dass sich die maximale Anzahl gleichzeitig laufenden Tasks festlegen lässt. Ferner hat der FileOutputCommitter viele Verbesserungen erfahren, sodass mit sehr vielen Ausgabedateien arbeitende Hive-, Pig- und MapReduce-Jobs beschleunigt werden.
Neben einer kompakten Zusammenfassung findet sich eine vollständige Übersicht sämtlicher Neuerungen in der Veröffentlichungsmitteilung. Mehr Details zu HDFS können der Dokumentation entnommen werden. Hadoop 2.7 steht ab sofort auf der Projektseite zum Herunterladen zur Verfügung. Die Quellen sind via Git verfügbar.
(ID:43348761)