Neue Version des Big Data Frameworks Apache Software Foundation veröffentlicht Hadoop 2.7

Anbieter zum Thema

Mit Hadoop 2.7 ist das nunmehr siebte Update nach der offiziellen Freigabe der Hadoop-2-Architektur und gleichzeitig die erste große Hauptversion des Big Data Frameworks in diesem Jahr erschienen. Laut Angabe der Entwickler wurden in der aktuellen Version über 500 Fehler behoben.

In Hadoop 2.7 wurden nach Angabe der Apache Software Foundation über 500 Probleme behoben.
In Hadoop 2.7 wurden nach Angabe der Apache Software Foundation über 500 Probleme behoben.
(Bild: Apache Software Foundation)

Seit Erscheinen von Hadoop 2.0 reduziert sich Hadoop nicht mehr nur auf MapReduce. Die Verarbeitung von Graphen, In-Memory-Objekten oder klassischen Tabellen sind nur einige der Möglichkeiten der neuen YARN-Architektur.

YARN + HDFS = Hadoop 2

Die „Älteren“ unter den Big-Data-Nutzern erinnern sich: Hadoop 1.x bestand im Wesentlichen aus MapReduce und dem HDFS-Dateisystem als redundanten, verteilten Storage, wobei MapReduce gleichermaßen für das Cluster-Ressourcen-Management und für das eigentliche Data Processing zuständig war – hier aber nur per MapReduce-Algorithmus.

Mit Hadoop 2 (YARN) kommt YARN (Yet Another Ressource Negotiator) die Rolle des Cluster-Ressource-Managers zu, der Ressourcen im HDFS-Cluster auf sämtliche „Bewohner“ (Worker) verteilt. Allerdings ist die „Bevölkerungszusammensetzung“ in einem Hadoop-Cluster seit Hadoop 2.0 wesentlich multikultureller: MapReduce ist hier nur noch eine optionale „Gattung“ im Hadoop-Zoo und zwar im Bereich der Execution Engines und bei Weitem nicht mehr die wichtigste. Apache Tez und vor allem Apache Spark (als In-Memory Engine) gewinnen zunehmend an Bedeutung. Dazu gesellen sich Spezialisten für NoSQL (HBase), Stream-Processing (Storm) oder In-Memory Streaming (Flink).

Neuerungen in Hadoop 2.7

Was YARN selbst betrifft, so unterstützt die neue Version 2.7 der in Java geschriebenen Kernkomponente des Big Data Frameworks ab sofort kein JDK 6 mehr und setzt nun mindestens eine JDK7-Laufzeitumgebung oder höher voraus. Hadoop 2.7 ist zudem noch nicht für den Produktionseinsatz freigegeben, allerdings soll die erste stabile Version des 2.7.x-Zweiges in Kürze folgen.

Neuerungen beim Hadoop File System (HDFS) selbst finden sich beispielsweise in Form neuer Lese-/Schreibszenarios in Folge der Unterstützung von Dateien mit Blöcken variabler Länge. Ferner haben die Entwickler die YARN-Engine unter anderem um einer Funktion für ein automatisch geteiltes, globale Caching lokalisierter Ressourcen erweitert. Das Feature hat allerdings derzeit noch im Beta-Status. Darüber hinaus wurden Verwaltung und Überwachung des NFS Gateway Server erweitert.

Neuerungen in MapReduce

Aber auch an MapReduce haben die Entwickler weiter gearbeitet und den Algorithmus mit neuen Möglichkeiten ausgestattet. So lässt sich ab sofort die Größe eines laufenden MapReduce-Jobs begrenzen. Das geschieht in der Form, dass sich die maximale Anzahl gleichzeitig laufenden Tasks festlegen lässt. Ferner hat der FileOutputCommitter viele Verbesserungen erfahren, sodass mit sehr vielen Ausgabedateien arbeitende Hive-, Pig- und MapReduce-Jobs beschleunigt werden.

Neben einer kompakten Zusammenfassung findet sich eine vollständige Übersicht sämtlicher Neuerungen in der Veröffentlichungsmitteilung. Mehr Details zu HDFS können der Dokumentation entnommen werden. Hadoop 2.7 steht ab sofort auf der Projektseite zum Herunterladen zur Verfügung. Die Quellen sind via Git verfügbar.

(ID:43348761)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung