Suchen

Neue APIs und Data-Science-Funktionen Apache Spark 1.6 geht an den Start

| Autor / Redakteur: Dipl. -Ing. Thomas Drilling / Nico Litzel

Nach der bereits Ende 2015 veröffentlichten Beta-Version von Apache Spark 1.6 steht nun auch die finale Version mit über 1.000 Änderungen offiziell zum Download bereit. Die wichtigsten Neuerungen sind: Verbesserungen bei der Performance, erweiterte Data-Science-Funktionen und ein neues Dataset-API.

Firma zum Thema

Apache Spark 1.6 noch performanter.
Apache Spark 1.6 noch performanter.
(Bild: Apache Software Foundation)

Databricks, das Unternehmen hinter Apache Spark, weist auf die offizielle Verfügbarkeit des In-Memory Frameworks hin. Wieder einmal stehen weitere Performance-Verbesserungen in Fokus des Hadoop-Boosters, der inzwischen bei vielen Big-Data-Anwendungen ganz ohne HDFS auskommt.

Bessere Performance

So gehört bekanntlich Parquet zu den am meisten verwendeten Datenformaten in Apache Spark. Und da nach Ansicht der Databricks-Entwickler die Scan-Performance erheblichen Einfluss auf große Anwendungen hat, bekam Spark 1.6 einen neuen Parquet-Reader spendiert. Dieser soll für Performance-Verbesserungen von bis zu 50 Prozent sorgen.

Ferner haben die Entwickler das State Management API in Spark Streaming überarbeitet, denn die Zustandsverwaltung ist ein für Streaming-Anwendungen sehr wichtiges Feature. Dazu wurde mit mapWithState ein neues API eingeführt, welches mit der Anzahl der Updates linear skaliert, was wiederum die Zustandsverwaltung um den Faktor 10 beschleunigen soll.

Darüber hinaus bringt Spark 1.6 eine neue Speicherverwaltung mit. Während Spark den verfügbaren Speicher in der Vorgängerversion in Ausführungsspeicher (Sorting, Hashing, Shuffling) und Cache-Speicher (Zwischenspeicher für Hot Data) aufteilte und vom Spark-Administrator vorab entsprechende Konfigurationsentscheidungen verlangte, sorgt die neue Speicherverwaltung in Version 1.6 automatisch dafür, dass sich die Speicheraufteilung immer nach den Bedürfnissen der laufenden Anwendung richtet. Dadurch steigt nach Aussage der Databricks-Entwickler der nutzbare Speicher für eine große Anzahl von Anwendungen deutlich.

Data-Science-Funktionen

Die neuen Data-Science-Funktionen bestehen im Wesentlichen aus dem ML-Pipline-Feature für Machine-Learning-Pipelines und vielen neue Algorithmen für maschinelles Lernen. Die ML-Pipline-Funktionen können Machine-Learning-Anwendungen zum Erstellen von Lern-Pipelines verwenden. Das neue API versetzt Anwender in die Lage, Pipelines laden und speichern zu können, bzw. zu einem früheren Zeitpunkt erstellte Modelle auf neue Daten anzuwenden. Bei der Vorgängerversion war für das externe Speichern von Pipelines benutzerdefinierter Code erforderlich.

Neues Dataset API

Das neue Dataset API für die Arbeit mit typisierten Objekten gehört ebenfalls zu den Schlüsselfunktionen von Spark 1.6. Es fungiert als Erweiterung der DataFrame API und soll laut Databricks die Vorteile von RDDs (Resilient Distributed Datasets) und Dataframes miteinander kombinieren. Das neue Dataset API stellt dazu zur Kompilierungszeit gleichermaßen die statische Typisierung und Nutzerfunktionen von RDDs, wie die für DataFrames übliche Typprüfung bereit.

Artikelfiles und Artikellinks

(ID:43806104)

Über den Autor

Dipl. -Ing. Thomas Drilling

Dipl. -Ing. Thomas Drilling

IT-Consultant, Trainer, Freier Journalist