Performance-Schub für In-Memory Framework Apache Spark 1.5 geht an den Start

Anbieter zum Thema

Das quelloffene In-Memory Framework Apache Spark wird in der jüngten Version dank „Project Tungsten“ erheblich schneller.

Spark 1.5 integriert Project Tungsten.
Spark 1.5 integriert Project Tungsten.
(Bild: Apache Software Foundation)

Eine wesentliche Geschwindigkeitsverbesserung in Spark 1.5 resultiert aus der Umgehung der Beschränkungen der Java Virtual Machine (JVM) durch die Integration von Projekt Tungsten. Viele Einschränkungen bei der Performance sind offenbar nur eine Folge der Garbage Collection und des Speichermanagementsysteme der JVM.

Tungsten umgeht JVM

Mit Tungsten dagegen, das ansatzweise schon in Spark 1.4 enthalten ist, schreiben die Entwickler zentrale Teile von Spark um. Das umgeht die bisherigen Flaschenhälse und stellt zusätzlich neue Funktionen bereit, so lässt sich etwa der Cache-Speicher direkt verwenden. Das soll die Datenverarbeitung mit Spark noch weiter beschleunigen können.

Weitere Performance-Verbesserungen in Spark 1.5 beziehen sich auf SQL-Operationen in DataFrames. Außerdem soll Spark 1.5 Cluster-Management-Systeme wie YARN oder Mesos besser unterstützen als in der Vorgängerversion. Damit eröffnen sich für Spark auch weitere Einsatzmöglichkeiten jenseits von Hadoop.

Spark boomt

Apache Spark ist seit Anfang 2014 ein-Toplevel-Projekt der Apache Software Foundation. Erst vor wenigen Wochen hatte Cloudera einen kommerziellen Support für das In-Memory Framework angekündigt. Seitdem geht es mit Spark steil bergauf.

Auch MapR integrierte Spark im April vergangenen Jahres in seine Hadoop-Distributionen und im Mai 2014 folgte diesem Schritt auch Pentaho mit der Pentaho-Data-Integration-Plattform (PDI). Auch DataStax, das Unternehmen hinter der NoSQL-Datenbank Cassandra, kooperiert mit Databricks, um Spark in naher Zukunft in Cassandra zu integrieren.

Und laut einer Typesafe-Studie Anfang 2015 setzen bereits 13 Prozent der befragten Entwickler und Unternehmen Spark produktiv ein.

Artikelfiles und Artikellinks

(ID:43600695)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung