Suchen

Apache Spark wird zunehmend populärer Geschwindigkeit ist Trumpf

Autor / Redakteur: Dipl. -Ing. Thomas Drilling / Nico Litzel

Bei den meisten heutzutage als Big-Data-Problem klassifizierten Anwendungen geht es primär eher um Geschwindigkeit, als um die bloße Datenmenge. Geht es aber um schiere Performance und Echtzeitfähigkeit, läuft Apache Spark einer Studie zur Folge Hadoop künftig den Rang ab.

Firmen zum Thema

Spark ist ein Open-Source Framework, das es Hadoop erlaubt, den MapReduce-Algorithmus nicht nur im Batch-Modus auf Festplattenbasis zu verwenden.
Spark ist ein Open-Source Framework, das es Hadoop erlaubt, den MapReduce-Algorithmus nicht nur im Batch-Modus auf Festplattenbasis zu verwenden.
(Bild: The Apache Software Foundation)

Jonas Bonér, CTO der Firma Typesafe, sagt anlässlich einer jetzt von Typesafe veröffentlichten, aber wenig repräsentativen Umfrage zur Verbreitung des Cluster-Computing-Frameworks Apache Spark: „Wer schnelle Daten will, muss das Geschwindigkeitsproblem lösen, nicht das der Datenmenge.“

Unerwartetes Ergebnis

Typesafe ist ein von Martin Odersky (heute Chairman von Typesafe), dem Erfinder der Programmiersprache Scala, und Jonas Bonér, dem Entwickler der Akka Middleware, in Kalifornien gegründetes Unternehmen. Typesafe bietet Training, Consulting und kommerziellen Support für Scala und die Akka-Plattform.

Die aktuelle Umfrage geht auf eine ebenfalls von Typesafe im Sommer letzten Jahres durchgefragte Umfrage zur Verwendung von Java 8 zurück. Dabei kam unerwartet und sozusagen als Abfallprodukt heraus, dass über 3.000 der befragten Entwickler (17 Prozent) bereits mit Apache Spark arbeiteten. Angesichts dieses „unerwarteten Goldfundes“ in der Java-Studie entschloss sich Typesafe dann in Bezug auf Apache Spark, doch noch etwas tiefer zu bohren, mit dem Ergebnis der jetzt veröffentlichten Studie.

82 Prozent nutzen Spark statt Map Reduce

Unter den Befragten waren mehr als 74 Prozent Entwickler. Zu den Top-3-Industriezweigen, die sich an der Umfrage beteiligten, gehörten Banken, die Telekommunikationsbranche und der Retail-Sektor. Die populärsten im Zusammenhang mit Spark genutzten Programmiersprachen waren Scala, Java und Phython. Mittlerweile sei der Anteil derjenigen, die Spark produktiv gerade evaluieren, auf 31 Prozent angestiegen, 20 Prozent planten den Einstieg in diesem Jahr und 13 Prozent nutzen Spark bereits produktiv. Von diesen setzen wiederum 82 Prozent Spark anstelle von MapReduce ein. 78 Prozent der befragten Unternehmen und Entwickler taten das, weil sie eine schnellere Verarbeitungsgeschwindigkeit benötigten und 67 Prozent planten bereits jetzt, Event-Stream-Processing einzuführen.

Ebenfalls interessant: 62 Prozent laden Ihren Daten via HDFS in das Spark-Framework, während sogar 54 Prozent Spark als Standalone-Anwendung nutzten.

Apache Spark

Spark ist ein Open-Source-Framework, das es Hadoop erlaubt, den MapReduce-Algorithmus nicht nur im Batch-Modus auf Festplattenbasis zu verwenden. Mit Spark wird eine YARN-Umgebung zu einem vollständig interaktiven, verteilten In-Memory Framework. Anwendungen laufen unter Spark im Speicher bis zu 100-mal schneller als mit Hadoop MapReduce und mit Festplatten immer noch zehnmal schneller, sozusagen eine Hadoop-Echtzeit-Engine.

(ID:43179859)

Über den Autor

Dipl. -Ing. Thomas Drilling

Dipl. -Ing. Thomas Drilling

IT-Consultant, Trainer, Freier Journalist