Suchen

Echtzeitanalyse von Daten in Hadoop-Clustern Apache Spark 1.4 geht an den Start

| Autor / Redakteur: Dipl. -Ing. Thomas Drilling / Nico Litzel

Databricks, das Unternehmen hinter Spark, hat Version 1.4 des quelloffenen In-Memory-Frameworks zur Analyse von Daten in Echtzeit fertiggestellt.

Firmen zum Thema

Apache Spark 1.4 bietet jetzt eine Integration von SparkR.
Apache Spark 1.4 bietet jetzt eine Integration von SparkR.
(Apache Spark)

Apache Spark ist ein Open Source Big Data Framework, das ausschließlich auf In-Memory-Verarbeitung setzt und seit Erreichen des Top-Level-Status der Apache Software Foundation im Februar vergangenen Jahres bei Entwicklern auf große Zustimmung stößt.

In Version 1.4 bekommt Spark zudem mit IBM einen weiteren prominenten Fürsprecher, denn Big Blue hat seine Machine Learning Software „SystemML“ der Spark-Community zur Verfügung gestellt.

Diese Neuerungen bringt Spark 1.4

Die wichtigste Neuerung in Spark 1.4 ist allerdings die Integration von SparkR. R ist eine populäre, auf Statistik spezialisierte Programmiersprache mit Erweiterungen für die Datenverarbeitung und für maschinelles Lernen. Mit SparkR steht ein R-Frontend für Apache Spark zur Verfügung, das es Entwicklern ermöglicht, hochskalierbare Datenanalysen von der R-Shell aus anzustoßen. SparkR ist damit auch das erste neue Sprach-API seit der Integration von PySpark in das Big Data Framework im Jahr 2012.

Das API setzt auf das mit Spark 1.3 überarbeitete DataFrames-API auf. DataFrames sind eine Weiterentwicklung des RDD-Modells von Spark und nutzen den logischen Optimierer von Spark SQL zum Planen der physischen Ausführung von Operationen, damit diese auch bei großen Datensätzen gut funktionieren.

Darüber hinaus stellt die neue Version Streaming- und Core-Visualisierungs- sowie Monitoring-Komponenten für eine leistungsfähigere Fehlersuche zur Verfügung. Ferner haben in Spark 1.4 die mit Spark 1.3 als Preview eingeführten Machine Learning Pipelines, welche die Produktionsabläufe durch maschinelles Lernen mit einem eigenen API vereinfachen sollen, jetzt nicht mehr Alpha-Status. Weitere Neuerungen lassen sich der Veröffentlichungsankündigung entnehmen.

Spark wird immer beliebter

Einer Ende Januar von Typesafe durchgeführten Umfrage zufolge wird das Spark-Framework immer populärer, was auch auf andere Projekte abfärbt. So hat etwa MapR gerade gleich drei neue Erweiterungen zur Integration seiner MapR-Hadoop-Distribution mit Spark veröffentlicht. Darüber hinaus hat auch IBM mehrere Initiativen rund um Spark angekündigt.

(ID:43475804)

Über den Autor

Dipl. -Ing. Thomas Drilling

Dipl. -Ing. Thomas Drilling

IT-Consultant, Trainer, Freier Journalist