Suchen

Machine Learning Yahoo TensorFlowOnSpark wird Open Source

| Autor / Redakteur: Dipl. -Ing. Thomas Drilling / Nico Litzel

Yahoo hat den Quellcode für TensorFlowOnSpark unter eine Open-Source-Lizenz gestellt. TensorFlowOnSpark schlägt eine Brücke zwischen den Machine-Learning-Fähigkeiten von TensorFlow und Apache Spark.

Firmen zum Thema

Brücke zwischen Google TensorFlow und Hadoop
Brücke zwischen Google TensorFlow und Hadoop
(Bild: Yahoo)

Googles Machine-Learning-Framework TensorFlow wird zunehmen beliebter und hat in diesen Tagen den Release-Stand 1.0 erreicht.

Schon in der Vorgängerversion erhielt TensorFlow Unterstützung für verteiltes Deep Learning sowie für das Hadoop Distributed File System (HDFS). Allerdings war es bisher nicht ohne großen Aufwand möglich, TensorFlow-Anwendungen auf vorhandenen Big-Data-Clustern auszuführen.

Immerhin verfügt die in diesen Tagen erschienene Version 1.0 von TensorFlow erstmals über eine Java-API, was die Ansteuerung und Nutzung außerhalb des Google-Universums einfacher machen dürfte.

Aufgrund der Beliebtheit von TensorFlow sind daher auch schon vor Version 1.0 eine Reihe von Community-Projekten entstanden, die sich der Ausführung von TensorFlow-Anwendungen außerhalb von Google widmen. SparkNet beispielsweise erlaubt das Starten von TensorFlow-Netzwerken via Spark Executor. Tensorframes hingegen widmet sich dem Bearbeiten von Spark DataFrames mithilfe von TensorFlow-Apps.

Yahoo TensorFlowOnSpark

Ferner hatte auch Yahoo im vergangenen Jahr mit CaffeOnSpark ein Projekt als Open Source verfügbar gemacht, das die Machine-Learning-Fähigkeiten von Caffe mit Apache Spark verbindet. Das Gleiche soll nun TensorFlowOnSpark für Google TensorFlow ermöglichen.

TensorFlowOnSpark erlaubt ein verteiltes Ausführen von TensorFlow auf Spark- und Hadoop-Clustern. Das gewählte Design ermöglicht es zudem, dass SparkSQL, MLlib und andere Spark Libraries in einer einzigen Pipeline zusammenarbeiten. Das Projekt unterstützt sämtliche Arten von TensorFlow-Programmen und erlaubt synchrone und asynchrone Trainings gleichermaßen. Darüber hinaus lassen sich mit TensorFlowOnSpark auch Tools wie TensorBoard in Spark Clustern verwenden.

Laut Aussage von Yahoo soll sich das Umstellen von TensorFlow-Programmen auf TensorFlowOnSpark mit weniger als zehn modifizierten Zeilen Python-Quellcode erledigen lassen. Zudem ist nun eine direkte Tensor-Kommunikation in TensorFlow-Prozessen möglich, womit sich eine einfache Skalierung allein durch das Hinzufügen neuer Maschinen erzielen lässt.

TensorFlowOnSpark steht ab sofort unter der Apache 2.0 Lizenz und kann einschließlich verschiedener Beispielprogramme, die eine Migration von TensorFlow-Programmen auf TensorFlowOnSpark demonstrieren, von GitHub heruntergeladen werden. Yahoo möchte beide Projekte CaffeOnSpark und TensorFlowOnSpark in und mit einer aktiven Community weiterentwickeln.

(ID:44529948)

Über den Autor

Dipl. -Ing. Thomas Drilling

Dipl. -Ing. Thomas Drilling

IT-Consultant, Trainer, Freier Journalist