Spark as a Service Das kann Azure Databricks

Autor / Redakteur: Thomas Joos / Nico Litzel |

Microsoft stellt mit Azure Databricks eine Analyseplattform in Microsoft Azure zur Verfügung, die auf der bekannten Analysesoftware Apache Spark aufbaut. Bei der Entwicklung der Plattform haben die Entwickler von Spark mitgearbeitet.

Anbieter zum Thema

Das auf Apache Spark basierende Azure Databricks lässt sich mit den Azure-Datenbanken und -Speichern verwenden. Dadurch können Anwender SQL Data Warehouse, Cosmos DB, Data Lake Store und Blob Storage zusammen mit Azure Databricks einsetzen.
Das auf Apache Spark basierende Azure Databricks lässt sich mit den Azure-Datenbanken und -Speichern verwenden. Dadurch können Anwender SQL Data Warehouse, Cosmos DB, Data Lake Store und Blob Storage zusammen mit Azure Databricks einsetzen.
(Bild: T. Joos)

Unternehmen, die auf Microsoft Azure setzen und ihre Daten analysieren wollen, haben mit Azure Databricks den Vorteil, auf eine Lösung zu setzen, deren Fundament seit Jahren eine bekannte und zuverlässige Analyseumgebung darstellt. Die Entwickler von Apache Spark haben, zusammen mit Microsoft, Databricks in Azure integriert und die Vorteile von Apache Spark mit den Möglichkeiten der Azure-Cloud verbunden.

Azure Databricks lässt sich mit den Azure-Datenbanken und -Speichern nutzen. Dadurch lassen sich SQL Data Warehouse, Cosmos DB, Data Lake Store und Blob Storage zusammen mit Azure Databricks verwenden. Durch die Integration mit Power BI können Anwender mit Azure Databricks Daten zur Analyse aufbereiten und teilen. Aber auch andere BI-Tools lassen sich einsetzen.

Mit Azure DataBricks können Unternehmen Apache Spark mit wenigen Mausklicks einrichten.
Mit Azure DataBricks können Unternehmen Apache Spark mit wenigen Mausklicks einrichten.
(Bild: T. Joos)

Diese Funktionen von Spark sind in Databricks integriert

Durch die Mitarbeit der Spark-Entwickler an Azure Databricks wurden alle Open-Source-Funktionen integriert, die auch in einem Spark-Cluster verfügbar sind. Dazu gehören Spark SQL und DataFrames für die Verwendung strukturierter Daten in Databricks. DataFrame stellt eine verteilte Sammlung von Daten dar, die in benannten Spalten organisiert sind. Werden in Apache Spark neue Funktionen integriert, implementiert Microsoft diese auch in Azure Databricks.

Auch Echtzeitdatenverarbeitung und -analyse für analytische und interaktive Anwendungen sind integriert. HDFS-, Flume- und Kafka lassen sich einbinden. Die Machine-Learning-Bibliothek MLib mit Lernalgorithmen und Klassifizierung, Regression und Clustering lassen sich ebenfalls nutzen.

GraphX für Diagramme und Diagrammberechnung lassen sich in Databricks ebenfalls verwenden, genauso wie Spark Core-API. Diese bietet die Unterstützung für R, SQL, Python, Scala und Java.

Schnelle Erstellung einer Analyseplattform

Der Vorteil einer Analyseplattform wie Databricks in Microsoft Azure zu nutzen, liegt schnell auf der Hand: Sobald die Umgebung im Einsatz ist, kann sie auf alle anderen Funktionen in Microsoft Azure zugreifen, nicht nur auf die Big-Data-Lösungen. Wurde die Cloud mit einem lokalen Rechenzentrum verbunden, können Daten in der Cloud schnell und einfach analysiert werden. Databricks kann außerdem schnell und leicht skaliert werden. Die Clusterskalierung erfolgt dynamisch.

Ein weiterer Vorteil beim Einsatz von Produkten in der Microsoft-Cloud ist die schnelle Einrichtung. Während die Installation und Einrichtung von Apache Spark im Unternehmen einen Cluster und einiges an Know-how erfordert, kann die Azure DataBricks-Umgebung mit einem Mausklick aktiviert werden.

Nach wenigen Mausklicks ist Azure Databricks verfügbar.
Nach wenigen Mausklicks ist Azure Databricks verfügbar.
(Bild: T. Joos)

Sobald die Umgebung einmal eingerichtet ist, können Daten importiert und analysiert werden. Daten lassen sich über Dateien und externe Speicher importieren, aber auch aus Azure Storage. Sobald der Workspace gestartet ist, können verschiedene Analysten parallel mit den Daten arbeiten.

Azure Databricks im Praxiseinsatz
Azure Databricks im Praxiseinsatz
(Bild: T. Joos)

Machine Learning mit Azure Databricks

Azure Databricks vereint die meisten der gängigen Big Data Use Cases auf einer einzigen Plattform. Das bedeutet, dass Unternehmen keine verschiedenen Dienste kompliziert miteinander verbinden müssen. Batch-Verarbeitung, echtzeitnahe Stream-Verarbeitung, interaktive Abfragen und Datenanalyse sind in Databricks integriert. Darüber hinaus gibt es viele weitere Möglichkeiten. Auch das maschinelle Lernen und Data Science lassen sich einbinden. Azure Databricks enthält viele maschinelle Lernbibliotheken, unterstützt aber auch die einfache Interaktion mit vielen anderen gängigen maschinellen Lernframeworks wie XGBoost, scikit-learn, TensorFlow, Keras und Horovod.

Azure Databricks bringt durch seine Funktionen Dateningenieure, Datenwissenschaftler und Business-Analysten in einem einzigen kollaborativen Arbeitsbereich zusammen. Dadurch entfällt die Notwendigkeit, mehrere unterschiedliche Tools und Dienste zu verbinden, um verschiedene Benutzer zufriedenzustellen.

Kurze Lernkurve ohne langwierige Schulungen

Azure Databricks ermöglicht die Abfrage, Analyse und Verarbeitung von Daten in SQL, Python, R und Scala. Unternehmen können mit der Integration von Azure Databricks mit einer sehr kurzen Lernkurve den Einstieg in Apache Spark beginnen. In vielen Fällen können bestehende Teams ihre aktuellen Fähigkeiten und Kenntnisse direkt in Azure Databricks übertragen, wobei teure Neueinstellungen oder umfangreiche Schulungen nicht mehr notwendig sind.

ETL-Entwickler und Business-Analysten, die SQL bereits in ihrer täglichen Arbeit einsetzen, können recht schnell mit Databricks arbeiten. Datenwissenschaftler, die bereits R oder Python einsetzen, sind ebenfalls sofort in der Lage, effektiv mit Azure Databricks zu arbeiten. Auch Anwendungsentwickler, die mit Python oder Java vertraut sind, können Databricks schnell nutzen.

Die Verwaltung von Azure Databricks ist sehr einfach. Sobald der Dienst aktiviert wird, ist er mit dem Azure Active Directory verbunden. Von dort aus ist das Hinzufügen von Benutzern, das Erstellen von Clustern und das Verwalten des Arbeitsbereichs intuitiv und kann über eine sehr einfache Benutzeroberfläche erfolgen. Fast alles, was ein Unternehmen typischerweise konfigurieren müsste, kann über diese Benutzeroberfläche erfolgen. Mit der REST-API und der CLI, die für eine erweiterte Konfiguration und Automatisierung verwendet werden können, lassen sich auch spezifische Umgebungen aufbauen.

(ID:45714291)