Nachbericht Databricks Data + AI Summit 2020 Databricks unterstützt BI-Analysten im Data-Lake-Umfeld

Autor / Redakteur: Michael Matzer / Nico Litzel

Das von den ursprünglichen Entwicklern von Apache Spark gegründete Unternehmen Databricks hat seine Unified Analytics Platform um eine weitere Komponente erweitert. Zu den vorhandenen Komponenten Delta Lake, Delta Engine und Redash, die auf der neuen Version 3.0 von Spark aufbauen, kommt nun SQL Analytics hinzu. Dieser SQL-Editor unterstützt mit Konnektoren bislang die BI-Lösungen von Tableau und Microsoft.

Firmen zum Thema

Clemens Mewald, Director of Product Management, Data Science and Machine Learning bei Databricks
Clemens Mewald, Director of Product Management, Data Science and Machine Learning bei Databricks
(Bild: Databricks)

Der SQL-Editor „SQL Analytics“ soll Datenanalytiker in die Lage versetzen, Workloads direkt aus einem Data Lake durchführen zu können, also ohne Rückgriff auf ein Data Warehouse. Diesen Data Lake unterstützt Databricks bereits mit seinem Produkt „Delta Lake“, das Data Science und Machine Learning erlaubt. SQL Analytics erweitert diese Aufgaben um BI-Reports und Dashboards, die auf SQL-Abfragen basieren.

„Das ist der letzte Baustein für unsere Lakehouse-Architektur, die die Vorzüge von Data Warehouse und Data Lake kombiniert“, erläutert Clemens Mewald, Director of Product Management, Data Science and Machine Learning bei Databricks. „Es ist kein Zwischenschritt nötig, um vom Data Cleansing der Rohdaten und Tabellen in Delta Lake mithilfe unserer Abfrage-Engine Delta Engine und nun SQL Analytics zu Reports, Dashboards und Data Science Workspaces zu gelangen.“ Mit dem neuen Werkzeug sollen sich auch Visualisierungen realisieren lassen, beispielsweise Heatmaps (siehe Bildergalerie).

Bildergalerie
Bildergalerie mit 10 Bildern

Data Teams aus den Bereichen Data Engineering, Data Science und Data Analytics sollen mit der „Lakehouse“-Architektur mit dem gleichen Datenbestand arbeiten können. „Das bedeutet nicht nur das Ende der Datensilos, sondern auch eine Arbeitsumgebung, die ein neun Mal besseres Preis-Leistungsverhältnis aufweist als herkömmliche Data Warehouses in der Cloud“, so Mewald. Solche Cloud Data Warehouses bietet beispielsweise Snowflake an, das ebenfalls eng mit Tableau zusammenarbeitet.

Für ein „Lakehouse“ stehen nicht nur eine performante Abfragemaschine bereit, sondern mit Redash auch ein Kuratierungs-, Erforschungs- und Visualisierungswerkzeug. Die Datenquellen müssen aber keineswegs on-premises vorliegen, sondern sind in der Regel in der Public Cloud zu finden: bei Amazon Web Services, in MS Azure und auf der Google Cloud Platform (GCP). Von dort können sie auch als Data Streaming, beispielsweise aus einer IoT-Anwendung, verarbeitet werden, denn Spark beherrscht seit jeher Streaming. „Spark arbeitet reibungslos mit dem Event-Streaming-Service Apache Kafka zusammen“, erläutert Mewald. „Streaming-Prozesse sind gleichwertig zu Batch-Prozessen, und viele Kunden haben dafür einen großen Bedarf.“

Neuerungen

SQL Analytics baut auf Delta Lake auf, einer Daten-Engine mit offenem Format. Unternehmen sollen es damit vermeiden können, Dubletten zu speichern und Daten in proprietären Formaten vorzuhalten zu müssen. Um die dem Datenanalysten vertraute BI-Performance auf einem Data Lake (mit dem üblicherweise Data Scientists arbeiten) zu liefern, nutzte SQL Analytics zwei Neuerungen. Erstens biete es benutzerfreundliche SQL-Endpunkte.

„Bei diesen Endpunkten handelt es sich um Ein- und Ausgabepunkte von SQL-Abfragen, die mit Tools oder JDBC/ODBC gegen einen SQL-Cluster ausgeführt werden“, erläutert Mewald. „Diese Endpunkte können wiederum von Tools wie Tableau oder Power BI verwendet werden, um beispielsweise Ergebnisse zu visualisieren.“ SQL Analytics besitzt aber auch, wie erwähnt, einen eigenen SQL-Endpunkt, nämlich Redash. Damit lassen sich Dashboards erstellen und füttern. Damit die Latenzzeit für Abfragen niedrig bleibt, soll dieser Endpunkt automatisch im SQL-Cluster skalieren.

Die zweite Neuerung besteht in der Verwendung von Delta Engine, einer Abfrage-Engine, die sowohl große als auch kleine Datensätze extrem schnell durchsuchen soll. „Dafür ist die Query Engine Photon neu in C++ geschrieben worden“, berichtet Mewald, „denn vorher lag sie in Java vor. Jetzt ist die Latenzzeit zehnmal kürzer, nicht zuletzt durch Parallelverarbeitung und SIMD.“ Die vektorisierte Abfrage-Engine, die besonders ML und KI-Prozesse unterstützen soll, sei für Massive Parallel Processing (MPP) und SIMD (Single instruction, multiple data) erweitert worden. Für SQL gebe es einen Optimizer, Caching und besseres Daten-Layout.

Der SQL-Standard wird in vollem Umfang unterstützt. „In SQL Analytics lassen sich auch User-defined Functions (UDFs) für Stored Procedures verwenden, um komplexere Abfragen mit Delta Engine ausführen zu können“, so Mewald weiter. Das ist beispielsweise relevant, wenn bestimmte Prozesse wie etwa Umwandlung oder Aggregation auf Streaming-Daten angewandt werden sollen.

Konnektoren und Visualisierung

Mit nativen JDBC- und ODBC-Konnektoren für alle wichtigen BI-Tools wie etwa Tableau oder MS PowerBI können Kunden SQL Analytics in ihre bestehenden BI-Workflows einbauen, um Analysen mit wesentlich frischeren und vollständigeren Daten als zuvor – etwa in einem Data Warehouse – durchzuführen. Zu guter Letzt bietet SQL Analytics eine auf dem SQL-Standard basierende Abfrage- und Visualisierungsoberfläche. Die GUI soll es Analysten, Data Scientists und Entwicklern gleichermaßen ohne Rückgriff auf herkömmliche BI-Tools erlauben, Dashboards und Berichte zu erstellen. Diese lassen sich dann im Unternehmen verteilen.

Project Zen

Mit dem Project Zen bemüht sich Databricks, Apache Spark mit Funktionen zu versehen, die es der großen gemeinde der Python-Entwickler zugänglicher und nützlicher machen. Sie wurde auf dem Summit vorgestellt. Dazu gehören benutzerdefinierte Funktionen (UDFs), neue, leichter lesbare Fehlermeldungen in PySpark, Auto-Vervollständigen und Rechtschreibprüfung, Fehlersuche, Dokumente für die Spark Python API und eine neue Version 1.4 von Koalas. Koalas ist die Pandas-API auf Spark und enthält jetzt Visualisierungsfähigkeiten.

MLflow 1.1 und 1.2

MLflow, das monatlich zwei Millionen Mal heruntergeladen wird, ist die Teamumgebung für den gesamten Lebenszyklus und umfasst vier Komponenten. Zu den Nutzern gehört beispielsweise die Daimler AG. Databricks bemüht sich, damit User von ähnlichen ML-Plattformen wie Google TFX, Facebook FBLearner und Uber Michelangelo zu unterstützen.

In der kürzlich verfügbar gewordenen Version 1.1 soll PyTorch, die führende ML-Bibliothek im Forschungssektor, besser unterstützt werden: durch AutoLogging in PyTorch Lightning, Support für TorchScript und die Ermöglichung von Modell-Deployments auf TorchServe. In der Komponente MLflow Tracking sollen mehr Informationen über Daten und Schemas sowie Erklärungen erzeugt werden. Versionsüberwachung und -vergleich von Daten und Modellen in Delta Lake und Spark soll erleichtert werden. In der geplanten Version 1.2 soll sich die SHAP-Bibliothek nutzen lassen, um sie für die Interpretation von Modellen zu nutzen. Im Modul MLflow Model Registry, das auch Sicherheit und Zugangskontrolle verwaltet, werden Tags und eine Search-API, Kommentare und sogenannte Webhooks kommen.

Next Generation Workspace

Im Januar 2021 will Databricks die nächste Version des Data Science Workspace verfügbar machen. Der Next Generation Data Science Workspace ist eine „sichere, skalierbare, kollaborative und reproduzierbare Arbeitsumgebung“ für Data Scientists. Sie dient nicht nur der Datenerkundung und dem Design von ML-Modellen wie Keras in TensorFlow, sondern erlaubt auch die Visualisierung, etwa von Forecasting-Modellen. TensorBoard ist integriert. Neu ist zudem der augenschonende Dark Mode der Benutzeroberfläche, für den Entwickler in allen IT-Sparten dankbar sind. Wichtig für die Übertragbarkeit von Workspace-Einstellungen ist der CI/CD-Workflow mit der Project-API.

Das Ökosystem

Die Lakehouse-Architektur, die Databricks jetzt komplettiert hat, erfreut sich einer regen Unterstützung durch Partner. Zu den üblichen Verdächtigen im Bereich BI gehören Tableau und Qlik, aber auch Looker und Thoughtspot. Zu den Ingest-Partner, die für die Dateneinspeisung sorgen, zählen: Talend, Fivetran, Matillion und Fishtown Analytics. Partner, die Datenkataloge anbieten, zählen Alation und Collibra. Im Bereich Consulting finden sich Namen wie Slalom, Thorogood und Advancing Analytics.

(ID:47005965)

Über den Autor