Nachbericht Data + AI 2021 Databricks unterstützt Apache Airflow und dbt

Von Michael Matzer

Databricks, der Erfinder und Betreuer von Apache Spark, hat auf der Anwenderkonferenz „Data + AI 2021“ seine Unterstützung für Apache Airflow, dbt, Grafana und Prometheus angekündigt. Der Kunde Viessmann präsentierte daneben seine Databricks-basierte Lösung, und BARC-Chef Carsten Bange ordnete die Lakehouse-Architektur in den BI-Markt ein.

Anbieter zum Thema

Databricks kündigt „erstklassigen“ Support für Airflow DAGs an.
Databricks kündigt „erstklassigen“ Support für Airflow DAGs an.
(Bild: Databricks/Matzer)

Ali Ghodsi, der Mitgründer und CEO von Databricks, stimmte die Besucher der Online-Konferenz „Data + AI 2021“ darauf ein, dass IT-Architekturen wie das hauseigene Delta Lakehouse immer stärker gefragt sein werden. Denn in einer komplexer werdenden Welt aus IT und Daten könnten sich immer weniger Unternehmen die Kosten für die Portierung von Analyse-Anwendungen zwischen IT-Silo-basierten Datenspeichern leisten. Deshalb böten integrative Ansätze wie das Delta Lakehouse die Möglichkeit, durch Integration von Datenquellen und Applikation Kosten zu sparen und zugleich Innovation zu fördern.

Bemerkenswert war seine Hervorhebung der absoluten SQL-Kompatibilität (ANSI SQL 92) des Lakehouse-Konzepts. Das war sicherlich an die Millionen von SQL-Nutzern gerichtet, als da wären Datenbank-Admins, Wirtschaftsanalytiker, Data Scientists und vor allem Entwickler. An die letzteren war der Support für Python sicherlich nicht verschwendet. Überhaupt war offensichtlich, dass Databricks mehr Nutzer haben möchte. Kuratierte Data Lakes sind zwar ganz nett, aber noch nichts für Citizen Data Scientists. Diese Zielgruppe will Databricks mit der einfachen Bedienoberfläche und weiteren Funktion von Bamboolib anwerben, eine Bibliothek, die kürzlich mit der deutschen Firma 8080labs eingekauft worden ist.

Apache Airflow

Databricks hat seine Unterstützung für Apache Airflow angekündigt. Airflow ist eine quelloffene Plattform für das Verwalten von Workflows und somit wichtig für die Anbindung von Drittanbieterlösungen aus dem kommenden Marktplatz für Apps. Dieser soll das ganze Ökosystem von Databricks an einem einzigen Ort zugänglich machen. „Wir werden erstklassigen Support für DAGs anbieten“, sagte David Meyer von Databricks. Eine Benutzeroberfläche erlaubt die Beobachtung von bereits definierten Workflows.

Airflow handhabt Abhängigkeiten zwischen Transformationsaufgaben (Workflows) mithilfe von Directed Acyclic Graphs (DAG). Dieser Begriff aus der Graphen-Theorie beschreibt einen gerichteten, also azyklischen oder zyklenfreien Graphen. Ein solcher Graph lässt sich durch die Ergänzung aller Kanten, die gleichen Ausgangs- und Endknoten wie Wege haben, also die Umwege über andere Kanten zu einem Zielknoten abkürzen, zu einer (endlichen und diskreten) Halbordnung erweitern. Diesen Vorgang nennt man die Bildung der transitiven Hülle.

Beispiel: Ein Hasse-Diagramm ist ein gerichteter azyklischer Graph, bei dem die durch das Transitivitätsgesetz implizierten Kanten weggelassen sind (transitive Reduktion).

dbt

David Meyer kündigte zudem Unterstützung für das quelloffene Datenbank-Tool dbt an. Das Data Build Tool (dbt) erlaubt es Analytikern, Daten beispielsweise mit SQL-Befehlen wie SELECT, CREATE und UPDATE Datensets in kompatible Data Warehouses umzuwandeln, zu testen, zu dokumentieren und zu deployen. dbt ist also ein ziemlich mächtiges Werkzeug, das sogar Bugs aufspüren kann.

Der Hauptvorteil, den das gesamte Data Engineering Team davon hat, besteht darin, dass dieser Workflow als Code-Blaupause (DDL bzw. DML) abgelegt wird und der Code an das ganze Team verteilt werden kann. Mit diesem Code lassen sich die nötigen Datasets für BI-Tools, Machine-Learning-Modelle und operative Analytik erzeugen. Das spart eine Menge Zeit und Aufwand, denn wenn ein DAG erzeugt wird, lässt sich mit nur einem Mausklick der Aufbau eines ganzen Data Warehouses auslösen.

Da jedes Teammitglied den Code hat, eröffnet sich die Möglichkeit, diesen Code zu verbessern und an Business Cases anzupassen. Der Gedanke dahinter ist das kollaborative DevOps-Prinzip von CI/CD und das Ergebnis ist in der Vorstufe DataOps oder ModelOps, in der Hauptsache aber Datenanalyse. Wie 8080labs geht der Support auch dieses Werkzeugs stark in Richtung „Citizen Data Science“.

ETL-Prozesse lassen sich bei Databricks seit Juni dieses Jahres mit Data Live Tables ausführen. Die zeitgleich eingeführte AutoML-Funktion ist nun ausgebaut worden. Mit der Einführung neuer AutoML-Funktionen in Databricks Machine Learning sollen Data-Teams nicht nur schnell grundlegende ML-Modelle generieren können, sondern auch den zugrundeliegenden Code bereitstellen, sodass Data Scientists leicht einen unbekannten Datensatz validieren oder die Ausrichtung eines neuen ML-Projekts überprüfen können. Die Notebooks, die der Nutzer mit AutoML erstellen kann, sind nun reproduzierbar gemacht worden, sodass die Erprobung von Machine-Learning-Modellen erleichtert wird.

Grafana & Prometheus

Databricks will die Gemeinde der Open-Source-Entwickler stärker unterstützen. Mit Grafana unterstützt Databricks eine leistungsfähige und plattformübergreifende Observability-Anwendung zur grafischen Darstellung von Daten aus verschiedenen Datenquellen wie etwa InfluxDB, MySQL, PostgreSQL, Prometheus (s. u.) und Graphite. Die erfassten Rohdaten lassen sich anschließend in verschiedenen Anzeigeformen ausgeben, so etwa in Diagrammen, die wie Dashboards aussehen.

Das nun ebenfalls unterstützte Tool „Prometheus“ ist eine freie Software zum Service-Monitoring und Alerting von IT-Infrastrukturen. Es zeichnet Echtzeitmetriken in einer Zeitreihendatenbank (wie etwa InfluxDB) auf, die per HTTP von Anwendungen abgefragt werden kann, und ermöglicht Echtzeit-Warnmeldungen.

Viessmann

Der bisher vor allem als Heizungshersteller bekannte deutsche Geräteanbieter Viessmann hat seine Analyse-IT im Laufe der Jahre mehrfach überarbeitet, wie die Mitarbeiterin Marina Pausch berichtete. 2015 fing Viessmann mit Apache Kafka und der Cassandra-Datenbank an, doch schon 2016 wurde eine Lambda-Architektur auf MS Azure und Spark errichtet. Spark war wohl der richtige Ansatz, denn seit 2018 ist die Analyse-IT komplett auf die Lakehouse-Architektur migriert worden. Inzwischen kamen noch MS PowerBI Dashboards für Business-Mitarbeiter hinzu.

Auf dieser Grundlage seit Viessmann, so Pausch, in der Lage, mit der App-Softwarelösung „Vitoguide“ eine Ferndiagnose von Heizgeräten auszuführen. In Zeiten des Personalmangels sei dies eine große Hilfe, um vorausschauende Wartung zu realisieren. Mit der ViCare-App, die auch Alexa unterstützt, kann der Endverbraucher seine Heizung übers Internet steuern und überwachen. Viessmann begreife sich nicht mehr nur als Hersteller von Hardware, sondern als Rundum-Dienstleister für das Smart Home, das auf Nachhaltigkeit ausgerichtet ist.

Analysten-Meinung

Carsten Bange, der Gründer und Leiter des BARC-Instituts, ist seit jeher ein kritischer Beobachter des Datenanalyse-Marktes. Sein Institut führt regelmäßig Nutzerumfragen und Marktstudien durch und vergleicht Produkte miteinander. In seinem Vortrag berichtete er, dass sich 87 Prozent der befragten Analytikanwender eine bessere Datenqualität wünschten. Der einzige Weg dorthin sei eine holistische Data-&-Analytics-Strategie.

Sind die zahlreichen Barrieren zwischen den Datensilos, die die digitale Transformation verhindern, abgebaut, ließe sich innerhalb des Datengewebes (Fabric) eines Unternehmen eine Kombination aus herkömmlichem Data Warehouse und Data Lake einrichten, die zunächst als Bereitstellungsbereich, dann aber als einziger Datenpool plus Analytikmaschine dienen kann. Bange sieht dieses Konzept in dem Lakehouse-Ansatz von Databricks umgesetzt. Das Lakehouse sei eine Methode um die Datensilos aufzubrechen und zusammenzuführen.

(ID:47844755)