Apache-Spark-Projekt aus der wirtschaftlichen Perspektive

Databricks will Data Scientists von Routinearbeit entlasten

| Autor / Redakteur: Karin Johanna Quack / Nico Litzel

Databricks ist Haupttreiber des Apache-Spark-Projekts
Databricks ist Haupttreiber des Apache-Spark-Projekts (Bild: The Apache Software Foundation)

Welchen Sinn haben die Daten in den Unternehmen, wenn man sie nicht für Machine Learning nutzt? Diese rhetorische Frage stellt David Wyatt, Vice President Europe von Databricks. Als Haupttreiber des Apache-Spark-Projekts stellt das Unternehmen eine Cloud-Plattform bereit, die Data Engineers und Data Scientist zusammenbringen soll. Diese „Unified Analytics Platform“ wird derzeit um zwei Komponenten erweitert: das Projekt „Delta Lake“ zur Aufbereitung von Data Lakes und den Machine-Learning-Katalog „ML Flow“.

Databricks ist en vogue. Beispielsweise nannte das Wirtschaftsmagazin „Capital“ das immerhin schon 2013 in San Francisco gegründete Unternehmen kürzlich als eines von „Zehn Start-ups, die Sie nicht kennen“ (aber kennen sollen, Anm. d. R.). Laut Europa-Chef Wyatt beschäftigt Databricks etwa 800 Mitarbeiter, davon etwa 250 in Europa und bereits ein halbes Dutzend in München – Tendenz steigend. Die Kundenbasis beziffert Wyatt auf rund 2.000 Unternehmen, darunter viele große und innovative. Namen wollte er nicht offiziell nennen, sie sind aber an verschiedenen Stellen im Netz nachzulesen: zum Beispiel Zalando, Hotels.com, Shell, HP und – wie auf Youtube dokumentiert – Apple.

Diverse Finanzierungsrunden, die letzte davon aus dem vergangenen Februar, verschafften Databricks flüssige Mittel von insgesamt einer halben Million US-Dollar. Umsatz und Gewinn wachsen erfreulich, so Wyatt. Veröffentlichen muss Databricks beides nicht, denn bislang ist das Unternehmen rein Venture-Capital-finanziert: „Going public ist für uns derzeit kein Thema. Bei diesen Zahlen wären wir verrückt, wenn wir an die Börse gingen.“

Partnerschaft mit AWS und Microsoft

Sein Standing in der Fertigungs- und Finanzindustrie sowie Handel verdankt Databricks zu einem großen Teil der starken Entwicklungspartnerschaft mit Amazon Web Services (AWS) und dem Rang eines First-Party-Service-Anbieters für Microsoft Azure; Microsoft vermarktet das Produkt als „Azure Databricks“. Bei den Entwicklern hat das Unternehmen einen guten Ruf, weil es quasi aus der Entwicklung am Open-Source-Projekt „Apache Spark“ heraus gegründet wurde.

Ursprünglich als Infrastrukturprojekt für Cluster-Computing ins Leben gerufen, kann „Spark“ seine Stärken dort ausspielen, wo es um die rasche Verarbeitung großer Datenmengen geht, also beispielsweise bei der Big-Data-Analyse und beim Machine Learning (ML). Die Basisarchitektur zeichnet sich durch Parallelisierung und In-Memory-Datenhaltung aus; alle Datenbankoperationen münden in einen „Resilient Distributed Dataset“ (RDD), egal aus welcher Quelle die Daten stammen. Unter anderem verarbeiten Spark-Systeme schnell und exakt die immer häufiger vorkommenden Streaming-Daten, beispielsweise aus Sensoren, oder auch iterative Schleifen, wie sie beim Machine Learning durchlaufen werden müssen.

Nach wie vor steuert Databricks einen großen Teil des Codes für die Weiterentwicklung des Spark-Projekts bei. Das heißt auch: Jede Verbesserung des Projekts schlägt sich quasi unmittelbar im Angebot des Unternehmens nieder. Das Geschäftsmodell besteht quasi in der Bereitstellung einer als Produkt einsetzbaren Spark-Version einschließlich der dafür nötigen Services. Das Unternehmen vermarktet sie als „Unified Analytics Platform“ und wirbt damit, dass sie Data Engineers und Data Scientist auf einer einzigen Realtime-Plattform vereine, also Reibungsverluste und damit den Gesamtaufwand verringere.

Data Lakes sind häufig Datensümpfe

Anlässlich eines Entwickler-Workshops in München zitierte Nicolas Maillard, Director Field Engineering bei Databricks in Paris, kürzlich aktuelle Umfrageergebnisse, wonach die Mehrzahl der Unternehmen immer noch mit dem nutzbringenden Einsatz von Machine Learning hadere. Obwohl sich – eigenen Angaben zufolge – eine überwältigende Mehrheit der befragten Anwenderunternehmen mit dem Thema beschäftigen, hätten nur 17 Prozent tatsächlich in einem Kernbereich ihres Geschäfts bereits ein ML-Projekt am Start. „Das Problem mit der Künstlichen Intelligenz ist nicht die KI selbst, es sind die Daten“, beteuerte der Databricks-Manager.

Die in den Unternehmen vorgehaltenen Massendaten seien „not ready for AI“, so Maillard. Sie befänden sich zumeist in diversen „Data Lakes“, für deren Anlage die Unternehmen häufig mehrere Millionen Dollar ausgegeben hätten. Und da ruhten sie nun. Sie in eine Analytics- und/oder ML-Umgebung zu bewegen, wo sie tatsächlich Nutzen bringen könnten, sei schwieriger als gedacht – zumindest, wenn die Daten zuverlässig und in der Verarbeitung performant sein sollen.

Dazu der VP Europe Wyatt: „In den meisten Fällen handelt es sich nicht um Data Lakes (Datenteiche), sondern um wenig strukturierte Data Swamps (Datensümpfe).“ Um diese Sümpfe trockenzulegen und damit die Transformation der Daten zu unterstützen, hat Databricks sein Framework um eine Komponente erweitert: „Delta“ ist Teil des Spark-Projekts und soll als Middleware zwischen den Data Lakes und der jeweiligen Analytics-Maschine dienen.

Gegen die Verschwendung von Data Scientists

Laut Wyatt durchsucht Delta die Daten im „Lake“ auf Indizes, kategorisiert sie und legt damit eine für die Suche nutzbare Struktur über die mehr oder weniger unstrukturierten Daten. Die offizielle Ankündigung auf dem diesjährigen „Spark + AI Summit“ ging ins technische Detail: Databricks hat offenbar fünf Maßnahmen ergriffen, um Verlässlichkeit und Qualität der Data-Lake-Daten sicherzustellen:

  • ACID-Transaktionen (Atomicity, Consistency, Isolation, Durability),
  • Scheme Enforcement,
  • die Verbindung von Streaming- und Batch-Daten,
  • skalierbares Handling von Metadaten sowie
  • die Möglichkeit, Data Lakes mit einem Zeitstempel zu versehen.

Dank der In-Memory-Technik geschieht das – anders als beim Aufbau eines physischen Data Warehouse – in Echtzeit, verspricht Wyatt. Damit verschaffe die Software aus der Cloud den Data Engineers und Data Scientists quasi ad hoc gebrauchsfertige Daten, statt ihnen den Aufbau komplexer und instabiler Pipelines zuzumuten.

In diesem Zusammenhang verweist Wyatt darauf, dass Data Scientists zu den am besten bezahlten IT-Spezialisten in den Kundenunternehmen gehörten – mit Tagessätzen von bis zu 3.000 US-Dollar. Gleichzeitig verbrächten diese Talente im Durchschnitt drei Viertel bis vier Fünftel ihrer Arbeitszeit mit dem Aufbereiten von Daten, anstatt sich der Entwicklung von Modellen zu widmen. Sein Fazit: „Diese Ressourcen gilt es besser auszunutzen.“

Den Lebenszyklus von ML-Projekten managen

Neben der Transformation der Data-Lake-Inhalte lösen die Spark-Kontributoren – und damit ein großer Teil der Databricks-Entwickler – derzeit eine Aufgabe, die sich direkt mit dem Management von Machine-Learning-Modellen beschäftigt: Von „MLflow“ gibt es seit kurzem sogar eine offizielle Projektversion (1.0). Die Plattform vereint drei Komponenten: MLflowTracking, MLflowProjects und MLflowModels.

Mit MLflow sollen sich die Machine-Learning-Systeme besser dokumentieren und nachverfolgen lassen – zum Beispiel hinsichtlich Workloads und Code-(Wieder-) Verwendungen, aber auch in Bezug auf die Algorithmen. Deren Tracking ist beispielsweise notwendig, wenn ein Kunde die von ML-Systemen getroffenen Entscheidungen begründen und die Verwendung von „Vorurteilen“ (hinsichtlich Geschlecht, Hautfarbe Religion etc.) ausschließen soll, so wie es in hochgradig regulierten Branchen heute schon obligatorisch ist.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 46051624 / Analytics)