Automatisierte Machine-Learning-Projekte Databricks erweitert MLflow 2.0 um MLflow Recipes

Von Michael Matzer

Anbieter zum Thema

Databricks hat seine auf Apache Spark aufbauende Delta-Lake-Plattform nicht nur deutlich ausgebaut, sondern auch alle Neuerungen der Linux Foundation zur Verfügung gestellt. Zu den wichtigsten Neuerungen zählen MLflow Pipelines für automatisierte Machine-Learning-Projekte und MLflow Recipes, die als Templates fungieren.

Mercedes betreibt mit MLflow die Fehleranalyse bei Fahrzeugen innerhalb von ein bis vier Stunden statt in Tagen. (v. l. n. r.) Judson Althoff, Executive Vice President and Chief Commercial Officer of Microsoft, Jan Brecht, Chief Information Officer der Mercedes-Benz Group AG, Jörg Burzer, Mitglied des Vorstands der Mercedes-Benz Group AG, Produktion und Supply Chain Management.
Mercedes betreibt mit MLflow die Fehleranalyse bei Fahrzeugen innerhalb von ein bis vier Stunden statt in Tagen. (v. l. n. r.) Judson Althoff, Executive Vice President and Chief Commercial Officer of Microsoft, Jan Brecht, Chief Information Officer der Mercedes-Benz Group AG, Jörg Burzer, Mitglied des Vorstands der Mercedes-Benz Group AG, Produktion und Supply Chain Management.
(Bild: Mercedes)

Databricks bietet mit seiner Lakehouse-Architektur „Delta Lake 2.0“ nach den Worten von CEO und Mitgründer Ali Ghodsi eine Analyse-Plattform, die hoch performant sowohl strukturierte Daten wie in einem Data Warehouse als auch unstrukturierte Daten wie in einem Data Lake verarbeiten kann – und zwar in jedem Bereitstellungsmodell von on-premises bis Multi-Cloud. Daher wird die Integration mit Services der Public Cloud wie etwa AWS S3 zunehmend enger.

Mit 13 Millionen Downloads pro Monat sei MLflow inzwischen der De-facto-Standard für MLOps, schreiben Craig Wiley und Corey Zuma in ihrem offiziellen Blog. Es sei auch als Managed Service Managed MLflow mit maximaler Zuverlässigkeit und Skalierbarkeit verfügbar. Dieser Service sei mit der Databricks Machine Learning Runtime, Databricks Feature Store und Serverless Real-Time Inference integriert. Die Integration mit Databricks ist also eng, was tausende von Anwendern bestätigen, indem sie MLflow auf Databricks ausführen.

Bildergalerie
Bildergalerie mit 6 Bildern

Im jüngsten Blogpost verlautbaren sie zudem, dass MLflow 2.0 nun verfügbar geworden sei. MLflow Recipes, das vormals MLflow Pipelines hieß, soll die Modellentwicklung beschleunigen. Mit MLflow Recipes können ML-Experten schnell mit vordefinierten Lösungsrezepten für eine Vielzahl von ML-Modellierungsaufgaben beginnen. Sie können mit der Recipes-Ausführungs-Engine schneller iterieren (Inferenz) und robuste Modelle einfach in die Produktion überführen, indem sie modularen, überprüfbaren Modellcode und Konfigurationen ohne Refactoring bereitstellen. Zu den Erweiterungen von Recipes gehören AutoML, Hyperparameter-Tuning, verbessertes Data Profiling und Support für Klassifizierungsmodelle.

Die Funktion AutoML findet automatisch das passende Modell für die vorliegende ML-Aufgabe. Der Anwender muss nur eine Datenmenge und eine Zielspalte für eine Regression oder Klassifikation angeben und AutoML liefert das passende Modell. Dabei werden Leistungskennzahlen und Parameter angezeigt, um das eingehendere Tuning und die Iteration zu erleichtern. Diese Resultate werden in Machine Learning flow Tracking geloggt, um reproduzierbare Referenzen und Vergleiche zu erhalten.

Der MLflow-Core mit seinen vielen APIs und der Tracking UI wurde aufgrund des Anwender-Feedbacks komplett überarbeitet, um einfacher zu bedienen zu sein und die Produktivität von Data Scientists zu steigern. Während des Trainings von Modellen hat jeder erstellte MLflow-Run jetzt einen eindeutigen, einprägsamen Namen, der dabei hilft, die besten Ergebnisse zu identifizieren. Später kann mit den erweiterten MLflow-Suchfiltern ganz einfach eine Gruppe von MLflow-Läufen nach Namen oder ID abgerufen sowie nach Namen und Tags nach Experimenten gesucht werden.

Die überarbeitete API für das Model Scoring unterstützt die User vor der Bereitstellung eines Modells, indem es erlaubt, weiter gehende Informationen wie etwa regelmäßige Treffsicherheitsprüfungen einzufügen. Im Tracking-Modul wurde die Anzeige für Experimente übersichtlicher gestaltet.

MLflow 2.0 enthält eine überarbeitete Integration mit TensorFlow und Keras, die Protokollierungs- und Bewertungsfunktionalitäten (Logging, Scoring) für beide Modelltypen hinter einer gemeinsamen Schnittstelle vereint. Das modernisierte mlflow.tensorflow-Modul bietet auch eine angenehme Erfahrung für Power-User mit TensorFlow Core APIs, während die Einfachheit für Data Scientists, die Keras verwenden, erhalten bleibt. Die API mlflow.evaluate() erzeugt Reports über die Leistung und Erklärbarkeit eines Modells und zwar für jedes mit MLflow erstellte Modell. Es funktioniert wie AutoML, indem es Leistungsdaten zu vorgegebenen Modell-Parametern liefert. Der User kann vordefinierte Schwellenwerte eingeben, um die Modelleistung daran zu messen. Neue Modelle werden an einer Baseline gemessen, und zwar so lange, bis diese Vorgabe für die Inbetriebnahme erreicht ist. Mehr zu dieser Evaluierungsmethode findet sich in einem Blogpost und in einer Dokumentation auf mlflow.org.

Anwender

Mercedes betreibt mit MLflow die Fehleranalyse bei Fahrzeugen innerhalb von ein bis vier Stunden statt in Tagen und senkt die Fehlerrate, indem es hilft, Defekte zu vermeiden. Zudem erleichtert es das Aufspüren von E-Ladesäulen, indem es dem Fahrer eines EQ-Modells Vorhersagen für die beste Route liefert. Diese Funktion gehört zu den digitalen Services der neuen MO360 Data Platform, die Mercedes zusammen mit Microsoft entwickelt hat.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Rolls-Royce setzt MLflow im Triebwerksbau bereits ein, um Predictive Maintenance zu realisieren. Es vermeidet damit – geplante bzw. ungeplante – Ausfallzeiten, verlängert die Lebensdauer eines Triebwerks und tut etwas für die Nachhaltigkeit seiner Produktion bzw. Wartung.

(ID:48768334)