Kommentar von Eswar Nagireddy, Exasol AutoML – die Automatisierung der Automatisierung macht maschinelles Lernen für jeden nutzbar

Von Nico Litzel Lesedauer: 4 min |

Anbieter zum Thema

Die Automatisierung selbst automatisieren: Das verspricht Automated Machine Learning (AutoML) und macht die Vorteile von maschinellem Lernen (ML) so auch nicht-technischen Anwendern zugänglich. Die Grundvoraussetzung ist eine leistungsfähige Datenbank und die richtigen ETL-Tools, kombiniert mit einer vielversprechenden AutoML/Low Code-ML-Plattform.

Der Autor: Eswar Nagireddy ist Senior Product Manager Data Science bei Exasol
Der Autor: Eswar Nagireddy ist Senior Product Manager Data Science bei Exasol
(Bild: Exasol)

Die meisten Mitarbeiterinnen und Mitarbeiter nutzen regelmäßig Daten und Auswertungen, um ihre eigene Arbeit zu unterstützen. Ein wirklich datengetriebenes Vorgehen, das Entscheidungen und Prognosen auf Basis von Daten trifft, ist außerhalb der Data Science Teams jedoch eher Wunschdenken als Realität. Denn die Aufbereitung und Analyse in den einzelnen Abteilungen erfolgen oft noch manuell oder gar nicht. Das ganze Potenzial datengetriebener Arbeit entfaltet sich jedoch erst in vollem Ausmaß durch die Anwendung von intelligenten Systemen wie Predictive Analytics oder Machine Learning.

Die gute Nachricht ist: Der Grundstein ist schon gelegt. Viele Unternehmen haben heute bereits ihre Datensilos aufgebrochen, setzen mittlerweile auf Datendemokratisierung und bieten ihren Mitarbeiterinnen und Mitarbeitern einen flächendeckenden Zugang zu Daten auch außerhalb der Daten-Teams. Jede Abteilung hat so immer die Daten vorliegen, die für sie relevant sind.

Es ist jedoch an der Zeit, noch einen Schritt weiterzugehen und nicht nur unternehmensweiten Zugang zu Daten zu gewährleisten, sondern auch Data Analytics an entsprechender Stelle zu etablieren. Das stellt Unternehmen vor große Herausforderungen, da die Mitarbeiterinnen und Mitarbeiter in den meisten Fällen keine Experten auf dem Gebiet der Datenanalytik sind und vorgefertigte Lösungen brauchen, die ihnen die technischen Komponenten abnehmen. Hier kommt AutoML ins Spiel. AutoML verspricht einen wichtigen Teil des klassischen maschinellen Lernens zu automatisieren – ein Gebiet, das bisher oft den Data Scientist Teams vorbehalten ist. Dadurch ermöglicht es verschiedenen Nutzern, Anwendungen für ML zu erstellen und somit ganz neue Welten zu betreten, ohne selbst Datenexperte zu sein.

Machine Learning vs. Automated Machine Learning

Daten sind vor allem in sich wiederholenden Aufgaben allgegenwärtig – von Reportings über Marktanalysen bis hin zum Performance-Measurement. Und diese sind zumeist auch noch sehr zeitintensiv. ML ist oft das Mittel der Wahl, um diese Aufgaben durch Automatisierung und Prognosen zu vereinfachen, zu beschleunigen und so für die Mitarbeiterinnen und Mitarbeiter Ressourcen freizumachen, die sie für andere Aufgaben nutzen können. Die komplexen datenwissenschaftlichen ML-Modelle werden dabei normalerweise als „Blackbox“-Modelle betrachtet, bei denen es schwierig sein kann, die Statistiken oder die zugrunde liegende Logik zu verstehen. AutoML umgeht dieses Problem: Es automatisiert die ML-Prozesse an sich, wodurch der Nutzer kein Wissen über die Logik benötigt. ML wird somit einer viel größeren Gruppe von Mitarbeiterinnen und Mitarbeitern zugänglich.

AutoML-Frameworks bieten Transparenz über verschiedene Experimente und deren Ergebnisse mit dem Ziel, das beste Modell/die besten Parameter für einen bestimmten Business Case zu finden. Es hilft geschäftlichen oder technischen Nutzern, verwertbare Erkenntnisse aus Daten zu gewinnen, ohne die Mühe der Modellierung und des Experimentierens auf sich nehmen zu müssen. Die Idee ist, dass nur sehr wenig menschliches Eingreifen in die prädiktive Modellierung erforderlich ist und schnelle Ergebnisse erzielt werden. Das führt auch zu einer geringeren Fehleranfälligkeit und verringert die Kosten. Durch die Automatisierung verschiedener Trainingsschritte ermöglicht AutoML, das beste Modell für einen bestimmten Anwendungsfall auszuwählen, jedoch müssen die besten KPIs für die jeweiligen Unternehmensprobleme selbst vom Anwender bestimmt werden.

Keine Automatisierung ohne Datenbasis

In den meisten praktischen Anwendungen muss die Datenverarbeitung und -vorbereitung für das maschinelle Lernen noch in Angriff genommen werden. Dass Unternehmen über die Datenbasis verfügen, die für AutoML nötig ist, steht außer Frage. Statista geht bis 2025 von 181 Zettabyte Daten weltweit aus – eine Steigerung von 182 Prozent innerhalb von nur fünf Jahren. Diese Rohdaten liegen in verschiedenen Formaten vor. Der entscheidende Schritt ist die Extraktion solcher Rohdaten und ihre Speicherung in einem leicht zugänglichen Format und an einem leicht zugänglichen Ort. Wenn es sich um relativ kleine Datensätze handelt, ist es einfach, die Daten von A nach B zu verschieben und ML anzuwenden. Wenn man es aber mit exponentiell wachsenden Daten zu tun hat, die darüber hinaus, in verschiedenen Formaten vorliegen, ist es eine schwierige Aufgabe, diese Daten in AutoML zu übertragen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Es ist demnach leichter, mit AutoML zu experimentieren, wenn wir einfachen Zugang zu den Daten in einem geeigneten Format haben. In der Praxis tun sich jedoch viele Unternehmen schwer damit, zentrale Datenbestände einzurichten, die für die Weiterentwicklung der Analytik genutzt werden können. Um AutoML oder andere ML-Technologien optimal nutzen zu können, sind daher robuste, skalierbare, flexible und wartbare Pipelines erforderlich, in denen die Quelldaten effizient an einem Ort gespeichert werden können. Mit anderen Worten: Benötigt werden einfach zu bedienende, aber leistungsstarke ETL-Tools und eine leistungsstarke Datenbank, in der geladene Daten problemlos an AutoML übermittelt werden können.

Die ideale Lösung ist es, AutoML-Komponenten in eine Datenbank zu integrieren, sodass die Nutzer nicht mehr mühsam große Datensätze bearbeiten oder erstellen müssen. Die Nähe von ML zu den Daten gibt den Datenwissenschaftlern mehr Flexibilität, da sie damit leicht Experimente durchführen können. Wenn es sich bei dieser Komponente um AutoML handelt, bietet sie auch technisch weniger versierten Benutzern die Möglichkeit, fortgeschrittene Analysen durchzuführen. Um die Vorteile von Werkzeugen wie AutoML voll auszuschöpfen und sie in praktischen Anwendungsfällen zu nutzen, sind außerdem unterstützende Erweiterungen für ETL/ELT und die Infrastruktur für die Nachmodellierung wie Bereitstellung und Überwachung ebenfalls von entscheidender Bedeutung. Neben der Integration mit AutoML ist ein für die Produktion optimierter Code unerlässlich, um den Einsatz von ML-Modellen in der Produktion weiter zu beschleunigen.

(ID:49050435)