re:Invent 2020 AWS will die ML-Entwicklung demokratisieren

Autor / Redakteur: Karin Johanna Quack / Nico Litzel

Die Cloud hat das Thema Machine Learning auch für weniger finanzstarke Unternehmen erschwinglich gemacht. Und der Löwenanteil des Cloud-KI-Marktes entfällt laut Gartner auf Amazon Web Services (AWS). Da nimmt es kaum Wunder, dass der Provider dem Thema Machine Learning auf seiner – in diesem Jahr virtuellen – Mega-Konferenz „re:Invent“ eine eigene Keynote widmete. Swami Sivasubramanian, Vice President Machine Learning, kündigte dort eine ganze Reihe von neuen Produkten an – sowohl für ML-Entwickler als auch für Datenanalytiker sowie industrielle Anwender.

Firmen zum Thema

CEO Andy Jassy bei der Eröffnung der virtuellen Konferenz
CEO Andy Jassy bei der Eröffnung der virtuellen Konferenz
(Bild: AWS)

Die Neuerungen lassen sich in drei Kategorien einteilen: Da wären zum einen die Ergänzungen zum AWS-eigenen Machine-Learning-Service SageMaker beziehungsweise der darauf aufbauende Entwicklungsumgebung SageMaker Studio. Weiter hat sich AWS mit der Integration von ML-Funktionen in unterschiedliche Daten-Management-Systeme beschäftigt. Last, but not least, gibt es zahlreiche neue Funktionen für den industriellen Einsatz, die auf ML-Modellen basieren.

Swami Sivasubramanian, Vice President Machine Learning, AWS
Swami Sivasubramanian, Vice President Machine Learning, AWS
(Bild: AWS)

„SageMaker ist einer der am schnellsten wachsenden Services in der Geschichte von AWS,“ stellte Sivasubramanian klar. Den Grund dafür lieferte er gleich mit: Die Entwicklung einer ML-Umgebung erfordere eine Menge Rechnerkapazität, tiefgreifendes Know-how und viel Zeit. Eine integrierte Umgebung wie SageMaker stelle Power on Demand bereit, entlaste die Entwickler von komplexen und zeitfressenden Routinearbeiten und beschleunige so den Arbeitsablauf. Dazu Michael Hanisch, Head of Technology, AWS Deutschland: „Wir wollen Machine Learning einer immer noch breiteren Masse an Entwicklern zur Verfügung zu stellen, auch für Anwendungsbereiche im industriellen Umfeld wie Predictive Maintenance.“

Neue Funktionen für SageMaker

Ein ganzer Strauß von neuen Funktionen für SageMaker wurden auf der Re:Invent vorgestellt. Hier die Highlights: Die erste Neuerung dient dazu, einen der größten Zeitfresser bei der ML-Entwicklung auf Diät zu setzen. Wie Sivasubramanian erläuterte, verschlingen Extraktion und Aufbereitung der Daten aus unterschiedlichen Quellsystemen bis zu 80 Prozent der gesamten Entwicklungszeit. Der „Amazon SageMaker Data Wrangler“ automatisiert den Import, indem er mehr als 300 präkonfigurierte Transformationen anbietet. Darüber hinaus ist er in der Lage, Inkonsistenzen zu erkennen und zu beheben. Derzeit kann er die Amazon-Systeme Athena, Redshift, S3 und AWS Lake Formation adressieren; in Arbeit sind Anbindungen an die Fremdprodukte Snowflake, Databricks und MongoDB.

Ebenfalls neu ist der „Amazon SageMaker Feature Store“. Dabei handelt es sich um ein Repository für ML-Merkmale. Indem die Features zentral gespeichert, abgerufen und freigegeben werden, sind sie wiederverwendbar. Verfügbar sind sie nicht nur für die Entwicklung, also auch die Datenaufbereitung mit Data Wrangler, sondern auch für das Training der Modelle und während der Inferenz, so Hanisch; dabei blieben die Merkmaldefinitionen immer konsistent.

Unterstützung für jeden Schritt des ML-Workflow offeriert AWS mit „Amazon SageMaker Pipelines“. Hinter dieser Bezeichnung verbirgt sich ein CI/CD-Service (Continuous Integration / Continuous Delivery) für das maschinelle Lernen. Er stellt vorgefertigte und anpassbare Templates für den Arbeitsablauf bereit und eröffnet die Möglichkeit, unterschiedliche Workflows miteinander zu vergleichen, um die bestmögliche Performance eines ML-Modells zu finden.

Klarheit statt Bias

Schon in der Steinzeit der Datenverarbeitung hieß es: Garbage in, garbage out. Und diese Binsenweisheit gilt auch für das maschinelle Lernen. Ist die Datenauswahl nicht repräsentativ, überwiegen also Daten aus einer nicht unbedingt vorherrschenden Kategorie, so liefern die ML-Modelle verfälschte Ergebnisse, die auf einem „Vorurteil“ (englisch: Bias) beruhen.

Tatsächlich haben Biases oft weit reichende Folgen; ein gern zitiertes Beispiel ist die Benachteiligung von nicht-weißen oder nicht-männlichen Bewerbern bei der Kreditvergabe, weil die Trainingsdaten meist von hellhäutigen Männern stammen. Deshalb steht die Forderung nach einer gesetzlichen Verpflichtung zur Kriterientransparenz im Raum.

Eine „algorithmische Voreingenommenheit“ kann sich auf allen Stufen des ML-Workflows einschleichen: hinsichtlich der Auswahl und Selektion der Daten, mit denen ein Modell trainiert wird, oder auch bei der Anpassung des Modells an veränderte Bedingungen („Model Drift“). Als Gegengift hat AWS jetzt „Amazon SageMaker Clarify“ vorgestellt. Die neue Funktion ist kostenfrei überall dort erhältlich, wo es auch SageMaker gibt. Damit lässt sich zunächst die Auswahl der Trainingsdaten auf Verzerrungen analysieren. Nach dem Training und im produktiven Einsatz sollte das Modellverhalten immer wieder auf Erklärbarkeit untersucht werden – für mehr Transparenz und Fairness in den Vorhersagen.

Management on the edge

Ein Werkzeug für die automatische Überwachung der Systemauslastung hat AWS mit „Deep Profiling for Amazon SageMaker Debugger“ im Angebot. Entwickler können damit ihre Ressourcen-Auslastung und den Durchsatz von Trainingsdaten visualisieren, und sie erhalten Empfehlungen, wie sie eventuelle Engpässe beheben können. Unter dem Strich beschleunigt die Profiling-Funktion also das Modell-Training.

Speziell für ML-Modelle, die ganz nah am industriellen Geschehen arbeiten, hat AWS den „Amazon SageMaker Edge Manager“ entwickelt. Wie Matt Wood, General Manager Product Strategy bei AWS, formulierte, kann diese Funktion „ML-Modelle über ganze Flotten von Smart Devices hinweg managen und monitoren“. Sie lasse sich außerdem „ganz einfach“ mit den existierenden Edge-Anwendungen der Kunden integrieren.

ML-Touch via SQL

Datenanalytiker arbeiten meist mit Datenbank-Management-Systemen, Data Warehouses und Business-Intelligence-Werkzeugen. Laut AWS müssen sie aber nicht auf die Vorteile des maschinellen Lernens verzichten. Deshalb hat der Cloud-Experte seine eigenen Datenbank-Produkte um Machine-Learning-Interaktionen erweitert.

Ein Beispiel ist Aurora ML. Anwendungen, die auf dem relationalen Datenbanksystem von AWS beruhen, lassen sich nun – über die Standard-Abfragesprache SQL – mit ML-Vorhersagen anreichern. Für Aurora wurde im Übrigen eine neue Serverless-Version (Aurora Serverless V2) angekündigt; sie soll um ein Vielfaches schneller skalierbar sein.

Auch für die S3-Query-Engine Athena gibt es eine neue Erweiterung, die ML-Technik enthält. Den Ausführungen von Hanisch zufolge hat AWS die Syntax der Abfragesprache erweitert, so dass die Analytiker ein vortrainiertes ML-Modell innerhalb von SageMaker auswählen und dann mit einer SQL-Abfrage auf die S3-Daten anwenden können.

Da soll das Data-Warehouse-System Redshift offenbar nicht zurückstehen. Redshift ML kann ML-basierende Vorhersagen aus dem Warehouse gewinnen; die Analytiker greifen wiederum mit SQL darauf zu.

Last, but not least, hat AWS auch die Graph-Datenbank Neptune angefasst. Neptune ML kann jetzt Graph Neural Networks (GNNs) verwenden, eine ML-Technik, mit der sich Vorhersagen aus grafischen Daten gewinnen lassen.

Reale Business-Probleme lösen

Neben den Funktionen für ML-Entwickler und Datenanalytiker stellte AWS auch Tools vor, die Machine-Learning verwenden, um ganz reale Probleme vieler Anwender zu lösen. Wer sich mit Business-Intelligence-Auswertungen herumschlägt, wird möglicherweise diese Ankündigung begrüßen: Mit „Quicksight Q“ ist es jetzt möglich, Abfragen auf den BI-Service Quicksight in natürlicher Sprache zu formulieren. Die Übersetzung der Dashboard-Anfrage geschieht mittels ML, aber der Fragesteller selbst benötigt keinerlei ML-Wissen.

Neu sind auch der CodeGuru und der DevOpsGuru. Beide beobachten das operative Verhalten von Applikationen hinsichtlich drohender Verfügbarkeits-Engpässe, der CodeGuru auf der Entwickler-Seite, der DevOps-Guru mit Blick auf den Betrieb. Die bereits verfügbaren Funktionen warnen aber nicht nur, sondern helfen auch dabei, Gegenmaßnahmen einzuleiten.

„ML ist gut darin, die leisen Signale im Datenlärm zu entdecken“, sagte Sivasubramanian. Und genau das könne eine Funktion leisten, die bislang noch Preview-Status hat. „Amazon Lookout for Metrics“ hält, wie der Name schon suggeriert, Ausschau nach Anomalien in Business-Metriken – und macht sich auf die Suche nach den Ursachen. So werden neue geschäftliche Entwicklungen, beispielsweise ein unerwartet lebhafter Absatz eines bestimmten Produkts, früh genug sichtbar, um rasch darauf reagieren zu können.

Predictive Maintenance für Anfänger und Fortgeschrittene

Eine Einsteigerlösung für die vorausschauende Wartung („Predictive Maintainance“) bietet Amazon Monitron. Sie dient dazu, industrielles Equipment permanent – End to End – zu beobachten und im Falle einer sich ankündigenden Fehlfunktion Alarm zu schlagen. Monitron kommt als Gesamtpaket aus Sensoren, Network Gateway Device, Cloud-Zugriff und einer App, die sofort eine Push-Nachricht absetzt, wenn etwas nicht ins Bild einer funktionierenden Umgebung passt.

Für fortgeschrittene Anwender, die bereits eine eigene Sensor-Umgebung installiert haben, ist der AWS-Service „Lookout for Equipment“ gedacht. Hier schickt der Anwender die Sensordaten seines Maschinenparks in die Cloud und bekommt die Auswertung zurück.

Mit Computer-Visualisierung arbeitet schließlich „Lookout for Vision“. Damit lassen sich kleine Defekte oder Farbabweichungen an Produkten innerhalb von Sekundenbruchteilen erkennen. So können sie aussortiert werden, bevor sie später im Produktionsprozess eventuell Probleme verursachen.

(ID:47035930)

Über den Autor

 Karin Johanna Quack

Karin Johanna Quack

Freie Journalistin für Wirtschaft und Technik