Suchen

Nachbericht AWS re:invent Las Vegas AWS baut Redshift und SageMaker aus

| Autor / Redakteur: Michael Matzer / Nico Litzel

Amazon Web Services (AWS) hat kürzlich auf seiner Kundenkonferenz AWS re:Invent den 65.000 Besuchern zahlreiche neue Services für Datenbanken und Analysefunktionen vorgestellt. Sie sollen Kunden besonders dabei unterstützen, große Datenmengen zu verarbeiten. Neuerungen in der KI-Entwicklungsumgebung Amazon SageMaker decken die gesamte Prozesskette bis hin zur Überwachung der KI-Modelle ab.

Firmen zum Thema

Von den rund 65.000 Besuchern der AWS re:invent in Las Vegas konnten rund 11.000 den Keynotes in der Halle A direkt lauschen.
Von den rund 65.000 Besuchern der AWS re:invent in Las Vegas konnten rund 11.000 den Keynotes in der Halle A direkt lauschen.
(Bild: AWS)

Mit Amazon Redshift bietet AWS seit Jahren einen verbreiteten Cloud-Data-Warehouse-Dienst an. Dafür gibt es ab sofort eine neue Instanz namens RA3. Sie soll es Kunden ermöglichen, Rechenleistung und Speicherkapazitäten unabhängig voneinander zu skalieren. Diese soll zudem für eine wesentlich bessere Abfrageleistung und mehr Flexibilität sorgen. Das gilt insbesondere, wenn Kunden über verschiedene Datenspeicher, das Data Warehouse und Datenbanken hinweg arbeiten. RA3-Instanzen sollen eine dreifach bessere Leistung als Angebote anderer Cloud-Data-Warehouse-Anbieter liefern. Unter den Mitbewerbern wäre an erster Stelle Snowflake zu nennen.

So funktioniert die Beschleunigung von Abfragen in AQUA.
So funktioniert die Beschleunigung von Abfragen in AQUA.
(Bild: AWS)

Für Redshift stellt AWS mit AQUA (Advanced Query Accelerator) einen Hardware-beschleunigten Cache bereit, der eine bis zu zehnfach höhere Abfrageleistung als Angebote des Mitbewerbs liefern soll. Der neue Service kommt Mitte 2020.

Mit Amazon Redshift Data Lake Export können Kunden ab sofort Daten direkt von Amazon Redshift nach Amazon S3 exportieren. Das offene Dateiformat namens Apache Parquet, das für die Analyse optimiert ist, soll es möglich machen. Parquet, das Daten in Spalten speichert, steht jedem Projekt im Hadoop-Ökosystem zur Verfügung, ganz gleich, welches Datenmodell, welche Programmiersprache oder welches Datenverarbeitungsrahmenwerk verwendet wird. Redshift gehört zwar nicht zum Hadoop-Ökosystem, unterstützt aber eine Reihe von Open-Source-Standards.

Redshift Federated Query

So funktioniert AQUA for Amazon Redshift: Parallelisierung, Caching und Umgehung „langsamer“ Komponenten durch einen dedizierten AWS-Prozessor. Die Scale-out-Architektur erlaubt das Ankoppeln weiterer Kapazitäten.
So funktioniert AQUA for Amazon Redshift: Parallelisierung, Caching und Umgehung „langsamer“ Komponenten durch einen dedizierten AWS-Prozessor. Die Scale-out-Architektur erlaubt das Ankoppeln weiterer Kapazitäten.
(Bild: AWS)

Eine vierte Neuerung stellt die Funktion für Amazon Redshift Federated Query dar. Damit lassen sich Data Lakes in S3 sowie operative Amazon-RDS- und -Aurora-Datenbanken in einer einzigen föderierten Abfrage analysieren. Das heißt, dass die Daten an Ort und Stelle verbleiben und nur ihre Abfrage-Ergebnisse zusammengeführt werden. CEO Andy Jassy sagte in seiner Keynote, dass Amazon Aurora einer der am schnellsten wachsenden Services bei AWS sei. Die relationale Datenbank Aurora ist vollständig MySQL- und PostgreSQL-kompatibel und bietet sich daher als Alternative zu herkömmlichen relationalen Datenbanken an. Derzeit ist die neue Funktion als Preview zu bewundern.

Andy Jassy, CEO von AWS
Andy Jassy, CEO von AWS
(Bild: AWS)

Der Amazon Elasticsearch Service bekommt eine warme Dusche: UltraWarm ist ein Warm Storage Tier, mit dem Kunden bis zu einem Zehntel der aktuellen Kosten für Elasticsearch sparen und so eine beliebige Menge an aktuellen und historischen Log-Daten speichern können. Für die Auswertung von Log-Daten wird Elasticsearch in der Developer Community gern zusammen mit Kibana und für die IT-Analyse mit Amazon CloudWatch herangezogen. Auch hierfür gibt es vorerst nur eine Preview.

Managed Service für Cassandra

CEO Andy Jassy kündigte in seiner Keynote den neuen Managed Service (MCS) für die Open-Source-Datenbank Apache Cassandra an. Der skalierbare, hochverfügbare und vollständig verwaltete Datenbankdienst Amazon Managed (Apache) Cassandra Service unterstützt Cassandra-Anwendungen. Entwickler können ihren vorhandenen Cassandra-Anwendungscode, Apache-2.0-lizenzierte Treiber und Tools verwenden, um Workloads auf dem Amazon Managed Cassandra Service auszuführen, zu verwalten und zu skalieren – ohne sich um die Verwaltung der zugrunde liegenden Infrastruktur kümmern zu müssen.

Werner Vogels, CTO bei AWS, erklärte die Produktplanung, u. a. in den Bereichen EC2 und S3.
Werner Vogels, CTO bei AWS, erklärte die Produktplanung, u. a. in den Bereichen EC2 und S3.
(Bild: AWS)

Da der Service serverlos funktioniert, ist es nicht nötig, große Cassandra-Cluster bereitzustellen, zu konfigurieren und zu betreiben. Außerdem wird es obsolet, Knoten manuell hinzuzufügen oder zu entfernen und Partitionen neu auszubalancieren, wenn der Datenverkehr nach oben oder unten steigt. Es sind keine Vorabinvestitionen für die Nutzung des Amazon Managed Cassandra Service erforderlich. Die Kunden zahlen nur für die von ihnen genutzte Kapazität.

Jassy schilderte die Mühen der Datenbankverwalter, die einen Cassandra-Cluster aufbauen, verwalten und skalieren müssen: „Die meisten Kunden mit variabler Auslastung finden es außerdem schwierig, Cluster auf- und abzubauen. So bauen sie oft Cluster auf, die für Spitzenlasten ausgelegt sind und tragen unnötige Kosten für den Betrieb ungenutzter Kapazitäten.“ Um bequemer und zuverlässiger arbeiten zu können, entscheiden sich diese Spezialisten für veraltete Versionen von Cassandra.

Abwärtskompatibilität

Dadurch erhebt sich die Frage, wie weit abwärtskompatibel denn der neue MCS ist. Er ist laut AWS kompatibel mit der Open-Source-API Apache Cassandra 3.11. Der Service bietet Kunden demnach eine Performance im einstelligen Millisekundenbereich und kann Tabellen automatisch skalieren – basierend auf dem tatsächlichen Traffic der Anwendungen mit praktisch unbegrenztem Durchsatz und Speicher.

Der MCS bietet On-demand-Kapazität, sodass Kunden nur für die von der Anwendung genutzten Ressourcen bezahlen. Anfang 2020 soll er außerdem bereitgestellte Kapazität anbieten: Kunden können so die Kosten durch die Angabe der Kapazität pro Workload optimieren.

Weiterhin sollen Kunden Anfang 2020 mit bestehenden Cassandra-Tabellen, die on-premises oder auf Amazon EC2 laufen, Tabellen mit AWS-Migrationstools in den MCS migrieren können. Der MCS lässt sich in andere AWS-Dienste integrieren. So haben Kunden mit AWS IAM sicheren Zugriff auf ihre Tabellen. Außerdem können sie Tabellen mit Amazon CloudWatch überwachen und ihre Verschlüsselungs-Schlüssel mit AWS Key Management Service (KMS) verwalten.

Erweiterung von Amazon SageMaker

Der generelle SageMaker-Prozess zur Erstellung und Revision eines Machine-Learning-Modells.
Der generelle SageMaker-Prozess zur Erstellung und Revision eines Machine-Learning-Modells.
(Bild: AWS)

AWS baut sein KI-Framework SageMaker zu einer umfassenden Entwicklungsumgebung aus, indem es sukzessive sechs neue Funktionen bereitstellt. In seiner Keynote beschrieb CEO Andy Jassy die neuen Funktionen detailliert und in den Präsentationen konnten die Besucher der AWS re:Invent weitere Informationen erhalten. SageMaker soll nach Jassys Willen die Entwicklung von KI-Modellen ebenso vereinfachen, wie es EC2 für Compute und S3 für Storage taten.

Der gleiche Ablauf in AWS SageMaker Neo.
Der gleiche Ablauf in AWS SageMaker Neo.
(Bild: AWS)

Amazon SageMaker Studio ist die erste voll integrierte Entwicklungsumgebung (IDE) für maschinelles Lernen, Automation, Integration, Fehlerbehebung und die Überwachung von der Entwicklung und dem Ausliefern von Modellen für maschinelles Lernen (ML). Amazon SageMaker Notebooks erlaubt es Entwicklern, ML-Notebooks mit elastischer Rechenleistung (EC2) in Sekunden zu starten und die Kapazität (inkl. GPUs) anzupassen sowie Notebooks schnell zu teilen.

Amazon SageMaker Experiments soll Entwicklern dabei helfen, den Überblick über Modelliterationen, Trainingsparameter und Trainingsergebnisse von ML zu behalten, diese Daten zu visualisieren und zu vergleichen. Mit Amazon SageMaker Autopilot sollen sich automatisch aus simplen Datensets, die im verbreiteten CSV-Format (Comma-separated Value) vorliegen, ML-Modelle erstellen lassen. Der Entwickler hat dabei Einblick, wie sie erstellt wurden, damit er sie künftig weiterentwickeln kann. So soll die Entstehung einer Blackbox vermieden werden.

SageMaker Debugger gegen Model Drift

Machine-Learning-Modelle haben die fatale Eigenschaft, sich durch „Model Drift“ selbst weiterzuentwickeln und dabei womöglich einen unerwünschten Bias zu erwerben, also eine unerwünschte Voreingenommenheit, z. B. gegen bestimmte gesellschaftliche Gruppen. Der neue Amazon SageMaker Debugger erlaubt eine bessere Erklärbarkeit der Modelle, eine Echtzeit-Überwachung der Modelle und soll Entwicklern helfen, die Vorhersagekraft zu erhöhen sowie Trainingszeiten zu reduzieren. Diese Trainingszeiten machen zwar „nur“ zehn Prozent der KI-Kosten aus (90 Prozent entfallen also auf Inferenz), können aber zeitintensiv sein.

Ein weiteres Werkzeug, um der „Model Drift“ entgegenzuwirken, stellt der Amazon SageMaker Model Monitor dar. Er hilft Entwicklern, Konzept-Abweichungen zu erkennen, um festzustellen, wann die Leistung eines laufenden Modells, das sich bereits in der Produktion befindet, vom ursprünglich trainierten Modell abweicht und dafür Gegenmaßnahmen zu ergreifen. Dieser Schritt geht also wesentlich über die Entwicklungsphase hinaus und überwacht den realen Betrieb eines Modells.

(ID:46284134)

Über den Autor