AWS Bedrock Amazon bietet Tools und EC2-Instanzen für Generative KI

Von Michael Matzer 4 min Lesedauer

Anbieter zum Thema

AWS hat mit „Bedrock“, „Titan FMs“ und „CodeWhisperer“ Tools angekündigt, die den Einsatz und die Nutzung von Generativer KI in Unternehmen vereinfachen sollen. Zudem macht das Unternehmen mit „Inf2“ und „Trn1n“ zwei EC2-Instanzen für Inferenz und Training von ML-Modellen verfügbar.

Amazon Web Services macht für Generative KI mehrere Ressourcen verfügbar, darunter Amazon Bedrock.(Bild:  AWS)
Amazon Web Services macht für Generative KI mehrere Ressourcen verfügbar, darunter Amazon Bedrock.
(Bild: AWS)

Bei Amazon Bedrock und Amazon Titan FMs handelt es sich um einen neuen Managed Service, mit dem Kunden einsatzbereite Anwendungen auf Basis von Generativer KI erstellen und skalieren können. Amazon Bedrock soll vortrainierte FMs (Foundation Models) von KI-Start-ups wie AI21 Labs („Jurassic-2“), Anthropic („Claude“) und Stability AI über eine Programmierschnittstelle zugänglich machen. Amazon Bedrock ist ab sofort in der Preview-Version verfügbar. Als Integrationspartner stehen Deloitte und Slalom bereits in den Startlöchern.

Shishir Mehrotra, der CEO von Coda AI, ist besonders mit der Performance, der Skalierbarkeit und der Qualität von Bedrock zufrieden: „Wir schätzen es besonders, dass wir Amazon Titan FMs über eine simple API nutzen können, ohne dafür Infrastruktur provisionieren und verwalten zu müssen. Da wir schon all unsere Daten auf AWS haben, können wir mit Bedrock generative AI schnell integrieren, ohne uns um Datenschutz und Datensicherheit sorgen zu müssen, sodass unsere Daten geschützt sind. Weil bereits Zehntausende von Teams Coda AI nutzen, etwa bei Uber, sind für uns Zuverlässigkeit und Skalierbarkeit wirklich wichtig.“

Bildergalerie

Funktionsmodelle

Kunden erhalten zudem Zugang zu Amazon Titan FMs, eine von AWS entwickelte Foundation-Model-Familie. Foundation Models sind Machine-Learning-Modelle, die schon anhand sehr großer Datenmengen vortrainiert sind. Jüngste Fortschritte beim Deep Learning mit Neuronalen Netzwerken haben Modelle mit mehreren Milliarden Variablen entstehen lassen. 2019 hatte das größte FM nur 330 Millionen Parameter, heute sind 500 Milliarden Variablen nichts Besonderes mehr. Bekannte Beispiele sind GPT und Stable Diffusion.

Spezifische FMs wurden seit Jahren entwickelt, schreibt Swami Sivasubramanian, der Amazon-Manager für KI-Ressourcen bei Amazon, in seinem Blogbeitrag. Doch jetzt werden mit GPT & Co. geradezu Allzweckinstrumente geschaffen.

Mit Bedrock lassen sich viele FMs direkt via API nutzen, mit Titan FMs bietet Amazon seine eigenen Functional Models an. Diese vortrainierten Modelle basieren ebenfalls auf Large Language Models (LLMs) wie GPT oder Stable Diffusion. Zu den Aufgaben gehören Zusammenfassungen, Texterstellung, Suche nach unangemessenem oder schädlichem Textinhalt (wie Schimpfwörter und Hate Speech).

Mit dem LLM „Titan Embeddings“ lassen sich Texteingaben wie Wörter, Phrasen oder ganze Absätze in numerische Darstellungen, sogenannte „Einbettungen“, übertragen, die die semantische Bedeutung des jeweiligen Textes enthalten. Obwohl dieses LLM also keinen Text erzeugt, ist es nützlich für die Suche und die Personalisierung, denn indem das Modell Embeddings vergleicht, ist das Modell in der Lage, relevantere und kontextbezogene Ergebnisse zu liefern, als wenn es Wörter vergleichen würde.

Amazon Inf2-Instanzen für EC2

Die Inf2-Instanzen, die nun allgemein verfügbar werden, basieren auf von AWS eigens entwickelten Inferentia2-Chips, die speziell für große generative KI-Anwendungen mit Modellen mit Hunderten von Milliarden Parametern optimiert sind. Inf2 bietet laut Hersteller für Inferenzprozesse einen bis zu viermal höheren Datendurchsatz und eine bis zu zehn Mal niedrigere Latenzzeit im Vergleich zu Inferentia-basierten Instanzen der vorherigen Generation.

Inf2-Instances werden von bis zu zwölf AWS-Inferentia2-Beschleunigern angetrieben, die mit Ultra-High-Speed-NeuronLink für eine optimierte kollektive Kommunikation verbunden sind. Sie unterstützen NeuronLink, eine Intra-Instance Ultra-High-Speed nichtverriegelnde Vernetzung, für eine schnelle Kommunikation zwischen diesen Inferentia2-Beschleunigern. Sie bieten bis zu 2,3 Petaflops an Rechenleistung und bis zu viermal schnelleren Durchsatz und einer zehnfach niedrigeren Latenz als Inf1-Instances.

Um sich großen DL-Modellen anzupassen, bieten Inf2-Instances bis zu 384 Gigabyte an geteiltem Beschleunigerspeicher (32 GB HBM2e in jedem Inferentia2-Beschleuniger) mit 9,8 TB/s Gesamtspeicherbandbreite.

Die vier verschiedenen Inf2-Instances verfügen über eine vollständige Unterstützung für die Datentypen FP32, TF32, BF16, FP16, UINT8 und den neu konfigurierbaren Datentyp FP8 (cFP8). AWS Neuron übernimmt hochpräzise FP32-Modelle und wandelt sie automatisch in Datentypen mit geringerer Genauigkeit um, wobei Genauigkeit und Leistung optimiert werden. Autocasting verkürzt die Zeit bis zur Markteinführung, da keine Nachschulung mit geringerer Präzision erforderlich ist.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Inf2-Instances bieten Hardware-Optimierungen und Software-Support für dynamische Eingabegrößen und benutzerdefinierte Operatoren, die in C++ geschrieben sind. Sie unterstützen auch das stochastische Runden, eine Methode des wahrscheinlichkeitsbasierten Rundens, das im Vergleich zu herkömmlichen Rundungsmodi eine hohe Leistung und höhere Genauigkeit ermöglicht.

Zu den AWS-Kunden, die die Inf2-Instanzen bereits verwenden, zählt beispielsweise Qualtrics.

Amazon Trn1n-Instanzen für EC2

Die ebenfalls letzten November angekündigten Amazon-Trn1n-Instanzen für EC2 sind nun allgemein verfügbar. Viele AWS-Kunden, darunter Helixon, Money Forward und das Amazon Search-Team, verwenden bereits Trn1-Instanzen, um die Trainingszeit von ML-Modellen auf AWS von Monaten auf Wochen oder gar Tage zu verkürzen.

Die neuen, Netzwerk-optimierten Trn1n-Instanzen auf Basis von AWS-Trainium-Chips sollen laut Amazon im Vergleich zur vorherigen Generation eine verdoppelte Netzwerkbandbreite von 1.600 Gbit/s und eine um 20 Prozent höhere Leistung für das Trainieren großer, netzwerkintensiver ML-Modelle bieten.

Amazon CodeWhisperer

Bei Amazon CodeWhisperer, das nun allgemein verfügbar wird, handelt es sich um einen Service, der Entwicklern Code-Empfehlungen auf der Grundlage ihrer Kommentare in natürlicher Sprache und des Codes in der integrierten Entwicklungsumgebung (IDE) generiert. Es ist also ein nützliches Werkzeug, das den Entwickler produktiver macht und Fehlerquellen schon in der Design-Phase eliminieren hilft.

CodeWhisperer ist sowohl auf öffentlich verfügbaren als auch Amazon-Code trainiert. Mit dem Service erhalten Entwickler eine neue Möglichkeit, Code für AWS-Services deutlich schneller, sicherer und genauer zu generieren. Wie Amazon berichtet, zeigte sich bereits in der Preview beispielsweise, dass Entwickler ihre Aufgaben mit CodeWhisperer um bis zu 57 Prozent schneller abschließen konnten. Ab sofort ist der Amazon CodeWhisperer für alle Entwickler kostenlos verfügbar. Es ist bei Accenture bereits im Einsatz.

(ID:49331574)