AWS hat mit „Bedrock“, „Titan FMs“ und „CodeWhisperer“ Tools angekündigt, die den Einsatz und die Nutzung von Generativer KI in Unternehmen vereinfachen sollen. Zudem macht das Unternehmen mit „Inf2“ und „Trn1n“ zwei EC2-Instanzen für Inferenz und Training von ML-Modellen verfügbar.
Amazon Web Services macht für Generative KI mehrere Ressourcen verfügbar, darunter Amazon Bedrock.
(Bild: AWS)
Bei Amazon Bedrock und Amazon Titan FMs handelt es sich um einen neuen Managed Service, mit dem Kunden einsatzbereite Anwendungen auf Basis von Generativer KI erstellen und skalieren können. Amazon Bedrock soll vortrainierte FMs (Foundation Models) von KI-Start-ups wie AI21 Labs („Jurassic-2“), Anthropic („Claude“) und Stability AI über eine Programmierschnittstelle zugänglich machen. Amazon Bedrock ist ab sofort in der Preview-Version verfügbar. Als Integrationspartner stehen Deloitte und Slalom bereits in den Startlöchern.
Shishir Mehrotra, der CEO von Coda AI, ist besonders mit der Performance, der Skalierbarkeit und der Qualität von Bedrock zufrieden: „Wir schätzen es besonders, dass wir Amazon Titan FMs über eine simple API nutzen können, ohne dafür Infrastruktur provisionieren und verwalten zu müssen. Da wir schon all unsere Daten auf AWS haben, können wir mit Bedrock generative AI schnell integrieren, ohne uns um Datenschutz und Datensicherheit sorgen zu müssen, sodass unsere Daten geschützt sind. Weil bereits Zehntausende von Teams Coda AI nutzen, etwa bei Uber, sind für uns Zuverlässigkeit und Skalierbarkeit wirklich wichtig.“
Bildergalerie
Funktionsmodelle
Kunden erhalten zudem Zugang zu Amazon Titan FMs, eine von AWS entwickelte Foundation-Model-Familie. Foundation Models sind Machine-Learning-Modelle, die schon anhand sehr großer Datenmengen vortrainiert sind. Jüngste Fortschritte beim Deep Learning mit Neuronalen Netzwerken haben Modelle mit mehreren Milliarden Variablen entstehen lassen. 2019 hatte das größte FM nur 330 Millionen Parameter, heute sind 500 Milliarden Variablen nichts Besonderes mehr. Bekannte Beispiele sind GPT und Stable Diffusion.
Spezifische FMs wurden seit Jahren entwickelt, schreibt Swami Sivasubramanian, der Amazon-Manager für KI-Ressourcen bei Amazon, in seinem Blogbeitrag. Doch jetzt werden mit GPT & Co. geradezu Allzweckinstrumente geschaffen.
Mit Bedrock lassen sich viele FMs direkt via API nutzen, mit Titan FMs bietet Amazon seine eigenen Functional Models an. Diese vortrainierten Modelle basieren ebenfalls auf Large Language Models (LLMs) wie GPT oder Stable Diffusion. Zu den Aufgaben gehören Zusammenfassungen, Texterstellung, Suche nach unangemessenem oder schädlichem Textinhalt (wie Schimpfwörter und Hate Speech).
Mit dem LLM „Titan Embeddings“ lassen sich Texteingaben wie Wörter, Phrasen oder ganze Absätze in numerische Darstellungen, sogenannte „Einbettungen“, übertragen, die die semantische Bedeutung des jeweiligen Textes enthalten. Obwohl dieses LLM also keinen Text erzeugt, ist es nützlich für die Suche und die Personalisierung, denn indem das Modell Embeddings vergleicht, ist das Modell in der Lage, relevantere und kontextbezogene Ergebnisse zu liefern, als wenn es Wörter vergleichen würde.
Amazon Inf2-Instanzen für EC2
Die Inf2-Instanzen, die nun allgemein verfügbar werden, basieren auf von AWS eigens entwickelten Inferentia2-Chips, die speziell für große generative KI-Anwendungen mit Modellen mit Hunderten von Milliarden Parametern optimiert sind. Inf2 bietet laut Hersteller für Inferenzprozesse einen bis zu viermal höheren Datendurchsatz und eine bis zu zehn Mal niedrigere Latenzzeit im Vergleich zu Inferentia-basierten Instanzen der vorherigen Generation.
Inf2-Instances werden von bis zu zwölf AWS-Inferentia2-Beschleunigern angetrieben, die mit Ultra-High-Speed-NeuronLink für eine optimierte kollektive Kommunikation verbunden sind. Sie unterstützen NeuronLink, eine Intra-Instance Ultra-High-Speed nichtverriegelnde Vernetzung, für eine schnelle Kommunikation zwischen diesen Inferentia2-Beschleunigern. Sie bieten bis zu 2,3 Petaflops an Rechenleistung und bis zu viermal schnelleren Durchsatz und einer zehnfach niedrigeren Latenz als Inf1-Instances.
Um sich großen DL-Modellen anzupassen, bieten Inf2-Instances bis zu 384 Gigabyte an geteiltem Beschleunigerspeicher (32 GB HBM2e in jedem Inferentia2-Beschleuniger) mit 9,8 TB/s Gesamtspeicherbandbreite.
Die vier verschiedenen Inf2-Instances verfügen über eine vollständige Unterstützung für die Datentypen FP32, TF32, BF16, FP16, UINT8 und den neu konfigurierbaren Datentyp FP8 (cFP8). AWS Neuron übernimmt hochpräzise FP32-Modelle und wandelt sie automatisch in Datentypen mit geringerer Genauigkeit um, wobei Genauigkeit und Leistung optimiert werden. Autocasting verkürzt die Zeit bis zur Markteinführung, da keine Nachschulung mit geringerer Präzision erforderlich ist.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Inf2-Instances bieten Hardware-Optimierungen und Software-Support für dynamische Eingabegrößen und benutzerdefinierte Operatoren, die in C++ geschrieben sind. Sie unterstützen auch das stochastische Runden, eine Methode des wahrscheinlichkeitsbasierten Rundens, das im Vergleich zu herkömmlichen Rundungsmodi eine hohe Leistung und höhere Genauigkeit ermöglicht.
Zu den AWS-Kunden, die die Inf2-Instanzen bereits verwenden, zählt beispielsweise Qualtrics.
Amazon Trn1n-Instanzen für EC2
Die ebenfalls letzten November angekündigten Amazon-Trn1n-Instanzen für EC2 sind nun allgemein verfügbar. Viele AWS-Kunden, darunter Helixon, Money Forward und das Amazon Search-Team, verwenden bereits Trn1-Instanzen, um die Trainingszeit von ML-Modellen auf AWS von Monaten auf Wochen oder gar Tage zu verkürzen.
Die neuen, Netzwerk-optimierten Trn1n-Instanzen auf Basis von AWS-Trainium-Chips sollen laut Amazon im Vergleich zur vorherigen Generation eine verdoppelte Netzwerkbandbreite von 1.600 Gbit/s und eine um 20 Prozent höhere Leistung für das Trainieren großer, netzwerkintensiver ML-Modelle bieten.
Amazon CodeWhisperer
Bei Amazon CodeWhisperer, das nun allgemein verfügbar wird, handelt es sich um einen Service, der Entwicklern Code-Empfehlungen auf der Grundlage ihrer Kommentare in natürlicher Sprache und des Codes in der integrierten Entwicklungsumgebung (IDE) generiert. Es ist also ein nützliches Werkzeug, das den Entwickler produktiver macht und Fehlerquellen schon in der Design-Phase eliminieren hilft.
CodeWhisperer ist sowohl auf öffentlich verfügbaren als auch Amazon-Code trainiert. Mit dem Service erhalten Entwickler eine neue Möglichkeit, Code für AWS-Services deutlich schneller, sicherer und genauer zu generieren. Wie Amazon berichtet, zeigte sich bereits in der Preview beispielsweise, dass Entwickler ihre Aufgaben mit CodeWhisperer um bis zu 57 Prozent schneller abschließen konnten. Ab sofort ist der Amazon CodeWhisperer für alle Entwickler kostenlos verfügbar. Es ist bei Accenture bereits im Einsatz.