Sprachmodell wurde auf Nvidia-KI trainiert Nvidia beschleunigt die Inferenz auf Meta Llama 3

Von Bernhard Lück 1 min Lesedauer

Anbieter zum Thema

In Zusammenarbeit mit Meta kündigt Nvidia die Verfügbarkeit von beschleunigten Versionen von Llama 3 an. Diese seien für Nvidia-GPUs in Cloud-, Rechenzentrums-, Edge- und PC-Umgebungen optimiert. Llama 3 werde als Nvidia-NIM-Microservice mit einer Standard-API angeboten.

Llama 3, die jüngste Version des großen Sprachmodells von Meta, wurde mit Nvidia-Technologie entwickelt.(Bild:  Nvidia / Meta)
Llama 3, die jüngste Version des großen Sprachmodells von Meta, wurde mit Nvidia-Technologie entwickelt.
(Bild: Nvidia / Meta)

Nvidia zufolge trainierten die Meta-Ingenieure Llama 3 auf einem Computer-Cluster mit 24.576 Nvidia-H100-Tensor-Core-GPUs, die mit einem Nvidia-Quantum-2-InfiniBand-Netzwerk verbunden waren. Meta verfolge bereits Pläne zur Skalierung seiner Infrastruktur auf 350.000 H100-GPUs, um den Stand der Technik in der generativen KI weiter voranzutreiben.

Entwickler können Llama 3 unter ai.nvidia.com ausprobieren. Llama sei als Nvidia-NIM-Microservice mit einer Standard-Programmierschnittstelle verpackt und könne überall eingesetzt werden.

Unternehmen haben die Möglichkeit, Llama 3 mithilfe von Nvidia NeMo, einem Open-Source-Framework für LLMs und Teil der Nvidia-AI-Enterprise-Plattform, mit ihren Daten feinabzustimmen. Benutzerdefinierte Modelle könnten mit Nvidia-TensorRT-LLM für die Inferenz optimiert und mit Nvidia-Triton-Inference-Server bereitgestellt werden.

Llama 3 laufe auch auf Nvidia Jetson Orin für Robotik- und Edge-Computing-Geräte, um interaktive Agenten wie die im Jetson AI Lab zu erstellen. Darüber hinaus beschleunigten Nvidia-RTX- und -GeForce-RTX-GPUs für Workstations und PCs die Inferenz auf Llama 3.

Best Practices bei der Bereitstellung eines LLMs für einen Chatbot beinhalten ein Gleichgewicht zwischen niedriger Latenz, guter Lesegeschwindigkeit und optimaler GPU-Nutzung, um die Kosten zu senken. Ein solcher Dienst muss Token – das ungefähre Äquivalent von Wörtern für ein LLM – mit etwa der doppelten Lesegeschwindigkeit eines Benutzers liefern, d. h., etwa zehn Token pro Sekunde.

Nach diesen Maßstäben habe ein einzelner Nvidia-H200-Tensor-Core-Grafikprozessor in einem ersten Test mit der Version von Llama 3 mit 70 Mrd. Parametern etwa 3.000 Token pro Sekunde erzeugt – genug, um etwa 300 gleichzeitige Benutzer zu bedienen. Ein einzelner Nvidia-HGX-Server mit acht H200-GPUs könne demzufolge 24.000 Token pro Sekunde liefern und somit rund 2.400 Benutzer gleichzeitig unterstützen.

Für Edge-Geräte habe die Version von Llama 3 mit 8 Mrd. Parametern bis zu 40 Token pro Sekunde auf Jetson AGX Orin und 15 Token pro Sekunde auf Jetson Orin Nano generiert.

(ID:50009228)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung