Leibniz-Rechenzentrum Garching Eine neue Maschine für KI und HPC
Anbieter zum Thema
Die Anforderungen an die Hardware steigen in KI und beim Hochleistungsrechnen stetig. Die Antwort darauf sind neue Ansätze bei Chip- und Rechnerdesign. Eine neuartige Kombi-Architektur wird jetzt das Leibniz-Rechenzentrum (LRZ) in Garching implementieren.

Wenn es etwas gibt, von dem die Hochleistungs-IT nicht genug bekommen kann, dann ist das Rechnerleistung. Das gilt ganz besonders für KI, maschinelles Lernen, Big Data und ähnliche Anwendungen.
Wie steil die Anforderungen gerade an neuronale Netze steigen, zeigt das Beispiel des Sprachverstehens. Hier gibt es zwei bekannte Modelle: BERT und GPT, inzwischen in Version 3 in Verwendung. BERT Basic begnügte sich im Jahr 2018 noch mit 110 Millionen Parametern. GPT-3 brauchte im Jahr 2020 bereits 175 Milliarden – das ist 1800-mal mehr.
Nach oben sind für die vorhersehbare Zukunft die Grenzen offen. Prof. Dr. Dieter Kranzlmüller, Vorstand des Direktoriums des Leibniz-Rechenzentrums in Garching bei München: „Die Bedarfe steigen wöchentlich.“
Zentren wie das LRZ nehmen solche Impulse auf. Man sehe sich als Digitalisierungspartner , der gemeinsam mit Herstellern versuche, Kunden die am besten passende Infrastruktur zur Verfügung zu stellen. Dabei, so Kranzlmüller, setze man auch gern neue Technologien und maßgeschneiderte Installationen ein.
Eine solche neue Technologie für KI und HPC wird nun in Garching implementiert – unterstützt durch Gelder aus den 600 Millionen Euro, die Bayern für KI und Supercomputing Supertech (Supercomputing, Quantencomputing, KI, Big Data) im Rahmen seiner Hightech-Agenda bereitstellt. Denn den steigenden Anforderungen sind alte Hardwaredesigns kaum gewachsen. Aus diesem Grund entwickeln Start-ups schon seit einigen Jahren an vollkommen neuen Chips, die speziell für die Wissensverarbeitung und neuronales Lernen gebaut sind.
Zwei Systeme werden gekoppelt
Das neue System besteht aus einem HPE Superdome Flex, und einer CS-2 des KI-Chip-Start-ups Cerebras. Diese Silicon-Valley-Firma hat mit WSE (Wafer Scale Engine) ein gigantisches Chipdesign entwickelt, das die Arbeit eines ganzen GPU-Clusters leistet. Es handelt sich bereits um die zweite Generation: Die erste hatte noch um 400.000 Cores, bei WSE-2 sind es bereits 850.000. Die Fertigungstechnologie wurde von 16 auf jetzt sieben Nanometer geschrumpft.
Wie Dr. Robert Heße aus dem technischen Team von Cerebras, zugeschaltet aus Kalifornien, berichtete, stecken weitere Generationen bereits in der Pipeline des Herstellers. „Mit unserer Architektur können wir Deep-Learning-Trainings, die sonst Monate dauern, wesentlich schneller erledigen.“ Zudem sei die eigene Architektur weit unkomplizierter und günstiger als ein GPU-Cluster. Heße: „Wir wollen diese Technologien zugänglicher machen.“
Interne Vernetzungsmatrix für die Cores
Der Chip schafft 2,64 Millionen Transaktionen pro Sekunde. Jeder Core ist direkt über eine schnelle Verbindung mit seinen vier Nachbarn verbunden. Alle Cores können direkt auf 40 Gigabyte On-Chip-Memory zugreifen. Die Gesamtbandbreite des Speichers liegt bei 20 Petabyte. Die Fabric hat eine Fabric mit 220 Petabit pro Sekunde. Insgesamt ist der Chip so groß wie ein großer Teller, genau beträgt die Fläche 46.225 Quadratmillimeter.
Das Drumherum wurde ebenfalls neu gestaltet, sodass der Chip nun eingebettet in das System CS-2 kommt. Das des LRZ ist erst das zweite in Europa mit Cerebras-Ausrüstung. Das erste, ein CS-1-Doppelsystem, steht in Edinborough. Der CS-2 passt in ein Standardrack.
Softwarestack versteht gängige NN-Frameworks
Mit dabei ist auch ein Softwarestack samt Compiler, der aber die gängigen Deep-Learning-Frameworks, insbesondere Tensorflow und PyTorch, versteht. Kunden müssen also ihre bestehende Neuronale-Netzwerk-Software nicht neu schreiben, um damit arbeiten zu können. Außerdem liefert Cerebras ein Software-Entwicklungskit, mit dem Anwender ihre eigenen Kernanwendungen schreiben können. „Anwender können dieses System wie ein Ein-Kernel-System nutzen“, sagt Heße. „Der komplexe Cluster-Aufbau und die Cluster-Verwaltung fallen weg.“
Der HPE Superdome dient als Host für die CS-2. Er übernimmt Aufgaben aus der Datenvor- und Nachbereitung. Das HPE-System besteht aus einem Basis- und drei Erweiterungschassis. Es arbeitet mit 16 Intel-Xeon-Prozessoren und bringt zwölf Terabyte Systemspeicher mit.
Dazu kommen 100 Terabyte Rohkapazität lokaler NVMe-Speicher. In jedem der vier Schränke stecken acht Gen 3-PCLe-Karten mit acht Kanälen, insgesamt also 32 Karten. Die Anbindung an das Cerebras-System laufen über acht 100-GbE-PCIe-Verbindungen. Acht Infiniband- Connections verbinden es mit der Netzwerkinfrastruktur des LRZ.
Genug Dateninput für die CS-2 bei geringem Energieverbrauch
„Diese Bandbreite reicht, um dem Cerebras-System jederzeit genug Daten zuzuführen“, sagt Dr. Utz-Uwe Haus, Leiter des HPC/AI-Forschungszentrums von HPE in der Region EMEA. Das sei die Voraussetzung für einen effizienten Betrieb. Zudem müssten die Daten nicht mehr dupliziert, zerteilt und umverteilt werden, weil der gesamte Speicher des CS-2 und des Superdome gemeinsam genutzt wird. Der Superdome kann diesen Gesamtspeicher entsprechend konfiguriert als einen Adressraum verarbeiten.
Aus Umweltsicht interessant: Der Energieaufwand der Gesamtlösung ist vergleichsweise gering: Das Cerebras-System verbraucht 23 Kilowatt, der Verbrauch des Superdome ist „knapp zweistellig“ (Haus). Außerdem spare man kräftig Energie, die bei Verwendung eines konventionellen Clusters mit acht bis 16 Knoten für Datenbewegungen aufgewandt werden müsse.
LRZ will auch andere KI-Chips ausprobieren
Kranzlmüller betont, man habe sich eine Reihe innovativer KI-Chiparchitekturen angesehen, aber letztlich für Cerebras entschieden. Das heißt aber nicht, dass nun eine ewige Verbindung zementiert ist. „Wir werden mit Sicherheit auch andere KI-Hardwarearchitekturen ausprobieren“, kündigte Kranzlmüller an. Ausschlaggebend sei dafür unter anderem der riesige gemeinsam genutzte Speicher gewesen. Eine Skalierung des Systems vor Ort sei durchaus möglich.
Einen Einblick in die Rolle, die strategische Partnerschaften wie die mit Cerebras und HPE für das LRZ spielen, gab Laura Schulz, die beim LRZ für den Bereich Strategie zuständig ist. Es komme darauf an, schon heute zu überlegen, welche Architekturen und Technologien die LRZ-Kunden zukünftig brauchen könnten.
Innovative Architekturen im Test
Sie müssten immer größere Datensätze verarbeiten, verlangten detailliertere Antworten und eine umfangreichere Validierung der genutzten Modelle. Diese würden immer komplexer, beispielsweise bei der Verarbeitung von Bildern oder multimodalen Daten. „Wir suchen nach Technologien, die die Herausforderungen der Kunden lösen können, was letztlich wissenschaftliche Durchbrüche ermöglicht.“
Um dazu Tests durchzuführen, wird BEAST aufgebaut. Das Akronym steht für „Bavarian Energy, Architecture, Software Testbed“ und beschreibt ein System, das aus den unterschiedlichsten Hardwarekomponenten zusammengebaut wird. Es enthält von ihnen jeweils nur wenige Knoten. Zu den verwendeten Komponenten gehören GPU, CPU, FPGA und neuartige Hardware, beispielsweise neuartige KI-Chips, Prototypen, Engineering Samples etc. Nicht alles davon ist offen kommunizierbar.
An der Schnittstelle zwischen HPC und KI
Der Das Cerebras/Superdome-System soll vor allem an der Schnittstelle zwischen KI und HPC zum Einsatz kommen. Also beispielsweise, wenn auf bestehenden Modellen Simulationen laufen, die in Echtzeit anhand von Daten aus der realen Welt überprüft und gegebenenfalls angepasst werden.
In einem Monat soll das System ans LRZ geliefert werden – wann es einsatzbereit ist, steht noch nicht fest „Die Nachfrage ist da“, betont Kranzlmüller.
Artikelfiles und Artikellinks
(ID:48395560)