Suchen

KI-Inferenz am Edge Bringt der AnIA-Chip den Durchbruch?

| Autor / Redakteur: Michael Eckstein / Nico Litzel

10.000 TOPS/W als Ziel: Imec hat einen Inferenzbeschleuniger für das Edge entwickelt, der Deep-Neural-Network-Berechnungen direkt in SRAM-Zellen ausführt. Der erste „AnIA“-Chip schafft per Analog-in-Memory-Computing bereits 2900 TOPS/W. Entscheidenden Anteil daran hat der 22FDX-CMOS-Prozess der Dresdner Globalfoundries-Fab.

Firma zum Thema

Besser analog: Imecs AnIA-Chip berechnet Deep-Neural-Networks analog direkt in den SRAM-Speicherzellen – und soll so eine extrem gute Energieeffizienz erreichen.
Besser analog: Imecs AnIA-Chip berechnet Deep-Neural-Networks analog direkt in den SRAM-Speicherzellen – und soll so eine extrem gute Energieeffizienz erreichen.
(Bild: Imec)

Das Forschungs- und Innovationszentrum für Nanoelektronik und digitale Technologien, imec, hat gemeinsam mit dem Halbleiterhersteller Globalfoundries (GF) einen neuen Chip für besonders energieeffiziente Künstliche-Intelligenz-(KI-)Berechnungen am Edge entwickelt. Die Kooperationspartner sprechen bereits von einem „Durchbruch bei KI-Chips, die DNN auf IoT-Edge-Geräte bringen“.

Der neue Chip basiert auf der „Analog in Memory Computing“-(AiMC-)Architektur von Imec und ist für den 22FDX-CMOS-Prozess von GF ausgelegt. Seine Architektur ist für das Ausführen sogenannter tiefer neuronaler Netzwerkberechnungen (Deep Neural Network, DNN) auf In-Memory-Computing-Hardware in der analogen Domäne optimiert.

Bildergalerie

Imec gibt eine rekordverdächtig hohe Energieeffizienz von bis zu 2900 Tera Operationen pro Sekunde pro Watt (TOPS/W) an. Damit wäre der Beschleunigungs-Chip sehr gut geeignet für Inferenz-Berechnungen am Edge (Inference-on-the-edge) in Geräten, die mit wenig Strom auskommen müssen. Nach Ansicht von Imec-Vertretern werden sich die Vorteile der vorgestellten Technik in Bezug auf Datenschutz, Sicherheit und Latenzzeit auf KI-Anwendungen auf ein breites Spektrum von Edge-Geräten auswirken – von intelligenten Lautsprechern bis hin zu selbstfahrenden Fahrzeugen.

Von-Neumann-Bottleneck aufweiten

Seit den Anfängen des digitalen Computerzeitalters ist der Prozessor vom Speicher getrennt. Diese Architektur hat Vor-, aber eben auch gravierende Nachteile – vor allem dann, wenn Operationen auf sehr große Datenmenge angewendet werden sollen. Bei herkömmlichen Prozessoren mit klassischer Von-Neumann-Architektur müssen dazu sämtliche zu verarbeitenden Daten aus dem Speicher abgerufen, in der zentralen Recheneinheit verrechnet und zurück in den Speicher geschrieben werden.

Dieses Laden der Daten aus dem Speicher kann deutlich länger dauern als die eigentlichen Berechnungen – insbesondere in neuronalen Netzen, die große Vektor-Matrix-Multiplikationen einsetzen. Man spricht hier vom „Von-Neumann-Bottleneck“.

Analog-In-Memory-Computing (AiMC) bringt zusammen, was zusammengehört

Hinzu kommt: Die Berechnungen werden mit der Präzision eines Digitalrechners durchgeführt und benötigen eine beträchtliche Menge an Energie. Neuronale Netze können jedoch auch genaue Ergebnisse erzielen, wenn die Vektor-Matrix-Multiplikationen mit einer geringeren Präzision auf analoger Technik durchgeführt werden.

Diesen Ansatz haben Forscher und Entwickler des Imec und seiner Industriepartner im „Industrial Affiliation Machine Learning Program“ verfolgt. Sie haben eine neue Architektur entwickelt, die den von Neumann-Engpass eliminiert, indem sie analoge Berechnungen in SRAM-Zellen durchführt.

„Analog Inference Accelerator“ AnIA erreicht 2900 TOPS/W

Herausgekommen ist der „Analog Inference Accelerator“, kurz AnIA. Dieser auf der Halbleiterplattform 22FDX von GF basierende KI-Beschleuniger erreicht nach Aussagen der Entwicklungspartner eine außergewöhnliche Energieeffizienz. Charakterisierungstests zeigen eine Leistungseffizienz von bis zu 2900 TOPS/W. Zum Vergleich: Bisherige für das Edge vorgesehene Inferenzprozessoren erreichen Werte eher im zwei- bis unteren dreistelligen Bereich.

Die bislang oft begrenzte KI-Rechenleistung in kleinen Sensoren und Low-Power-Edge-Geräten erforderte bisher, beispielsweise die Mustererkennung in aufgenommenen Messsignalen in leistungsfähige Gateways oder gleich in Cloud-Rechenzentren auszulagern. Dadurch entstehen Verzögerungen, möglicherweise Kosten für das Nutzen von Mobilfunkverbindungen und unter Umständen Probleme, wenn zu viele Daten sich an Aggregationspunkten stauen. AnIA soll nun typische Inferenzberechnungen lokal, also am oder nahe am Punkt der Datenerfassung, ermöglichen – und so lästige Latenz- und Stauprobleme lösen.

„Zehn- bis hundertmal bessere Energieeffizienz“

„Das erfolgreiche Tape-Out von AnIA markiert einen wichtigen Schritt hin zur Validierung von Analog-in-Memory-Computing, kurz AiMC“, sagte Diederik Verkest, Programmdirektor für maschinelles Lernen am imec. Die Referenzimplementierung zeige nicht nur, dass analoge In-Memory-Berechnungen in der Praxis möglich sind, sondern auch, dass sie eine zehn- bis hundertmal bessere Energieeffizienz erreichen als digitale Beschleuniger.

In dem Programm für maschinelles Lernen am Imec optimiere man bestehende und neu entstehende Speichergeräte für analoge In-Memory-Berechnungen. „Die vielversprechenden Ergebnisse unserer Tests ermutigen uns, diese Technik weiter zu entwickeln“, blickt Verkest nach vorn. „Unser Ziel lautet 10.000 TOPS/W!“

FD-SOI-Technik sorgt für extrem niedrige Verluste

„Globalfoundries hat bei der Implementierung des neuen AnIA-Chips eng mit Imec zusammengearbeitet und hierfür die eigene, stromsparende und leistungsstarke 22FDX-Plattform verwendet“, erklärt Hiren Majmudar, Vizepräsident Produkt Management für Computing und Wired-Infrastruktur bei GF. Der 22FDX-Prozess arbeitet mit 22 nm kleinen Strukturen und nutzt die FD-SOI-Technologie (Fully Depleted Silicon on Insulator). Auch andere Chiphersteller wie STMicro, Samsung und Renesas nutzen FD-SOI, um ICs mit extrem niedrigem Stromverbrauch zu realisieren.

Nach Angaben von Majmudar funktioniert 22FDX mit nur 0,5 V und 1 Pikoampere pro Micron zuverlässig und erreicht eine extrem niedrige Standby-Leckage. Der jetzt realisierte Testchip sei ein entscheidender Schritt vorwärts – schließlich zeige er, wie 22FDX den Stromverbrauch energieintensiver KI- und Machine-Learning-Anwendungen deutlich senken könne.

Derzeit arbeitet GF daran, die neuartige AiMC-Funktion an seiner hochmodernen 300-mm-Produktionslinie in der Fab 1 in Dresden in den eigenen 22FDX-Prozess zu integrieren. Damit soll in Zukunft eine „differenzierte Lösung speziell für den KI-Markt entstehen“, sagt Majmudar.

Dieser Artikel stammt von unserem Partnerportal Elektronikpraxis.

(ID:46883860)