Welche Hardware eignet sich zur KI-Beschleunigung?

Künstliche Intelligenz Welche Hardware eignet sich zur KI-Beschleunigung?

07.06.2018 Sebastian Gerstl Sebastian Gerstl

Anbieter zum Thema

EEMBC Embedded Microprocessor Benchmark Consortium

Lattice Semiconductor

Microsoft Corp.

NVIDIA GmbH

Cadence Design Systems GmbH

mehr weniger

Moderne Hardwarebeschleuniger haben den praktikablen Einsatz von Künstlicher Intelligenz in IT und Industrie in greifbare Nähe gerückt. Doch welche Technologie eignet sich hierfür besser: GPUs, DSPs, programmierbare FPGAs oder eigene, dedizierte Prozessoren?

Künstliche Intelligenz hat sich in rasender Geschwindigkeit vom Science-Fiction-Stilmittel zur praktischen Anwendbarkeit entwickelt. Schnellere Bandbreiten sowie leistungsfähigere Cloud-Anbindungen und Rechenzentrenmachen es möglich. Doch welche Ansprüche stellt KI an Hardware und welche Technologien werden diesen am besten gerecht?(Bild: © vchalup - stock.adobe.com) — Künstliche Intelligenz hat sich in rasender Geschwindigkeit vom Science-Fiction-Stilmittel zur praktischen Anwendbarkeit entwickelt. Schnellere Bandbreiten sowie leistungsfähigere Cloud-Anbindungen und Rechenzentrenmachen es möglich. Doch welche Ansprüche stellt KI an Hardware und welche Technologien werden diesen am besten gerecht?
(Bild: © vchalup - stock.adobe.com)

Künstliche Intelligenz und maschinelles Lernen – diese Themen existieren nicht erst seit heute. An Hochschulen wird das Thema bereits seit den 1950er-Jahren behandelt. Doch erst in den vergangenen Jahren haben Demonstrationen wie der selbstlernende AlphaGo-Computer oder ausgiebige Tests zum Autonomen Fahren dafür gesorgt, dass KI inzwischen ein greifbares Thema ist, dass auch bereits praktische Anwendung im Alltag findet. Vor allem die Geschwindigkeit und das Ausmaß, mit dem sogenannte neuronale Netzwerke trainiert werden können, haben in den vergangenen Jahren rapide zugenommen.

Moderne, dediziert auf KIs ausgerichtete Hardware-Beschleuniger, haben eine praktische Anwendbarkeit künstlicher Intelligenz in Echtzeit heute möglich gemacht. Dabei sind die technologischen Ansätze für eine solche dedizierte KI-Beschleunigung extrem unterschiedlich. So hat beispielsweise Prozessorhersteller Intel KI zu einem wichtigen Trendthema ausgerufen, dass auf verschiedenen technologischen Wegen verfolgt wird: Einerseits wird maschinelles Lernen auf Basis von FPGAs vorangetrieben, andererseits offeriert das Unternehmen mit Nervana eigene dedizierte, auf neuronale Netzwerke ausgelegte Prozessoren. Speziell im letzteren Umfeld konkurriert der Chip-Gigant mit, fördert aber auch zahlreiche Start-up-Unternehmen, die eigene Chip-Lösungen zur KI-Beschleunigung bieten.

Bildergalerie

Axel Köhler, NVIDIA Deep Learning Solution Architect: "KI wird keine eigene Branche sein - sie wird Teil jeder Branche sein. Es ist klar, dass dieses neue Computing-Modell die Computertechnologie der Verbraucher ebenso wie die der Unternehmen neu erfinden wird. "(Bild: NVIDIA)

Stephan Gillich, Director of Artificial Intelligence and Technical Computing – GTM, EMEA Datacenter Group, Intel Deutschland GmbH: "Besonders die intelligente Sprach- und Bilderkennung wird in den nächsten Jahren weiterhin deutliche Fortschritte machen.".(Bild: Intel)

Pulin Desai, Product Marketing Director, Tensilica Vision DSP Product Line: "Bis vor kurzem wurde die Inferenzierung von neuronalen Netzwerken überwiegend in der Cloud durchgeführt. Für die wachsende Zahl von Edge-Anwendungen, die eine geringere Latenz erfordern, ist dies allerdings problematisch."(Bild: Cadence)

Deepak Boppana, Senior Director, Product und Segment Marketing bei Lattice Semiconductor: "Beim Einsatz von KI in Edge-Geräten läuft es letztendlich auf vier Bereiche hinaus:Energieeffizienz, Chipgröße, Quantisierung und Kosten." (Bild: Lattice Semiconductor)

Bildergalerie mit 6 Bildern

Der ideale „neurale“ Prozessor: CPU, GPU oder FPGA? Oder doch ein dedizierter ASIC?

„Grundsätzlich ist es falsch zu fragen: Was ist besser für Künstliche Intelligenz – GPU, ASIC oder FPGA?“, sagt Doug Burger, Distinguished Engineer, MSR NExT und Mitglied von Microsofts „Project Brainwave“-Team. „Denn diese Technologien sind alle nur Mittel zum Zweck, um eine geeignete Architektur für ein Neuronales Netzwerk umzusetzen. Die Frage, die noch nicht beantwortet ist, lautet: Was ist die am besten geeignete Architektur? Hierüber ist man sich noch uneins.“

Grafikkarten von NVIDIA hatten in den vergangenen Jahren vor allem in akademischen Kreisen zunehmend Anwendung zum Trainieren von selbstlernenden Algorithmen gefunden. Denn die massiv parallelen Architekturen von GPUs und ihre explizite Eigenschaft für hohe Datendurchsätze eigenen sich nicht nur zur Grafikberechnung, sondern auch zur KI-Beschleunigung. Daher bietet der GPU-Hersteller inzwischen eigene, dedizierte auf die Anwendung von KI ausgelegte Plattformen wie Jetson, deren Herzstück die Graphics Processing Unit liefern.

Aber nicht nur GPUs verfügen über gute Eigenschaften für hohes, paralleles Data Streaming. Es ist genau diese Eigenschaft, die auch FPGAs für den Einsatz in der Telekommunikation oder als Co-Prozessoren in Datenzentren attraktiv macht. Auch DSPs, Digitale Signal-Prozessoren, kommen aus ganz ähnlichen Gründen für die zusätzliche Hardware-Beschleunigung in Betracht, um KI in Echtzeit anwendbar zu machen. Und Google, dass erst kürzlich seine Tensor Processing Unit (TPU) 3.0 vorgestellt hat, setzt in seinem Chip auf eine Reihe anwendungsspezifischer integrierter Schaltkreise (ASIC), die die nötige Beschleunigung zum KI-Training liefern.

Bei all diesen unterschiedlichen Ansätzen wird es allerdings schwierig, den Überblick zu behalten und die bereits vorhandenen technologischen Ansätze effizient zu vergleichen. Worauf kommt es bei der Hardware-Beschleunigung für künstliche Intelligenz konkret an? Was sind die individuellen Stärken der jeweiligen technologischen Ansätze, wenn es um dieses Anwendungsfeld geht? In welchen Bereichen können diese Vorzüge am besten ausgespielt werden? Zu diesem Zweck haben wir diverse Entwickler und Lösungsanbieter zu diesem Thema befragt. Geantwortet haben unter anderen Cadence, Intel, Lattice, Microsoft, NVIDIA und einige andere Firmen. Im Wochenverlauf wollen wir einzelne der Befragte, die uns ausführlich Auskunft gegeben haben, im Detail zu Wort kommen lassen. (Lesen Sie hier das Interview mit Axel Köhler, Deep Learning Solution Architect bei NVIDIA).

Hyperskalige Rechenzentren ermöglichen KI für Jedermann

Enorme Rechenleistung ist ohnehin einer der Hauptgründe, warum KI aktuell einen Boom durchläuft und die Anwendbarkeit praktikabel macht. Cloud-Computing, schnelle Internet-Verbindungen und der aus diesen Aspekten resultierende, leichte Zugang zu leistungsstarken Rechenzentren machen Supercomputer bzw. HPCs (High Performance Computing) nun gewissermaßen für Jedermann zugänglich. Es ist in erster Linie an dieser Stelle, wo ein Großteil der modernen, für KI angelegten Hardware ansetzt.

Ein großer Durchbruch für die moderne Wahrnehmung von Künstlicher Intelligenz in praktischen Anwendungen kam im Juni 2012 im Rahmen des Google-Brain-Projekts: KI-Forscher von Google und Professor Andre Ng von der Stanford University hatten einen KI-Cluster trainiert, der in der Lage war, selbsttätig Katzen in YouTube-Videos zu erkennen und von Menschen zu unterscheiden. Für das Training der Künstlichen Intelligenz war dazu noch ein Cluster aus 2000 CPUs notwendig, die in einem Rechenzentrum von Google arbeiteten. Kurze Zeit später tat sich NVIDIA mit Ng zusammen, um das Experiment auf Basis von GPUs zu wiederholen. Das Ergebnis: 12 GPUs reichten für das KI-Training aus, um dasselbe Ergebnis zu erzielen, für das zuvor 2.000 CPUs notwendig waren.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

„Deep Learning ist eine KI-Technik, die maschinelles Lernen durch Training neuronaler Netze mit großen Datenmengen zur Problemlösung ermöglicht“, sagt Deep Learning Solution Architect Axel Köhler von NVIDIA. „Wie die 3D-Grafik ist auch das Tiefenlernen ein paralleles Rechenproblem, d. h., es müssen große Datenmengen gleichzeitig verarbeitet werden. Die Vielkern-Architektur des Grafikprozessors passt ideal für diese Art von Aufgaben.“

GPUs (Graphics Processing Units) wurden ursprünglich dazu konzipiert, um die Art und Weise, wie verschiedene 3D-Grafik-Engines ihren Code ausführen, gut abzubilden – Dinge wie Geometrie-Setup und -Ausführung, Textur-Mapping, Speicherzugriff und Shader. Um dies möglichst effizient zu bewerkstelligen – und vor allem um die zentrale CPU eines Rechners zu entlasten – sind GPUs mit zahlreichen speziellen Prozessorkernen ausgestattet, um diese Aufgaben mit hoher Parallelität möglichst schnell durchführen zu können. NVIDIA bezeichnet einzelne Recheneinheiten innerhalb der GPU entsprechend als „Streaming Multiprocessor“ oder SM – je mehr SMs eine GPU hat, um so mehr parallele Aufgaben im Datendurchsatz kann der Baustein bewältigen. Dieser Aufbau, und speziell diese enorme Parallelität – kommt auch beim Training von KI-Algorithmen zu Gute.

Hohe Parallelität, großen Datendurchsatz und geringe Latenz versprechen auch FPGA-Bausteine. Die Logikbausteine werden häufig in Rechenzentren zur Unterstützung der CPUs eingesetzt, wo sie sich für schnelle Datenschnittstellen oder zur Datenvorverarbeitung sehr gut eignen, um die eingesetzten CPUs zu entlasten. „Bei einem breiten Feld von KI-Anwendungen im Rechenzentrum (darunter Reasoning Systeme, Machine Learning, Training und Inferenzen beim Deep Learning) werden Rechensysteme mit Intel-Xeon-Prozessoren verwendet“, sagt Stephan Gillich, Director of Artificial Intelligence and Computing bei Intel Deutschland. „Vorteil ist, dass damit auch die klassische Datenanalyse auf diesen Systemen stattfindet. Bei Bedarf können die Xeon-basierten Plattformen mit Intels FPGAs (Field-Programmable-Gate-Arrays) beschleunigt werden, etwa für Echtzeitanalysen.“

FPGAs können, was die Unterstützung maschinellen Lernens im Rechenzentrum betrifft, allerdings auch mehr als das. Da ist zuerst einmal die Flexibilität, die FPGAs zu einfach rekonfigurierbarer Hardware macht. Die Algorithmen können sich also ändern. Eine FPGA-Implementierung lässt sich programmieren, um größte systemische Leistung zu erzielen – und stellt diese in einer sehr deterministischen Weise zur Verfügung – im Gegensatz zu einem CPU-basierten Ansatz, der Interrupts unterliegt. Dies erlaubt einen flexiblen Einsatz, der viele maschinelle Lernalgorithmen möglich macht – mit hochverteilten Logikressourcen, umfangreichen Interconnect-Schemata und umfangreichem verteilten lokalen Speicher.

Kernaspekte eines hyperskaligen Hochleistungsrechners

Eignen sich FPGAs durch ihre Flexibilität damit automatisch besser? NVIDIAs Axel Köhler hält dagegen: „Um die Herausforderung zu meistern, Deep Learning auf breiter Ebene umzusetzen, muss die Technologie insgesamt sieben Herausforderungen bewältigen: Programmierbarkeit, Latenz, Genauigkeit, Größe, (Daten-)Durchsatz, Energieeffizienz und Lernrate. Um diese Herausforderungen zu meistern, ist mehr als nur das Hinzufügen eines ASICs oder eines FPGAs zu einem Rechenzentrum erforderlich. Hyperscale-Rechenzentren sind die kompliziertesten Computer, die je gebaut wurden.“

Zudem gelten FPGAs – insbesondere High-End-FPGAs, wie sie im Datenzentrum angewendet werden, als wenig zugänglich für Entwickler, als kompliziert und schwierig zu programmieren. Köhler verweist hingegen auf die zahlreichen positiven Erfahrungen, die vor allem Hochschulen in der KI-Forschung auf Basis von GPUs erreicht haben – und die Verfügbarkeit von zahlreichen daraus resultierenden Frameworks, die die Entwicklung und das Training von KI-Algorithmen auf mit Hilfe von GPUs einfacher machen – in der Theorie jedenfalls.

Ein anderer Weg ist, auf dedizierte Prozessoren zu setzen, die ganz speziell auf die Anforderungen von Neuronalen Netzwerken zugeschnitten sind. Intel hat hierfür beispielsweise den Neural Network Prozessor (NNP) Nervana im Sortiment – eine Technologie, die zusammen mit dem gleichnamigen Tech-Start-up 2016 aufgekauft und ins Portfolio einverleibt wurde. „KI-Lösungen müssen zunehmend skalierbar und schnell sein, dabei immer größere Datenmodelle beherbergen“, sagt Stephan Gillich. „Die Architektur des Intel NNP wurde speziell für Deep Learning Training entwickelt und zeichnet sich durch hohe Flexibilität und Skalierbarkeit sowie einen schnellen und leistungsfähigen Speicher aus. Große Datenmengen können direkt auf dem Chip gespeichert und in kürzester Zeit abgerufen werden.“

Einen echten Leistungsvergleich der bestehenden unterschiedlichen Plattformen gibt es zwar aktuell – noch – nicht. Im August möchten Google, Baidu und die Universitäten Harvard und Stanford allerdings zu diesem Zweck die Machine-Learning-Benchmark MLPerf veröffentlichen.

(ID:45339020)