Implementierung von generativer KIGenerative KI in Endgeräten: neue Anforderungen an Mikrocontroller
Von
Henrik Flodell*
7 min Lesedauer
Generative KI in Endgeräten erfordert radikal neue MCU-Architekturen. Denn sie müssen klein, effizient und sicher sein – und zugleich genug Leistung für SLM (Small Language Models), RNN (Recurrent Neural Networks) & Co. erbringen. Diese Anforderungen stellt auch Entwickler vor neue Herausforderungen.
Bei der zweiten Generation der Ensemble-MCUs von Alif Semiconductor verbindet ein breiterer Bus alle internen Prozessorblöcke und den Speicher. Dies hilft, einige der besonderen Ansprüche bei der Implementierung Generativer KI in Embedded-Endgeräten zu adressieren.
(Bild: Alif Semiconductor)
Large Language Modelle (LLM) und LLM-basierte Dienste wie ChatGPT und Gemini sind leuchtende Beispiele für die Fähigkeiten generativer KI. Aber diese KI-Softwaremodelle haben eine riesige Codebasis. Anfang 2025 haben die größten über eine Billion Parameter.
Mittlerweile werden riesige Rechenzentren mit den fortschrittlichsten Cloud-Computing-Systemen benötigt, um die Rechenleistung und die Energie bereitzustellen, die für Dienste im Bereich der generativen KI erforderlich sind. Damit stellt sich die Frage, wie Hersteller von Embedded-Geräten für den Betrieb an der Edge oder am Endpunkt generative KI-Systeme so skalieren können, dass sie zu ihren wesentlich beschränkteren Hardwareressourcen passen.
Tatsächlich arbeiten die Gerätehersteller bereits an Lösungen hierfür. Einige der frühen Lehren, die sie daraus gezogen haben, sind bereits in der Praxis angekommen, und es zeigt sich, dass sowohl die Hardware als auch die Software in den Endgeräten für die generative KI eigens angepasst werden müssen. Die Mikrocontroller-Architekturen, auf denen Embedded-Geräte seit Jahren aufbauen, sind für die generative KI nicht geeignet. Daher müssen neue Modelle entwickelt werden, die für die eingeschränkten Ressourcen optimiert sind und einige der cloudbasierten KI ähnliche Funktionen bereitstellen, jedoch mit anderen Mitteln.
Der Einsatz generativer KI am Endpunkt
Die große Auswahl an Softwarefähigkeiten, die wir als generative KI zusammenfassen, sind wegen der Möglichkeiten, Embedded-Systeme intelligenter und autonomer zu machen, für Embedded-Anwendungen sehr attraktiv.
Kennzeichen generativer KI-Systeme ist ihre Fähigkeit, sich zu „erinnern“ und damit neue Eingaben mit früheren Daten in einen Zusammenhang zu bringen. Damit wird Folgendes möglich:
Verständnis natürlicher Sprache und Texterzeugung;
Implementierung langer Befehlssequenzen; und
intelligente Antworten auf Eingaben mehrerer Sensorarten, z. B. die Kombination aus Audio, Video und Text
In einem Consumer-Wearable, wie einer intelligenten Brille, bietet die generative KI z. B. die Möglichkeit, fremdsprachige Texte in einem Schaufenster oder auf einem Verkehrsschild in Echtzeit zu übersetzen. In Bereichen wie der Medizintechnik, der Produktion oder im Transportwesen begeistern sich die OEM für das Potenzial generativer KI in Mensch-Maschine-Schnittstellen, die beispielsweise agentische Fähigkeiten übernehmen oder lernen, das Benutzerverhalten zu erkennen und autonom über Maßnahmen zu entscheiden, ohne einem vorprogrammierten Menü von Reaktionen zu folgen.
In vielen dieser Fälle ist die lokale KI-Verarbeitung wegen der Latenz unbedingt erforderlich, weil die Anwender die Verzögerungen bei Operationen in der Cloud nicht akzeptieren würden. Auch die Datenspeicherung in der Cloud ist bei der generativen KI ein wachsendes Problem, denn der Bestand an installierten IoT-Geräten soll bis 2030 laut Vorhersagen 50 Milliarden Einheiten erreichen, und es wird erwartet, dass die Datasphere 300 Zettabyte überschreiten wird. Sowohl die Kosten als auch der Energiebedarf zum Speichern der gesammelten Menge an KI-Dateneingaben in der Cloud sind erheblich. Aus diesen Gründen legen die Hersteller von Endgeräten ihre Produkte so aus, dass der größte Teil der KI-Verarbeitung lokal erfolgt.
Die Herausforderung der Skalierung
Aber wie soll ein System am Endpunkt, z. B. eine intelligente Brille, Sprachoperationen wie die Echtzeitübersetzung ausführen, wenn der Speicherbedarf der LLM-Software für solche Funktionen in Terabyte bemessen wird? Selbst mit dem Einsatz einer gewöhnlichen Skalierungstechnik wie der Quantisierung ist es nicht vorstellbar, dass diese Modelle auf weniger als mehrere Gigabyte reduziert werden könnten, was bei den meisten Embedded-Produkten immer noch ein enormer Rechenaufwand wäre, von Wearables – wie intelligenten Brillen – ganz zu schweigen.
Es liegt auf der Hand, dass der Einsatz von LLM bei Embedded-Geräten nicht die Antwort sein kann. Vielmehr kommen verschiedene Modelle infrage, die für eingeschränkte Hardwareressourcen besser geeignet sind. Der einzige geeignete Kandidat zur Ausführung der KI-Funktionen und der Systemsteuerung ist der Mikrocontroller. Nur er bietet die Leistung, die Größe, die integrierten Features und fügt sich in die Kostenvorgaben für Endgeräte ein.
Bei MCU-basierten Produkten liegt der Sweetspot für die OEM bei der generativen KI im Einsatz kleiner Sprachmodelle (SLM, Small Language Model) und CNN-Modelle (Convolutional Neural Networks) sowie RNN (Recurrent Neural Networks), deren Leistung mit Elementen generativer KI gesteigert wird (siehe Bild). Mit anderen Worten wird die generative KI am Endpunkt nicht mit herunterskalierten Versionen der Modelle aus der Cloud implementiert, sondern mit neuen Modellen, die für die Hardware von Embedded-Geräten optimiert sind.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Welche Anforderungen stellen nun diese für den Endpunkt optimierten generativen KI-Modelle an die MCU?
Während KI mit hohem Rechenbedarf eine GPU erfordert, kann KI-Software mit mittlerem und niedrigem Rechenbedarf auf neuen KI-MCUs ausgeführt werden.
(Bild: Alif Semiconductor)
Heute führen die meisten KI-fähigen MCUs größtenteils sprach-, video- und bewegungsbasierte Operationen aus. Beispiele dafür sind die Gesichtserkennung, die Erkennung von Schlüsselwörtern und die zustandsbasierte Überwachung in einer Werksumgebung. Die besten derartigen MCUs bieten einen Durchsatz bis zu einigen Hundert GOPS (Milliarden Operationen pro Sekunde).
Mit dem Übergang zur generativen KI am Endpunkt werden die Anforderungen für die rohen Fähigkeiten neuraler Netzwerke bis 2030 auf bis zu 10 TOPS (Billionen Operationen pro Sekunde) steigen. Dafür werden MCU-Architekturen erforderlich, die eine oder mehrere CPUs mit NPUs (Neural Processing Unit) kombinieren. Um generative KI-Funktionen auszuführen, werden neue NPUs benötigt, die die Transformator-Operationen ausführen, von denen generative KI-Algorithmen abhängen.
Bei der Bewertung der Hardwareoptionen für die neuen generativen KI-Anwendungen am Endpunkt lernen die OEM, sich nicht nur auf den hohen Durchsatz zu konzentrieren. Auch andere Merkmale der Architektur einer MCU bestimmen, ob sie generative KI-Modelle ausführen kann oder nicht:
Speicher: Die Notwendigkeit eines sehr schnellen Zugriffs auf die Daten ist bei generativer KI höher als bei anderen Arten von KI, die bereits einen viel höheren Speicherbedarf haben, als die Echtzeit-Steuerfunktionen, für die herkömmliche MCUs ausgelegt sind. Zugriffe auf internen Speicher sind aus ihrer Natur heraus schneller als auf externen Speicher. Daher sollte bei der Spezifikation einer MCU für generative KI besonderes Gewicht auf die Größe und Geschwindigkeit des internen Speichers gelegt werden.
Selbst mit mehr internem Speicher werden viele Anwendungen mit generativer KI auch externen Speicher benötigen, wobei die Geschwindigkeit der Speicherschnittstelle ein entscheidender Parameter ist, um zu verhindern, dass Zugriffe auf externen Speicher Latenz verursachen.
Bandbreite des Systembusses: Um bei Anwendungen für generative KI eine hohe Leistung zu erreichen, muss die MCU mehrere Operationen, die verschiedenen Funktionsblöcken zugewiesen werden, koordinieren. Dazu gehören nicht nur die NPU und die CPU zur Implementierung neuraler Netzwerkoperationen, sondern auch unterstützende Verarbeitungsfunktionen wie ein Hardware-Bildsignalprozessor (ISP) zur Auswahl und Vorverarbeitung von Bildern, bevor sie dem neuralen Netzwerkalgorithmus zugeführt werden.
Diese Mischung von Operationen, bevor ein Inferenzergebnis erzeugt wird, verlangt nach der reibungslosen Bewegung der Daten innerhalb des Systems und erfordert eine großzügig bemessene Bandbreite des Busses, mit dem alle an den KI-Operationen beteiligten Funktionsblöcke verbunden sind (siehe auch Aufmacherbild).
Extrem geringer Energieverbrauch: Es liegt in der Natur von KI-Anwendungen, einschließlich der generativen KI, dass ein Datenstrom bei einer Überwachung im Hintergrund ständig auf Relevanz überprüft wird, bevor eine Hochleistungs-Inferenzhardware nur periodisch zum Einsatz kommt, wenn relevante Daten erkannt werden.
Eine MCU-Architektur, die diese duale Natur des Betriebs bei der generativen KI berücksichtigt, kann die Überwachung im Hintergrund einem Hardwareblock mit geringerem Energieverbrauch und niedrigerer Geschwindigkeit zuweisen und einen Block mit höherer Leistung und höherem Energieverbrauch nur dann aktivieren, wenn ein schnelles und genaues Inferenzergebnis benötigt wird.
Mit einer Architektur mit geringem Energiebedarf können generative KI-Funktionen selbst in Systemen implementiert werden, die starken Einschränkungen beim Energieverbrauch unterliegen, wie dies bei intelligenten Brillen oder True-Wireless-Ohrhörern, deren Batterien sehr klein und leicht sein müssen, der Fall ist.
Ein hoher Wirkungsgrad reduziert auch den thermischen Footprint des MCU-Systems und hilft dem Entwickler, Hotspots zu vermeiden, die zum Formfaktor von Wearables wie Ohrhörern und intelligenten Brillen nicht kompatibel sind.
Geringer Platzbedarf: Endgeräte, die von der Implementierung generativer KI profitieren, sind notwendigerweise komplexe Systeme. Bei intelligenten Brillen müssen z. B. Kameras, Mikrofone, Lautsprecher, ein Display, eine Batterie und mehr in einem Gestell untergebracht werden, das leicht ist sowie einen hohen Tragekomfort und ein attraktives Design bietet. Daraus ergibt sich die Notwendigkeit, die Anzahl der Bauteile und damit den Platzbedarf des Systems zu reduzieren. Dafür muss die MCU so viele für die generative KI benötigte Features wie möglich integrieren – nicht nur die CPU und NPU, sondern auch unterstützende Funktionen wie einen ISP und schnellen Speicher.
Daten- und Gerätesicherheit: OEM, die generative KI am Endpunkt implementieren können, betten äußerst wertvolles geistiges Eigentum (IP) in ihre Produkte ein. Es muss vor potenziellen Mitbewerbern geschützt werden. Systeme für generative KI, die Bilder und Sprache erfassen, fallen auch unter den Datenschutz.
Aus diesen beiden Gründen sind die Sicherheitseinrichtungen ein wesentliches Element eines generativen KI-Systems. Sicherheitsfunktionen sollten vorzugsweise in die MCU integriert werden, um eine Exposition von Geheimnissen auf Leiterbahnen zu verhindern, damit auf der Leiterplatte keine zusätzlichen Sicherheitskomponenten benötigt werden.
Optimierung der MCU-Hardware und -Software für generative KI
Aus den oben dargelegten Gründen sind herkömmliche MCU-Architekturen eine ungeeignete Basis für die Implementierung generativer KI. Selbst wenn der bisherigen CPU-zentrierten Architektur eine NPU aufgepfropft wird, fehlen weiterhin die Speicherkapazität, die interne Bandbreite, die Unterstützung der Überwachung mit geringem Energiebedarf, die Integration der KI-Funktionen und die Sicherheitsfunktionen, die für die generative KI am Endpunkt benötigt werden.
Daher werden aktuell neue MCU-Architekturen entwickelt, die in der Lage sind, SLM und andere für Endgeräte optimierte Modelle zu unterstützen, um die Grundlage für die faszinierenden neuen Möglichkeiten generativer KI-Algorithmen bei der Verarbeitung von Video-, Audio- und Bewegungsdaten in batteriegespeisten Endgeräten und in Formfaktoren, die starken Einschränkungen beim Platz- und Energiebedarf unterliegen, zu schaffen.
Dieser Artikel stammt von unserem Partnerportal ELEKTRONIKPRAXIS.
* Henrik Flodell ist Leitender Marketingdirektor bei Alif Semiconductor