Effiziente KI-Inferenz durch On-Premises-Lösungen und Open Source

Kommentar von Wolfram Richter und Stefan Bergstein, Red Hat So macht Open Source die KI-Inferenz auf den eigenen Servern attraktiv

26.09.2025 Von Wolfram Richter und Stefan Bergstein 4 min Lesedauer

Anbieter zum Thema

Red Hat GmbH

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

Board Deutschland GmbH

BigData-Insider

Das KI-Modell ist trainiert – und jetzt? Für den täglichen Einsatz von GenAI und LLMs in der Praxis erweisen sich viele Cloud-basierte Hosting-Strategien schnell als Kostenfalle und Effizienzbremse. Kein Wunder also, dass On-premises-Lösungen für immer mehr Unternehmen zunehmend attraktiv werden. Weil es dabei insbesondere auf eine breite Unterstützung von Hard- und Software sowie einen hohen Individualisierungsgrad ankommt, steht Open Source hoch im Kurs.

Die Autoren: Wolfram Richter (links) ist Senior Manager Solution Architects bei Red Hat und Stefan Bergstein ist Chief Architect Manufacturing bei Red Hat.(Bild: Red Hat) — Die Autoren: Wolfram Richter (links) ist Senior Manager Solution Architects bei Red Hat und Stefan Bergstein ist Chief Architect Manufacturing bei Red Hat.
(Bild: Red Hat)

Während sich die Aufmerksamkeit in der Debatte um Künstliche Intelligenz lange auf das Training und die Leistungsfähigkeit großer Sprachmodelle konzentriert hat, rückt nun ein Aspekt in den Vordergrund, der für die Öffentlichkeit lange Zeit eher unter dem Radar geblieben ist: die KI-Inferenz – also die eigentliche Nutzung der Modelle, die auf Anfragen die entsprechenden Ergebnisse generieren. Inferenz macht KI für Mitarbeiter im Alltag noch sichtbarer und ist der entscheidende Hebel für Effizienz, Skalierbarkeit und Zukunftsfähigkeit. Damit rückt die KI-Inferenz ins Zentrum strategischer Überlegungen: Wo müssen Unternehmen ihre Modelle wie hosten, um den größtmöglichen und schnellsten ROI zu erwirtschaften?

Wo stehen wir?

Die erste Phase des Aufstiegs der KI stand klar im Zeichen des Experimentierens. Hier war Zeit, um eigene kleine Modelle zu trainieren oder verschiedene Foundation Models aus der Cloud zu testen. Der operative Einsatz erfolgte meist über API-Endpoints etablierter Anbieter – einfach, performant und meist mit guten Konditionen. Damit hatten die meisten Unternehmen gar keine Anreize, Modelle überhaupt on-premises zu hosten. Mit der zunehmenden Reife von KI-Projekten, steigender Nutzungsintensität und der damit einhergehenden Verlagerung von Test- zu Produktivsystemen treten allerdings auch neue Herausforderungen auf: Performance-Probleme, Latenz, Kostenexplosionen und Abhängigkeiten.

Spätestens jetzt zeigt sich, dass die KI-Inferenz ein zentrales Element jeder KI-Strategie sein muss. Je besser und transparenter die Antworten der Modelle werden, desto mehr Tokens müssen sie generieren. Hinzu kommt: Die Zeiten, in denen Modelle nur punktuell eingesetzt wurden, sind vorbei. Heute geht es um den Masseneinsatz in Prozessen, Produkten und Kundeninteraktionen. Und genau hier entstehen Spannungen – zwischen Effizienz und Kosten, zwischen Innovation und Monokultur.

Open Source als strategische Antwort

In dieser zweiten Phase der KI-Adoption gewinnt Open Source massiv an Bedeutung – nicht nur als technische Alternative zu den Cloud-Endpoints der Hyperscaler, sondern auch als strategisches Fundament. Entsprechende Lösungen bieten Unternehmen die Möglichkeit, KI-Inferenz auf der eigenen Infrastruktur zu betreiben – ob in der Cloud, on-premises oder hybrid. Möglich ist das in erster Linie auch, weil die Modelle an sich kleiner und effizienter geworden sind, etwa durch Fortschritte bei Komprimierung und Quantisierung. Während damit die Einstiegshürden für das Self-Hosting sinken, steigen gleichzeitig Kontrolle, Transparenz und langfristige Planbarkeit.

Die Vorteile von Open-Source-Lösungen liegen auf der Hand: Sie abstrahieren von spezifischer Hardware, unterstützen verschiedenste Architekturen und profitieren von einer aktiven Community, die schnell und kontinuierlich Innovationen einbringt. Projekte wie vLLM zeigen, dass Open Source nicht nur mithalten kann, sondern in vielen Fällen sogar führend ist – etwa beim effizienten Inferencing mit extrem niedriger Latenz und hohem Token-Throughput dank des PagedAttention-Verfahrens.

Gleichzeitig bietet Open Source eine Flexibilität, die proprietäre Systeme nicht leisten können. Neue Modellarchitekturen lassen sich schneller adaptieren, innovative Ansätze wie verteilte Inferenz über Projekte wie llm-d sind in der Entwicklung – mit unmittelbaren Auswirkungen auf angrenzende Technologien wie Kubernetes, das künftig Inferencing-aware Load Balancing unterstützen wird. Die Open-Source-Welt zeigt hier eine Dynamik, die die Zeit von der ersten Idee bis zur Umsetzung im LLM erheblich verkürzt – allein durch die Zusammenarbeit von Expertinnen und Experten aus der ganzen Welt in einer Community.

Anforderungen an die Open-Source-Inferenz der nächsten Generation

Damit Open Source seine Stärken im Inferenz-Bereich voll ausspielen kann, müssen bestimmte Voraussetzungen erfüllt sein. Entscheidend ist eine funktionierende, strukturierte Community mit klaren Prozessen für Weiterentwicklung und Governance. Nur dann lassen sich neue Forschungsergebnisse schnell umsetzen und in Lösungen überführen.

Auch die Nutzerfreundlichkeit und Produktionsreife spielen dabei eine zentrale Rolle: Unternehmen erwarten fertige Images, vorkonfigurierte Toolsets, gute Dokumentation und niedrige Einstiegshürden. Hier findet ein Umdenken statt: Open Source muss heute nicht nur offen, sondern auch operationalisierbar sein. Projekte wie vLLM zeigen, wie das gelingen kann: mit Toolsets für Kompression, verbessertes Routing, Caching und Hardware-Abstraktion.

Hinzu kommen technische Anforderungen: breite Unterstützung für verschiedene GPUs, CPUs und Modellformate, eine modulare Architektur für Skalierung und Verteilung und die Möglichkeit, neue Routing-Mechanismen oder Load Balancer einzubinden. Die großen Open-Source-Projekte adressieren genau diese Themen – nicht als Selbstzweck, sondern als Reaktion auf die Anforderungen produktiver KI-Nutzung im großen Maßstab.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Inferenz wird zur Gretchenfrage

In der Konsequenz verändert sich das Verhältnis von Modell und Inferenz: Wo früher das Modell im Zentrum stand, rückt nun die Infrastruktur in den Vordergrund. Die besten Modelle bringen wenig, wenn sie nicht effizient und skalierbar genutzt werden können. Inferenz wird damit zur Basistechnologie – vergleichbar mit Betriebssystemen, Containern oder Netzwerkprotokollen.

Dabei gilt auch hier: Die effizientesten Systeme setzen sich auf dem Markt durch. Nicht sofort und nicht in jedem Fall, aber langfristig. Schließlich bieten sie die Grundlage für relativ sichere Investitionen, Langlebigkeit, Interoperabilität und eine Innovationsgeschwindigkeit, die proprietäre Lösungen nicht immer erreichen. Letztere sind zudem oft mit Abhängigkeiten und hohen Kosten verbunden. Die Open-Source-Inferenzlandschaft erinnert dabei in vielerlei Hinsicht an die frühen Jahre und den Aufstieg von Linux, das sich zum Rückgrat vieler moderner Infrastrukturen entwickelt hat. Der Königsweg besteht dabei im gemeinsamen Gestalten des Fortschritts durch Unternehmen, Forschungseinrichtungen und Entwickler – jenseits von Herstellerabhängigkeiten und Lizenzbarrieren.

Es geht letztlich nicht nur um die Technologie selbst, sondern auch um die Kontrolle über ihre Anwendung im Unternehmen. In einer Zeit, in der Künstliche Intelligenz längst zum strategischen Wettbewerbsfaktor geworden ist, sind das entscheidende Fragen. Die Antworten darauf liegen offen vor uns – im wahrsten Sinne des Wortes: in der Offenheit der Systeme, in der Transparenz der Entwicklung und in der Freiheit, selbst zu gestalten.

Artikelfiles und Artikellinks

Link: Webseite von Red Hat

(ID:50501811)