Kommentar von Wolfram Richter und Stefan Bergstein, Red Hat So macht Open Source die KI-Inferenz auf den eigenen Servern attraktiv

Von Wolfram Richter und Stefan Bergstein 4 min Lesedauer

Anbieter zum Thema

Das KI-Modell ist trainiert – und jetzt? Für den täglichen Einsatz von GenAI und LLMs in der Praxis erweisen sich viele Cloud-basierte Hosting-Strategien schnell als Kostenfalle und Effizienzbremse. Kein Wunder also, dass On-premises-Lösungen für immer mehr Unternehmen zunehmend attraktiv werden. Weil es dabei insbesondere auf eine breite Unterstützung von Hard- und Software sowie einen hohen Individualisierungsgrad ankommt, steht Open Source hoch im Kurs.

Die Autoren: Wolfram Richter (links) ist Senior Manager Solution Architects bei Red Hat und Stefan Bergstein ist Chief Architect Manufacturing bei Red Hat.(Bild:  Red Hat)
Die Autoren: Wolfram Richter (links) ist Senior Manager Solution Architects bei Red Hat und Stefan Bergstein ist Chief Architect Manufacturing bei Red Hat.
(Bild: Red Hat)

Während sich die Aufmerksamkeit in der Debatte um Künstliche Intelligenz lange auf das Training und die Leistungsfähigkeit großer Sprachmodelle konzentriert hat, rückt nun ein Aspekt in den Vordergrund, der für die Öffentlichkeit lange Zeit eher unter dem Radar geblieben ist: die KI-Inferenz – also die eigentliche Nutzung der Modelle, die auf Anfragen die entsprechenden Ergebnisse generieren. Inferenz macht KI für Mitarbeiter im Alltag noch sichtbarer und ist der entscheidende Hebel für Effizienz, Skalierbarkeit und Zukunftsfähigkeit. Damit rückt die KI-Inferenz ins Zentrum strategischer Überlegungen: Wo müssen Unternehmen ihre Modelle wie hosten, um den größtmöglichen und schnellsten ROI zu erwirtschaften?

Wo stehen wir?

Die erste Phase des Aufstiegs der KI stand klar im Zeichen des Experimentierens. Hier war Zeit, um eigene kleine Modelle zu trainieren oder verschiedene Foundation Models aus der Cloud zu testen. Der operative Einsatz erfolgte meist über API-Endpoints etablierter Anbieter – einfach, performant und meist mit guten Konditionen. Damit hatten die meisten Unternehmen gar keine Anreize, Modelle überhaupt on-premises zu hosten. Mit der zunehmenden Reife von KI-Projekten, steigender Nutzungsintensität und der damit einhergehenden Verlagerung von Test- zu Produktivsystemen treten allerdings auch neue Herausforderungen auf: Performance-Probleme, Latenz, Kostenexplosionen und Abhängigkeiten.

Spätestens jetzt zeigt sich, dass die KI-Inferenz ein zentrales Element jeder KI-Strategie sein muss. Je besser und transparenter die Antworten der Modelle werden, desto mehr Tokens müssen sie generieren. Hinzu kommt: Die Zeiten, in denen Modelle nur punktuell eingesetzt wurden, sind vorbei. Heute geht es um den Masseneinsatz in Prozessen, Produkten und Kundeninteraktionen. Und genau hier entstehen Spannungen – zwischen Effizienz und Kosten, zwischen Innovation und Monokultur.

Open Source als strategische Antwort

In dieser zweiten Phase der KI-Adoption gewinnt Open Source massiv an Bedeutung – nicht nur als technische Alternative zu den Cloud-Endpoints der Hyperscaler, sondern auch als strategisches Fundament. Entsprechende Lösungen bieten Unternehmen die Möglichkeit, KI-Inferenz auf der eigenen Infrastruktur zu betreiben – ob in der Cloud, on-premises oder hybrid. Möglich ist das in erster Linie auch, weil die Modelle an sich kleiner und effizienter geworden sind, etwa durch Fortschritte bei Komprimierung und Quantisierung. Während damit die Einstiegshürden für das Self-Hosting sinken, steigen gleichzeitig Kontrolle, Transparenz und langfristige Planbarkeit.

Die Vorteile von Open-Source-Lösungen liegen auf der Hand: Sie abstrahieren von spezifischer Hardware, unterstützen verschiedenste Architekturen und profitieren von einer aktiven Community, die schnell und kontinuierlich Innovationen einbringt. Projekte wie vLLM zeigen, dass Open Source nicht nur mithalten kann, sondern in vielen Fällen sogar führend ist – etwa beim effizienten Inferencing mit extrem niedriger Latenz und hohem Token-Throughput dank des PagedAttention-Verfahrens.

Gleichzeitig bietet Open Source eine Flexibilität, die proprietäre Systeme nicht leisten können. Neue Modellarchitekturen lassen sich schneller adaptieren, innovative Ansätze wie verteilte Inferenz über Projekte wie llm-d sind in der Entwicklung – mit unmittelbaren Auswirkungen auf angrenzende Technologien wie Kubernetes, das künftig Inferencing-aware Load Balancing unterstützen wird. Die Open-Source-Welt zeigt hier eine Dynamik, die die Zeit von der ersten Idee bis zur Umsetzung im LLM erheblich verkürzt – allein durch die Zusammenarbeit von Expertinnen und Experten aus der ganzen Welt in einer Community.

Anforderungen an die Open-Source-Inferenz der nächsten Generation

Damit Open Source seine Stärken im Inferenz-Bereich voll ausspielen kann, müssen bestimmte Voraussetzungen erfüllt sein. Entscheidend ist eine funktionierende, strukturierte Community mit klaren Prozessen für Weiterentwicklung und Governance. Nur dann lassen sich neue Forschungsergebnisse schnell umsetzen und in Lösungen überführen.

Auch die Nutzerfreundlichkeit und Produktionsreife spielen dabei eine zentrale Rolle: Unternehmen erwarten fertige Images, vorkonfigurierte Toolsets, gute Dokumentation und niedrige Einstiegshürden. Hier findet ein Umdenken statt: Open Source muss heute nicht nur offen, sondern auch operationalisierbar sein. Projekte wie vLLM zeigen, wie das gelingen kann: mit Toolsets für Kompression, verbessertes Routing, Caching und Hardware-Abstraktion.

Hinzu kommen technische Anforderungen: breite Unterstützung für verschiedene GPUs, CPUs und Modellformate, eine modulare Architektur für Skalierung und Verteilung und die Möglichkeit, neue Routing-Mechanismen oder Load Balancer einzubinden. Die großen Open-Source-Projekte adressieren genau diese Themen – nicht als Selbstzweck, sondern als Reaktion auf die Anforderungen produktiver KI-Nutzung im großen Maßstab.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Inferenz wird zur Gretchenfrage

In der Konsequenz verändert sich das Verhältnis von Modell und Inferenz: Wo früher das Modell im Zentrum stand, rückt nun die Infrastruktur in den Vordergrund. Die besten Modelle bringen wenig, wenn sie nicht effizient und skalierbar genutzt werden können. Inferenz wird damit zur Basistechnologie – vergleichbar mit Betriebssystemen, Containern oder Netzwerkprotokollen.

Dabei gilt auch hier: Die effizientesten Systeme setzen sich auf dem Markt durch. Nicht sofort und nicht in jedem Fall, aber langfristig. Schließlich bieten sie die Grundlage für relativ sichere Investitionen, Langlebigkeit, Interoperabilität und eine Innovationsgeschwindigkeit, die proprietäre Lösungen nicht immer erreichen. Letztere sind zudem oft mit Abhängigkeiten und hohen Kosten verbunden. Die Open-Source-Inferenzlandschaft erinnert dabei in vielerlei Hinsicht an die frühen Jahre und den Aufstieg von Linux, das sich zum Rückgrat vieler moderner Infrastrukturen entwickelt hat. Der Königsweg besteht dabei im gemeinsamen Gestalten des Fortschritts durch Unternehmen, Forschungseinrichtungen und Entwickler – jenseits von Herstellerabhängigkeiten und Lizenzbarrieren.

Es geht letztlich nicht nur um die Technologie selbst, sondern auch um die Kontrolle über ihre Anwendung im Unternehmen. In einer Zeit, in der Künstliche Intelligenz längst zum strategischen Wettbewerbsfaktor geworden ist, sind das entscheidende Fragen. Die Antworten darauf liegen offen vor uns – im wahrsten Sinne des Wortes: in der Offenheit der Systeme, in der Transparenz der Entwicklung und in der Freiheit, selbst zu gestalten.

Artikelfiles und Artikellinks

(ID:50501811)