Kommentar von Nicolas Klein und Björn Busch-Geertsema, Ergosign GenAI Ops – KI sicher in die Produktion bringen

Von Nicolas Klein und Björn Busch-Geertsema 5 min Lesedauer

Anbieter zum Thema

Viele GenAI-Piloten beeindrucken in der Demo, scheitern aber im Betrieb. Erst Observability, Prompt-Management, Evals und Guardrails machen aus einem Prototyp ein belastbares, wirtschaftlich steuerbares System.

Die Autoren: Nicolas Klein (l.) ist UX Software Engineer und Björn Busch-Geertsema ist Head of Development bei Ergosign(Bild:  Ergosign GmbH)
Die Autoren: Nicolas Klein (l.) ist UX Software Engineer und Björn Busch-Geertsema ist Head of Development bei Ergosign
(Bild: Ergosign GmbH)

In der Demo wirkt ein GenAI-Assistent oft erstaunlich souverän. Er beantwortet Fragen, fasst Dokumente zusammen und nutzt interne Inhalte per Retrieval. Im Live-Betrieb kippt das Bild schnell: Randfälle häufen sich, Antworten driften, Retrieval liefert unpassende Treffer und jeder zusätzliche Verarbeitungsschritt kostet Zeit und Geld.

Laut einem MIT-Bericht zeigen bis zu 95 Prozent der Unternehmen bislang keinen greifbaren Wert aus ihren KI-Initiativen. Nur fünf Prozent haben die nötigen Fähigkeiten aufgebaut, um Proofs of Concept in messbaren Nutzen zu überführen – auch wenn die enge Erfolgsdefinition der Studie diskutiert wird, ist die Tendenz eindeutig. S&P Global berichtet zudem, dass die Abbruchrate von KI-Initiativen vor dem produktiven Einsatz innerhalb eines Jahres von 17 auf 42 Prozent gestiegen ist. Im Durchschnitt verwerfen Unternehmen 46 Prozent ihrer KI-Prototypen zwischen Proof of Concept und breiter Einführung.

Warum DevOps für GenAI nicht reicht

Die naheliegende Reaktion vieler Teams: bestehende DevOps-Praktiken auf GenAI-Anwendungen übertragen. Doch klassisches DevOps misst, ob ein Service erreichbar ist, wie schnell er antwortet und ob Fehlerquoten steigen. Für generative KI reicht das nicht. Ein HTTP-Status 200 sagt nichts darüber aus, ob eine Antwort fachlich korrekt, regelkonform oder wirtschaftlich sinnvoll war. Hinzu kommt: GenAI-Anwendungen bestehen heute meist nicht aus einem einzelnen Modellaufruf, sondern aus ganzen Workflows mit Retrieval, Tool Calls, Policies und nachgelagerten Prüfungen. Genau deshalb braucht der Betrieb generativer KI zusätzliche Steuerungsmechanismen. NIST trägt diesem Umstand inzwischen ausdrücklich Rechnung und beschreibt in seinem GenAI-Profil zum AI Risk Management Framework, wie Risiken generativer KI über den gesamten Lebenszyklus identifiziert, gemessen und gesteuert werden sollen.

Observability für KI-Workflows

Wer eine GenAI-Anwendung produktiv betreibt, muss nachvollziehen können, was das System tatsächlich getan hat. Relevante Fragen sind nicht nur: War der Dienst verfügbar? Sondern auch: Welche Dokumente wurden geladen? Welcher Prompt wurde verwendet? Welches Modell lief mit welchen Parametern? Wie hoch waren Token-Verbrauch, Kosten und Latenz? Welche Tool-Aufrufe haben den Antwortpfad beeinflusst? Genau hier beginnt GenAI-Observability. Sie macht aus einer Black Box einen analysierbaren Workflow.

Das ist mehr als Monitoring im klassischen Sinn. Teams brauchen Traces, die den Weg einer Anfrage Schritt für Schritt sichtbar machen. Erst dann lässt sich erkennen, ob ein Fehler im Retrieval, im Prompt, im Tooling oder im Modell selbst entstanden ist. Dass sich dafür gerade gemeinsame Standards etablieren, ist ein gutes Signal: OpenTelemetry definiert inzwischen eigene semantische Konventionen für GenAI-Metriken, Spans und Events, etwa für Token-Nutzung, Inferenz, Retrieval und Tool-Aufrufe.

Prompt-Management: Prompts wie Konfigurationsobjekte behandeln

Prompts werden im Alltag noch immer behandelt wie Textbausteine, die irgendwo im Quellcode liegen. Für produktive GenAI-Systeme ist das zu kurz gedacht. Prompts sind keine Deko, sondern verhaltensprägende Konfiguration. Studien zeigen konsistent, dass schon kleine Änderungen in Formatierung oder Reihenfolge die Qualität der Ergebnisse deutlich verändern können: Eine viel zitierte Untersuchung fand in Few-Shot-Szenarien Leistungsunterschiede von bis zu 76 Prozentpunkten allein durch verändertes Prompt-Format. Ein groß angelegter Vergleich aus August 2025 bestätigt das Problem auch für aktuelle Modellfamilien: Selbst subtile, nicht-semantische Variationen in Formulierung und Formatierung führen weiterhin zu signifikanten Leistungsschwankungen – und auch Frontier-Modelle von OpenAI oder DeepSeek sind davon nicht ausgenommen. In der Praxis bedeutet das: Prompts werden versioniert, über eine zentrale Registry verwaltet und unabhängig vom Anwendungscode ausgerollt. Änderungen lassen sich so gezielt testen, ausrollen und bei Bedarf zurücknehmen – ohne ein vollständiges Re-Deployment der Anwendung.

Evaluationen statt Bauchgefühl

Wer GenAI in Produktion bringt, braucht einen definierten Qualitätsbegriff. Dabei geht es nicht nur um richtig oder falsch, sondern auch um Robustheit, Konsistenz, Toxizität, Stiltreue, Quellenbezug und Bearbeitungszeit. Das Stanford-Projekt HELM hat früh gezeigt, warum ein mehrdimensionales Evaluationsmodell nötig ist: Es bewertete Sprachmodelle schon Ende 2022 nicht nur nach Accuracy, sondern unter anderem auch nach Calibration, Robustness, Fairness, Bias, Toxicity und Efficiency. Während die LLMs stark weiterentwickelt wurden, ist die Bedeutung dieser Aspekte so hoch wie eh und je – möglicherweise sogar gestiegen. Der EU AI Act verlangt von Anbietern systemisch relevanter KI-Modelle inzwischen explizit dokumentierte Evaluierungen einschließlich Adversarial Testing und verpflichtet zur laufenden Bewertung und Minderung systemischer Risiken.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

In der Praxis hat sich eine Zweiteilung bewährt. Offline-Evaluationen testen neue Prompt-, Modell- oder Retrieval-Versionen gegen kuratierte Datensätze und Randfälle vor dem Release. Online-Evaluationen beobachten kritische Interaktionen im Live-Betrieb und markieren problematische Verläufe für Nacharbeit. Ein zweites Sprachmodell kann dabei als Prüfer helfen, also als LLM-as-a-Judge. Das skaliert besser als eine rein menschliche Prüfung, ersetzt sie aber nicht. Eine aktuelle Untersuchung zeigt, dass selbst die leistungsstärksten Bewertungsmodelle wie Gemini-2.5-Pro und GPT-5 in knapp einem Viertel der schwierigen Fälle keine konsistenten Präferenzen aufrechterhalten können.

Guardrails: Schäden begrenzen, bevor sie entstehen

Die operativen Grundlagen zur KI-Integration in Unternehmen(Bild:  Ergosign GmbH)
Die operativen Grundlagen zur KI-Integration in Unternehmen
(Bild: Ergosign GmbH)

Evaluationen zeigen Probleme an. Guardrails greifen ein, bevor ein Problem den Nutzer erreicht oder unnötige Kosten verursacht. Input-Guardrails prüfen Anfragen früh im Workflow: Ist die Anfrage fachlich zulässig? Ist sie manipulativ? Soll sie das System zweckentfremden? Output-Guardrails prüfen Antworten vor der Auslieferung: Enthalten sie sensible Inhalte (wie z. B. personenbezogene Daten), Richtlinienverstöße, Halluzinationen oder unzulässige Aussagen?

Das ist keine Kür, sondern Teil der Sicherheitsarchitektur. OWASP führt Prompt Injection inzwischen als zentrale Schwachstelle von LLM-Anwendungen auf. Der Kern des Problems: Natürliche Sprache dient gleichzeitig als Datenkanal und Instruktionskanal. Dadurch können Angreifer versuchen, das Verhalten des Systems über Eingaben gezielt umzulenken. Guardrails sollten deshalb mehrstufig umgesetzt werden: vor Retrieval, vor Tool-Aufrufen und vor der Ausgabe an den Nutzer.

Praxisbeispiel: Vom Chatbot zur steuerbaren Anwendung

Typisch ist der Fall eines Assistenten in einem Portal oder Self-Service-System. In der Demo beantwortet er Standardfragen überzeugend und spart sichtbar Zeit. Im Betrieb zeigen sich dann die eigentlichen Probleme: Sonderfälle führen zu unklaren Antworten, lange Dialoge treiben die Kosten, und Nutzer versuchen, den Assistenten auf fachfremde Themen oder sensible Inhalte umzulenken.

Ein belastbarer Betrieb entsteht erst dann, wenn die einzelnen Ebenen zusammenspielen. Observability zeigt, an welcher Stelle der Workflow falsch abgebogen ist. Prompt-Management ermöglicht schnelle Korrekturen ohne komplettes Re-Deployment. Evaluationen verhindern, dass ein Update (sei es am Prompt, am Retrieval oder am Modell selbst) alte Fehler wieder zurückbringt. Guardrails begrenzen Missbrauch und filtern problematische Antworten, bevor sie beim Nutzer ankommen. Genau darin liegt der praktische Kern von GenAI Ops: Qualität, Kosten und Risiken werden nicht erst im Nachhinein sichtbar, sondern im laufenden Betrieb steuerbar.

Checkliste vor dem Go-live

● Sind für jede kritische Nutzerintention Testfälle und Abnahmekriterien definiert?
● Werden Prompt-Version, Modellversion, Kosten und Latenz pro Anfrage gespeichert?
● Gibt es Rollback-Mechanismen für Prompts, Modelle und Retrieval-Konfigurationen?
● Sind Online-Evals und manuelle Review-Prozesse für riskante Fälle etabliert?
● Greifen Input- und Output-Guardrails vor und nach jedem kritischen Verarbeitungsschritt?

Fazit

Wer generative KI produktiv einsetzen will, braucht mehr als leistungsfähige Modelle. Entscheidend ist ein Betriebsmodell, das Qualität, Kosten und Risiken kontinuierlich steuerbar macht. Observability, Prompt-Management, Evaluationen und Guardrails schaffen dafür die operative Grundlage. Erst dann wird aus einer überzeugenden Demo ein System, das sich im Alltag verantwortbar, wirtschaftlich und reproduzierbar betreiben lässt. Mit zunehmend autonomen KI-Agenten, die eigenständig Entscheidungen treffen und Tools aufrufen, wird dieser Steuerungsrahmen nicht weniger wichtig – sondern zur Voraussetzung dafür, dass Unternehmen KI-Agenten verantwortbar in produktive Prozesse einbinden können.

Artikelfiles und Artikellinks

(ID:50820151)