Viele GenAI-Piloten beeindrucken in der Demo, scheitern aber im Betrieb. Erst Observability, Prompt-Management, Evals und Guardrails machen aus einem Prototyp ein belastbares, wirtschaftlich steuerbares System.
Die Autoren: Nicolas Klein (l.) ist UX Software Engineer und Björn Busch-Geertsema ist Head of Development bei Ergosign
(Bild: Ergosign GmbH)
In der Demo wirkt ein GenAI-Assistent oft erstaunlich souverän. Er beantwortet Fragen, fasst Dokumente zusammen und nutzt interne Inhalte per Retrieval. Im Live-Betrieb kippt das Bild schnell: Randfälle häufen sich, Antworten driften, Retrieval liefert unpassende Treffer und jeder zusätzliche Verarbeitungsschritt kostet Zeit und Geld.
Die naheliegende Reaktion vieler Teams: bestehende DevOps-Praktiken auf GenAI-Anwendungen übertragen. Doch klassisches DevOps misst, ob ein Service erreichbar ist, wie schnell er antwortet und ob Fehlerquoten steigen. Für generative KI reicht das nicht. Ein HTTP-Status 200 sagt nichts darüber aus, ob eine Antwort fachlich korrekt, regelkonform oder wirtschaftlich sinnvoll war. Hinzu kommt: GenAI-Anwendungen bestehen heute meist nicht aus einem einzelnen Modellaufruf, sondern aus ganzen Workflows mit Retrieval, Tool Calls, Policies und nachgelagerten Prüfungen. Genau deshalb braucht der Betrieb generativer KI zusätzliche Steuerungsmechanismen. NIST trägt diesem Umstand inzwischen ausdrücklich Rechnung und beschreibt in seinem GenAI-Profil zum AI Risk Management Framework, wie Risiken generativer KI über den gesamten Lebenszyklus identifiziert, gemessen und gesteuert werden sollen.
Observability für KI-Workflows
Wer eine GenAI-Anwendung produktiv betreibt, muss nachvollziehen können, was das System tatsächlich getan hat. Relevante Fragen sind nicht nur: War der Dienst verfügbar? Sondern auch: Welche Dokumente wurden geladen? Welcher Prompt wurde verwendet? Welches Modell lief mit welchen Parametern? Wie hoch waren Token-Verbrauch, Kosten und Latenz? Welche Tool-Aufrufe haben den Antwortpfad beeinflusst? Genau hier beginnt GenAI-Observability. Sie macht aus einer Black Box einen analysierbaren Workflow.
Prompt-Management: Prompts wie Konfigurationsobjekte behandeln
Prompts werden im Alltag noch immer behandelt wie Textbausteine, die irgendwo im Quellcode liegen. Für produktive GenAI-Systeme ist das zu kurz gedacht. Prompts sind keine Deko, sondern verhaltensprägende Konfiguration. Studien zeigen konsistent, dass schon kleine Änderungen in Formatierung oder Reihenfolge die Qualität der Ergebnisse deutlich verändern können: Eine viel zitierte Untersuchung fand in Few-Shot-Szenarien Leistungsunterschiede von bis zu 76 Prozentpunkten allein durch verändertes Prompt-Format. Ein groß angelegter Vergleich aus August 2025 bestätigt das Problem auch für aktuelle Modellfamilien: Selbst subtile, nicht-semantische Variationen in Formulierung und Formatierung führen weiterhin zu signifikanten Leistungsschwankungen – und auch Frontier-Modelle von OpenAI oder DeepSeek sind davon nicht ausgenommen. In der Praxis bedeutet das: Prompts werden versioniert, über eine zentrale Registry verwaltet und unabhängig vom Anwendungscode ausgerollt. Änderungen lassen sich so gezielt testen, ausrollen und bei Bedarf zurücknehmen – ohne ein vollständiges Re-Deployment der Anwendung.
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Guardrails: Schäden begrenzen, bevor sie entstehen
Die operativen Grundlagen zur KI-Integration in Unternehmen
(Bild: Ergosign GmbH)
Evaluationen zeigen Probleme an. Guardrails greifen ein, bevor ein Problem den Nutzer erreicht oder unnötige Kosten verursacht. Input-Guardrails prüfen Anfragen früh im Workflow: Ist die Anfrage fachlich zulässig? Ist sie manipulativ? Soll sie das System zweckentfremden? Output-Guardrails prüfen Antworten vor der Auslieferung: Enthalten sie sensible Inhalte (wie z. B. personenbezogene Daten), Richtlinienverstöße, Halluzinationen oder unzulässige Aussagen?
Das ist keine Kür, sondern Teil der Sicherheitsarchitektur. OWASP führt Prompt Injection inzwischen als zentrale Schwachstelle von LLM-Anwendungen auf. Der Kern des Problems: Natürliche Sprache dient gleichzeitig als Datenkanal und Instruktionskanal. Dadurch können Angreifer versuchen, das Verhalten des Systems über Eingaben gezielt umzulenken. Guardrails sollten deshalb mehrstufig umgesetzt werden: vor Retrieval, vor Tool-Aufrufen und vor der Ausgabe an den Nutzer.
Praxisbeispiel: Vom Chatbot zur steuerbaren Anwendung
Typisch ist der Fall eines Assistenten in einem Portal oder Self-Service-System. In der Demo beantwortet er Standardfragen überzeugend und spart sichtbar Zeit. Im Betrieb zeigen sich dann die eigentlichen Probleme: Sonderfälle führen zu unklaren Antworten, lange Dialoge treiben die Kosten, und Nutzer versuchen, den Assistenten auf fachfremde Themen oder sensible Inhalte umzulenken.
Ein belastbarer Betrieb entsteht erst dann, wenn die einzelnen Ebenen zusammenspielen. Observability zeigt, an welcher Stelle der Workflow falsch abgebogen ist. Prompt-Management ermöglicht schnelle Korrekturen ohne komplettes Re-Deployment. Evaluationen verhindern, dass ein Update (sei es am Prompt, am Retrieval oder am Modell selbst) alte Fehler wieder zurückbringt. Guardrails begrenzen Missbrauch und filtern problematische Antworten, bevor sie beim Nutzer ankommen. Genau darin liegt der praktische Kern von GenAI Ops: Qualität, Kosten und Risiken werden nicht erst im Nachhinein sichtbar, sondern im laufenden Betrieb steuerbar.
Checkliste vor dem Go-live
● Sind für jede kritische Nutzerintention Testfälle und Abnahmekriterien definiert? ● Werden Prompt-Version, Modellversion, Kosten und Latenz pro Anfrage gespeichert? ● Gibt es Rollback-Mechanismen für Prompts, Modelle und Retrieval-Konfigurationen? ● Sind Online-Evals und manuelle Review-Prozesse für riskante Fälle etabliert? ● Greifen Input- und Output-Guardrails vor und nach jedem kritischen Verarbeitungsschritt?
Fazit
Wer generative KI produktiv einsetzen will, braucht mehr als leistungsfähige Modelle. Entscheidend ist ein Betriebsmodell, das Qualität, Kosten und Risiken kontinuierlich steuerbar macht. Observability, Prompt-Management, Evaluationen und Guardrails schaffen dafür die operative Grundlage. Erst dann wird aus einer überzeugenden Demo ein System, das sich im Alltag verantwortbar, wirtschaftlich und reproduzierbar betreiben lässt. Mit zunehmend autonomen KI-Agenten, die eigenständig Entscheidungen treffen und Tools aufrufen, wird dieser Steuerungsrahmen nicht weniger wichtig – sondern zur Voraussetzung dafür, dass Unternehmen KI-Agenten verantwortbar in produktive Prozesse einbinden können.