Moderne IT-Architekturen verhalten sich dynamisch und oft schwer vorhersehbar. KI-gestützte Observability ermöglicht es erstmals, Chaos Engineering datenbasiert einzusetzen und Systemresilienz messbar zu machen.
Der Autor: Roman Spitzbart ist VP EMEA Solutions Engineering bei Dynatrace
(Bild: Dynatrace)
Moderne IT-Architekturen bestehen aus tausenden Services, APIs, Datenpipelines und Infrastrukturkomponenten. Cloud-Plattformen, Microservices und verteilte Datenverarbeitung erzeugen dynamische Abhängigkeiten, die sich permanent verändern. Der Zustand eines Systems ergibt sich aus dem Zusammenspiel zahlreicher Komponenten, deren Verhalten sich mit jedem Deployment, jeder Lastspitze oder jedem neuen Datenstrom verändert. Diese Dynamik stellt klassische Monitoring-Ansätze zunehmend vor Grenzen. Sie basieren meist auf statischen Schwellenwerten einzelner Metriken und lösen Alarm aus, wenn definierte Grenzwerte überschritten werden. Solche Signale zeigen jedoch meist nur Symptome. Die eigentlichen Ursachen liegen in komplexen Wechselwirkungen zwischen Systemkomponenten, die sich nicht aus einzelnen Messwerten ableiten lassen.
Stabilität wird damit weniger zur Frage einzelner Messwerte als zu einer Frage systemischer Muster. In hochkomplexen Systemlandschaften wird Stabilität deshalb zunehmend zu einem Datenproblem. Um zu verstehen, wie sich ein System unter realen Bedingungen verhält, reicht Beobachtung allein nicht mehr aus. Systeme müssen unter kontrollierten Bedingungen analysiert werden. Genau hier setzt Chaos Engineering an.
Chaos Engineering – überzeugendes Konzept mit praktischen Grenzen
Chaos Engineering folgt einen wissenschaftlichen Ansatz zur Analyse komplexer Systeme. Sie werden gezielt unter Stress gesetzt, um ihre Reaktionen zu beobachten und potenzielle Schwachstellen sichtbar zu machen. Ziel ist es, Instabilitäten zu erkennen, bevor sie sich im produktiven Betrieb als reale Ausfälle manifestieren. In der Theorie gilt dieser Ansatz seit Jahren als sinnvoll. In der Praxis bleibt Chaos Engineering jedoch häufig auf einzelne Experimente oder Testumgebungen beschränkt. Der Grund liegt weniger im Konzept selbst als in seiner operativen Umsetzung.
Experimente müssen in vielen Fällen manuell geplant und durchgeführt werden. Hypothesen über mögliche Schwachstellen beruhen häufig auf unvollständigem Wissen über Systemabhängigkeiten. Gleichzeitig lassen sich die Auswirkungen gezielter Störungen nur schwer vorhersagen. In produktiven Umgebungen entsteht dadurch ein Risiko: Experimente können selbst Instabilitäten verursachen. Unter diesen Bedingungen bleibt Chaos Engineering oft ein experimenteller Ansatz statt eines systematischen Analyseinstruments. Erst wenn Experimente datenbasiert geplant, kontrolliert durchgeführt und zuverlässig ausgewertet werden können, lässt sich das Konzept operativ nutzen.
KI modelliert den realen Systemzustand
Hier verändert Künstliche Intelligenz (KI) die Ausgangslage. Moderne Observability-Plattformen erfassen kontinuierlich große Mengen an Telemetriedaten aus Anwendungen und der Infrastruktur. Dazu gehören Logs, Metriken, Traces und Informationen über Systemtopologien sowie Service-Abhängigkeiten. KI analysiert diese Datenströme durchgehend und rekonstruiert daraus ein belastbares Modell des Systemzustands. Die Analyse zeigt, wie Services miteinander interagieren, welche Lastprofile im Normalbetrieb auftreten und welche typischen Variationen im Betriebsverhalten üblich sind.
Dabei berücksichtigt die Analyse auch zeitliche Muster des Systemverhaltens. Lastprofile unterscheiden sich beispielsweise je nach Tageszeit, Release-Zyklen oder Phasen intensiver Datenverarbeitung. KI erkennt solche wiederkehrenden Muster und kann sie von ungewöhnlichen Abweichungen unterscheiden. Auf dieser Basis entstehen dynamische Referenzmodelle für den Normalbetrieb eines Systems. Starre Grenzwerte werden dadurch durch kontextbezogene Bewertungen ersetzt und Abweichungen im Zusammenhang mit dem gesamten Systemverhalten eingeordnet.
Der entscheidende Fortschritt liegt in der kausalen Auswertung. KI kann Ursache-Wirkungs-Beziehungen zwischen Komponenten identifizieren und sichtbar machen, wie sich Änderungen in einem Teil des Systems auf andere Bereiche auswirken. Dadurch wird erkennbar, welche Services voneinander abhängig sind und wo potenzielle Kaskadeneffekte entstehen können.
Experimente werden datenbasiert statt spekulativ
Dieses Systemverständnis verändert die Durchführung von Chaos Engineering grundlegend. Experimente basieren nicht länger auf Vermutungen über mögliche Schwachstellen, sondern auf datenbasierten Hypothesen über reale Systemabhängigkeiten. Auf Grundlage der analysierten Telemetriedaten lassen sich gezielt Szenarien identifizieren, die für die Stabilität eines Systems besonders relevant sind. Dazu gehören beispielsweise Veränderungen der Latenz zwischen Services, der Ausfall einzelner Infrastrukturkomponenten oder Überlastungen kritischer Datenpipelines. Auch Failover-Mechanismen lassen sich unter realistischen Bedingungen testen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Während solcher Szenarien analysiert die KI kontinuierlich die Reaktion des Systems. Abweichungen vom Normalzustand werden erkannt, eingeordnet und mit ihren möglichen Ursachen korreliert. So lassen sich Stabilitätsrisiken frühzeitig identifizieren. Gleichzeitig ermöglicht die Analyse eine Priorisierung möglicher Experimente. Nicht jede potenzielle Störung ist für die Systemstabilität gleichermaßen relevant. KI kann identifizieren, welche Abhängigkeiten besonders kritisch sind und welche Szenarien mit hoher Wahrscheinlichkeit systemweite Effekte auslösen würden. Chaos-Experimente konzentrieren sich dadurch auf jene Bereiche der Architektur, in denen tatsächliche Stabilitätsrisiken bestehen.
Resilienz wird zur messbaren Systemeigenschaft
In hochkomplexen IT-Architekturen ist Stabilität kein statischer Zustand mehr. Systeme befinden sich permanent im Wandel. Neue Services werden hinzugefügt, Datenströme verändern sich, Infrastruktur wird dynamisch skaliert. Unter diesen Bedingungen entscheidet nicht allein die Fehlerfreiheit über Stabilität. Wichtig ist die Fähigkeit eines Systems, kontrolliert auf Störungen zu reagieren und sich unter Belastung stabil zu verhalten.
Gerade für datengetriebene Plattformen, deren Geschäftsmodelle auf permanenter Verfügbarkeit basieren, gewinnt diese Fähigkeit strategische Bedeutung. Die Belastbarkeit einer Plattform beeinflusst die Systemverfügbarkeit sowie die Zuverlässigkeit digitaler Geschäftsprozesse und datenbasierter Services. KI-gestütztes Chaos Engineering verschiebt den Fokus von reaktiver Fehleranalyse hin zu präventiver Resilienzbewertung.