Problemmuster reduzieren IT-Ausfälle von Stunden auf Minuten Big Data-Analysen steigern die Servicequalität von IT

Autor / Redakteur: Peter Mörsch / Ulrike Ostler

Die These: Neue Analysemethoden helfen dabei, die Verfügbarkeit von IT-Diensten zu steigern und die Kosten für den IT-Betrieb zu senken.

Firmen zum Thema

Big Data Analysen sind künftig die einzig effiziente Möglichkeit, um die steigende Komplexität der IT zu bewältigen.
Big Data Analysen sind künftig die einzig effiziente Möglichkeit, um die steigende Komplexität der IT zu bewältigen.
(Bild: Forrester Research)

Immer mehr Geschäftsprozesse basieren auf unternehmensweit genutzten Software-Anwendungen. Einige Banken sprechen bereits davon, dass sie ein Softwarehaus mit einer angeschlossen Bank sind. Dieser Trend ist für andere Industriezweige ebenfalls ungebrochen.

Die IT ist der Dreh- und Angelpunkt der internen, externen sowie M2M-gestützen Kommunikation in jeder großen Firma. Die Softwarekomponenten werden deutlich intelligenter und komplexer. Dies führt zu einem massiven Anstieg des Datenvolumens, der Fehleranfälligkeit und steigendem Druck auf die IT-Verantwortlichen.

Symptome sind nicht die Ursache

Die Vielzahl der Applikationen und Betriebsmodelle führen zu einer höchst komplexen Applikationslandschaft, die dennoch mit 99,9x Prozent Verfügbarkeit betrieben werden muss. Die IT-Landschaften bauen aufeinander auf. Applikationen werden als Mashed Applikationen betrieben. Die Verzögerung eines von 100.000 Applikations-Parametern führt zu Ausfällen oder sporadischen Verschlechterungen in anderen Applikationen, die nicht nachvollziehbar sind.

Für die verantwortlichen IT-Manager wird es daher immer aufwändiger, die Strukturen und Abhängigkeiten der IT-Systeme, Anwendungen und Netzwerke zu erkennen. Ohne Automatismen ist es den Administratoren nicht möglich, Tausende von Variablen in Echtzeit zu analysieren, die Zusammenhänge zu erkennen und zu bewerten. Darum leiden viele große Unternehmen unter Unterbrechungen von mehr als einer Stunde pro Monat, ohne die Ursache des Fehlers nach der Wiederherstellung des Services im Detail zu kennen.

Kundenzufriedenheit kostet

Oft wird nur die externe Kundenzufriedenheit betrachtet und bewertet. Hier ist es oft sehr einfach, einen Rückschluss des nicht realisierten Gewinns zu ermitteln. Eine ROI Analyse kann relativ einfach berechnet werden, um eine Investition zu rechtfertigen. Intern ist es wesentlich schwieriger, den Verlust abzuschätzen.

Doch eines ist unumstritten! Die Reduzierung eines Ausfalls von einer Stunde auf zehn Minuten, steigert den Gewinn jedes Unternehmens und erhöht die Kundenzufriedenheit.

Automatische Problem-Mustererkennung

Ein in der Praxis erfolgreicher Ansatz ist es, mit Werkzeugen für das Applikationsverhalten die Leistung von Software-Systemen dauerhaft zu messen und zu analysieren. Die ermittelten Messdaten werden verwendet, um entstehende Performance-Probleme automatisch zu erkennen und es Diagnoseteams zu ermöglichen, Fehler schneller zu identifizieren.

Die Suche nach den Ursachen kann aufwändig sein. Gut beraten ist derjenige, der sich mit einer Software bei dem Erkennen von Mustern helfen lässt.
Die Suche nach den Ursachen kann aufwändig sein. Gut beraten ist derjenige, der sich mit einer Software bei dem Erkennen von Mustern helfen lässt.
(Bild: © john photon - Fotolia)

Eine beispielsweise von CA Technologies eingesetzte „Application Behavior Analytics-Engine“ bietet hierfür multivariante Analysen, um anomales Verhalten und Muster automatisch zu erkennen. Mit diesem System können mehrere 10.000 Variablen in Echtzeit analysiert werden.

Hierbei kommen keine festen Schwellenwerte, Regeln oder Profile zum Einsatz. Vielmehr durchsucht eine selbstlernende Engine automatisch ein Daten-Repository, das von „CA Application Performance Management“ und weiteren Quellen gefüllt werden kann. Hier wird nicht wie bei vielen Performance-Management-Produkten nur das Verhalten einer Variablen betrachtet; denn es ist nicht das Ziel, die Symptome aufzuspüren, sondern über Fehlermuster die Ursache zu ermitteln.

Mehr Zeit für das Wesentliche

Die Lösung ermittelt ein anormales Verhaltensmuster aus Daten von verschiedenen Komponenten. Dies trägt zu einer verbesserten Servicequalität und Endanwendererfahrung bei. Die Zeit zur Fehlersuche und -behebung wird noch einmal deutlich reduziert.

IT-Verantwortliche erhalten somit mehr Planungssicherheit bei dem Betrieb unternehmenskritischer Anwendungen, da sich SLAs gegenüber Fachbereichen mit einer höheren Sicherheit planen und einhalten lassen. Gleichzeitig werden hochqualifizierte IT-Experten von monotonen Routinetätigkeiten entlastet, die bei der Überwachung eingehender Fehlermeldungen durch einmaliges Überschreiten von fest definierten Schwellenwerten aus dem System-Management entstehen. CIOs können so die laufenden Betriebskosten ihrer IT-Administration senken und gleichzeitig die Ausfallsicherheit der IT-Infrastruktur stärken.

Der Autor:

Peter Mörsch ist Senior Solution Strategist bei CA Technologies.

(ID:42874423)