Grundlagen Statistik & Algorithmen, Teil 6

Die Ereigniszeitanalyse – wenn Anfang und Ende die Erfolgsrate bestimmen

| Autor / Redakteur: Michael Matzer / Nico Litzel

Ereigniszeitanalyse mit zensierten Daten für die Vertriebsabteilung: die Überlebensfunktion für Vertriebstechniker (durchgezogene Linie) und für Vertreter (gestrichelte Linie) in einem Kaplan-Meier-Schätzer. Vertriebstechniker sind ihrer Stelle wesentlich stärker und länger treu als Vertreter. Der blaue und rötliche Hintergrund deckt sich mit der jeweiligen Kurve.
Ereigniszeitanalyse mit zensierten Daten für die Vertriebsabteilung: die Überlebensfunktion für Vertriebstechniker (durchgezogene Linie) und für Vertreter (gestrichelte Linie) in einem Kaplan-Meier-Schätzer. Vertriebstechniker sind ihrer Stelle wesentlich stärker und länger treu als Vertreter. Der blaue und rötliche Hintergrund deckt sich mit der jeweiligen Kurve. (Bild: SAS)

Die Ereigniszeitanalyse bzw. Survival Analysis umfasst eine Reihe von Werkzeugen der Statistik, mit denen die Zeit bis zum Eintritt eines bestimmten Ereignisses zwischen Gruppen verglichen wird. Auf diese Weise will man die Wirkung von prognostischen Faktoren, einer medizinischen Behandlung oder von schädlichen Einflüssen abschätzen. Bei dem Ereignis kann es sich um etwas so Endgültiges wie den Tod handeln, aber auch um den Verlust einer Arbeitsstelle, eine Scheidung oder einen Beginn, etwa um eine Geburt oder einen Heilungseintritt.

Mit dem Sammelbegriff der „Survival- und Ereigniszeitanalyse“ werden eine Reihe von statistischen Verfahren bezeichnet, die der Untersuchung von Zeitintervallen zwischen aufeinander folgenden Ereignissen oder Zustandswechseln dienen. Die von den Untersuchungseinheiten wie etwa Individuen, Haushalten oder Organisationen eingenommenen Zustände sind dabei stets abzählbar.

In der Regel handelt es sich um eine relativ begrenzte Anzahl von Zuständen wie etwa hohe/tiefe Körpertemperatur, hohe/niedrige Feuchtigkeit usw. Die erfassten Ereignisse können zu beliebigen Zeitpunkten eintreten, bezeichnen aber für gewöhnlich einen Anfangs- oder Endpunkt, wie etwa eine Geburt, eine Inbetriebnahme, eine Heilung, eine Erkrankung oder das Lebensende – auch das einer Maschine.

Anwendungsfelder

Weil die Ereigniszeitanalyse in der Soziologie und in den Ingenieursdisziplinen so vielfältig verwendbar ist, lassen sich zahlreiche Beispiele für solche Prozesse finden. So sind etwa die Dauer der Arbeitslosigkeit bis zum Beginn einer neuen Erwerbstätigkeit für die Arbeitsmarktforschung interessant. Die Zeit in einer beruflichen Tätigkeit bis zu einem sozialen Aufstieg ist für die soziale Mobilitätsforschung von Interesse. Die Dauer bis zu einem Umzug an einen anderen Ort ist für die Migrationsforschung relevant. Die Ehedauer bis zur Scheidung taucht in der demografischen Forschung auf und die Überlebenszeiten von Patienten werden in medizinischen Studien erfasst.

Analog dazu lassen sich Maschinen beschreiben, etwa im Smart Grid, in einer komplexen Maschine oder in einem sensorgestützten IoT-System. Deshalb wird das Verfahren im Englischen auch „Reliability Theory“, also Zuverlässigkeitsanalyse, genannt. Üblicherweise werden nur Ereignisse untersucht, die höchstens ein Mal pro Subjekt bzw. Gruppe auftreten können, etwa eine Lebenszeit. Eine Erweiterung auf wiederholt auftretende Ereignisse ist indes möglich.

Statistische Funktionen

Es geht stets darum, zentrale Kenngrößen wie etwa die Überlebensrate einer Gruppe oder die Zuverlässigkeit einer Maschine herauszufinden. Daraus folgt, dass die Überlebensfunktion S analog zur Zuverlässigkeitsfunktion R(t) berechnet wird, wobei der Faktor t Zeit ist und P die Höhe der Wahrscheinlichkeit: S(t) = R(t) = P (T>t). T ist die verbleibende Dauer zum Lebensende eines Organismus oder zum Ausfall eines Geräts. Normalerweise ist S(0) = 1, sonst kann nämlich ein sofortiger „Tod“ oder Geräteausfall eintreten.

Aus der Überlebensfunktion lassen sich verschiedene Größen ableiten. Die Ereigniszeit-Verteilungsfunktion, in technischem Bezug auch als Ausfallswahrscheinlichkeit („Probability of failure“) bezeichnet und mit F abgekürzt, ist die komplementäre Funktion zur Überlebensfunktion: F(t). Die erste Ableitung von F, die Ereignisdichtefunktion oder Ausfallsdichte („failure density function“), wird mit f bezeichnet. Die Ereignisdichtefunktion ist die Rate des betrachteten Ereignisses pro Zeiteinheit.

Die Ausfallrate, auch als Hazardfunktion bezeichnet und mit h(t) bezeichnet, ist definiert als Häufigkeit, mit der ein Ereignis zum Zeitpunkt T eintritt, vorausgesetzt, dass es bis zum Zeitpunkt t noch nicht eingetreten ist. Der englische Ausdruck „force of mortality“ (Sterblichkeitsrate) wird speziell in der Demografie verwendet. Die Hazardfunktion kann anwachsen oder fallen, sie braucht weder monoton noch stetig zu sein.

Die verbleibende Lebenszeit zu einem Zeitpunkt t0 ist die bis zum Tod bzw. Ausfall verbleibende Zeit, also T - t0. Die zukünftige Lebenserwartung ist der Erwartungswert der verbleibenden Lebenszeit. Für t0 = 0 reduziert sich dies auf die Lebenserwartung bei der Geburt. In Zuverlässigkeitsanalysen wird die Lebenserwartung englisch „mean time to failure“ (MTTF) und die zukünftige Lebenserwartung englisch „mean residual lifetime“ (MRL) genannt. MTFF ist eine obligatorische Angabe für jede Art von elektrischem oder elektronischem Gerät. Nach Ablauf dieses „Mindesthaltbarkeitsdatums“ sollte das Gerät ausgetauscht werden.

Weitere Methoden

Die statistischen Methoden der Ereigniszeitanalyse reichen von den deskriptiven Verfahren der Survivalanalyse (z. B. Sterbetafel-Methode und Kaplan-Meier-Schätzung), über das semiparametrische Regressionsmodell von Cox, bis zu den parametrischen Verfahren mit und ohne Zeitabhängigkeiten, so etwa dem Exponential-, Piecewise-Constant-, Gompertz (-Makeham)-, Weibull- oder log-logistischen Modell. Im begrenzten Rahmen dieses Beitrag können nur der Kaplan-Meier-Schätzer und das Cox-Modell näher vorgestellt werden.

Kaplan-Meier-Schätzer (KMS)

Der Kaplan-Meier-Schätzer-Algorithmus, bereits 1958 formuliert, ist eine der am häufigsten verwendeten Methoden der „Survival Analysis“ und in praktisch jedem Statistikpaket (SAS, R, Mathematica, Python usw.) zu finden. Der KMS dient zum Schätzen der Wahrscheinlichkeit, dass bei einem Versuchsobjekt ein bestimmtes Ereignis innerhalb eines Zeitintervalls nicht eintritt.

Es handelt sich um eine nichtparametrische Schätzung der Überlebensfunktion (s.o.) im Rahmen der Ereigniszeitanalyse. Der KMS lässt sich beispielsweise nutzen, um die Sterbewahrscheinlichkeit eines Patienten oder die Ausfallwahrscheinlichkeit eines Geräts zu kalkulieren.

Für eine KM-Verlaufskurve sind zwei Daten nötig: der Status der letzten Messung bzw. Beobachtung und die Zeit bis zum Ereignis. Sollen die Überlebensfunktionen zweier Gruppen verglichen werden, wird ein drittes Datum benötigt: die Gruppenzuordnung jeden Subjekts. Auf diese Daten braucht man nur noch die KM-Formel anwenden.

Ereigniszeitanalyse mit Überlebensfunktion (Kurve) und Hazard-Funktion (Zacken). Wann immer die Überlebens-Kurve einen Einbruch erlebt, taucht ein signifikanter Zacken auf. Je höher der Zacken, desto tiefer der Einbruch.
Ereigniszeitanalyse mit Überlebensfunktion (Kurve) und Hazard-Funktion (Zacken). Wann immer die Überlebens-Kurve einen Einbruch erlebt, taucht ein signifikanter Zacken auf. Je höher der Zacken, desto tiefer der Einbruch. (Bild: SAS)

Das Verlaufsdiagramm eines KM-Schätzers (siehe Abbildungen) besteht aus einer Reihe von absteigenden horizontalen Schritten bzw. Stufen, welche, eine ausreichend große Datenmenge vorausgesetzt, sich der wahren Überlebensfunktion (s. o.) dieser Bevölkerungsgruppe annähert. Der Wert der Überlebensfunktion zwischen aufeinanderfolgenden Messungen bzw. Beobachtungen wird als konstant angenommen.

Ein großer Vorteil dieser KM-Kurve besteht darin, dass die Methode auch manche Arten von zensierten Daten berücksichtigen kann, besonders rechts zensierte. Häufig werden Daten nämlich links oder rechts zensiert. Wenn Geburt und Tod bekannt sind, dann ist in diesem Fall der Lebensverlauf eindeutig. Wenn man dagegen nur weiß, dass die Geburt vor einem bestimmten Zeitpunkt stattfand, dann nennt man diesen Datensatz links zensiert.

Genauso könnte nur bekannt sein, dass der Tod nach einem bestimmten Datum eintrat. Das ist dann ein rechts zensierter Datensatz. Ein Lebenslauf kann auf diese Weise auch rechts und links zensiert sein (intervallzensiert). Falls eine Person, die ein bestimmtes Alter nicht erreicht, überhaupt nicht beobachtet wird, dann ist der Datensatz abgeschnitten (engl.: truncated). Bei einem links zensierten Datensatz weiß man dagegen zumindest, dass das Individuum existierte.

Weiteres Beispiel für einen Kaplan-Meier-Schätzer, diesmal mit genau bezeichneten Kenngrößen hinsichtlich Dauer (x-Achse) und Wahrscheinlichkeit (y-Achse).
Weiteres Beispiel für einen Kaplan-Meier-Schätzer, diesmal mit genau bezeichneten Kenngrößen hinsichtlich Dauer (x-Achse) und Wahrscheinlichkeit (y-Achse). (Bild: gemeinfrei / CC0)

Im Verlaufsdiagramm zeigen kleine Häkchen an, dass einzelne Patienten Überlebenszeiten aufweisen, die rechts-zensiert wurden. Um die Verlässlichkeit auszudrücken, ist im KM-Schätzer das Konfidenzintervall eingeführt worden. Ein Konfidenzintervall ist ein Intervall aus der Statistik, das die Präzision der Lageschätzung eines Parameters angeben soll. Das Konfidenzintervall gibt den Bereich an, der bei unendlicher Wiederholung eines Zufallsexperiments mit einer gewissen Wahrscheinlichkeit die wahre Lage des Parameters einschließt. Das Konfidenzintervall kann aus der Varianz bzw. dem Standardfehler berechnet werden.

Regressionsmodell von Cox

Die Cox-Regression ist eine nach David Cox benannte Regressionsanalyse zur Modellierung von Überlebenszeiten. Wie alle ereigniszeitanalytischen Methoden ist sie ein Verfahren zur Schätzung des Einflusses unabhängiger Variablen auf die Dauer bis zum Eintreten von Ereignissen („Überlebenszeit“) bzw. deren Hazard. Als sogenanntes semiparametrisches Verfahren liefert die Cox-Schätzung kein komplettes Vorhersagemodell für die Überlebenszeit, sondern lässt die Verteilungsfunktion der beobachteten Episodenenden unspezifiziert. Sie schätzt ausschließlich den Einfluss metrischer oder kategorialer Variablen auf einen Baseline-Hazard, von dem angenommen wird, dass er über alle Fälle hinweg konstant ist.

Die Anwendungsgebiete sind ähnlich wie in der Ereigniszeitanalyse. Das von Cox vorgeschlagene Regressionsmodell wird zur Untersuchung des Verhaltens der Ausfallraten in Abhängigkeit von Umwelteinflüssen benutzt, beispielsweise von Soldaten unter Beschuss. Grundlage des Modells sind die Einflussvektoren z von i, mit i = 1 bis n, die für jedes Individuum der Studie beobachtet werden können. Der Zusammenhang zwischen diesen Einflüssen und der Ausfallfunktion wird dann über eine festgelegte Relation h hergestellt.

H von 0 bezeichnet dabei eine unbekannte Ausfallfunktion, die im Ausgangsfall ohne Einflüsse die zugehörige Ausfallfunktion darstellt. ß ist ein unbekannter Parameter, ebenfalls n-dimensional. Aufgabe der Statistik ist die Schätzung dieses Parameters.

Da Jahrzehnte seit der Konzeption dieser beiden Methoden vergangen sind, wurden sie im Laufe der Zeit erweitert, verfeinert und modifiziert. So ist es dem Statistiker möglich, zahlreiche vom Standard abweichende Fälle zu berechnen. In jüngster Zeit kommt den Methoden der Ereignisanalyse eine besondere Bedeutung bei der Weiterentwicklung der Kausalanalyse, der Untersuchung von parallelen und interdependenten Prozessen und der Mehrebenenanalyse zu. Sicher ist aber, dass die Ereigniszeitanalyse mit bedeutenden Algorithmen arbeitet, die in keinem Statistikpaket fehlen dürfen.

Das Problem des Handlungsreisenden und seine praktischen Anwendungen

Grundlagen Statistik & Algorithmen, Teil 1

Das Problem des Handlungsreisenden und seine praktischen Anwendungen

18.06.18 - Ob beim Design von künstlichen Neuronalen Netzwerken fürs Deep Learning, in der Logistik oder beim Layout von Leiterplatten – überall stößt man auf das mathematisch lösbare Problem des Handlungsreisenden: Wie lässt sich eine Tour mit mehreren Stationen auf dem kürzesten Weg und mit dem geringsten Aufwand bewältigen? lesen

So verfeinert das Bayes-Theorem Spam-Filter – und mehr

Grundlagen Statistik & Algorithmen, Teil 2

So verfeinert das Bayes-Theorem Spam-Filter – und mehr

25.06.18 - Mithilfe des Satzes von Bayes lassen sich Parameter schätzen und Hypothesen induktiv testen. In einem Spamfilter können so wahrscheinliche Spam-Mails ermittelt werden. Und aus den Symptomen, die bei einem bekannten Test auftreten, lassen sich wahrscheinliche Krankheitsursachen aufspüren. Der Satz von Bayes, der bedingte Wahrscheinlichkeiten beschreibt, ist also ein nahezu universell nutzbares Werkzeug der Statistik. lesen

Speed für Mustererkennung mit dem Rete-Algorithmus

Grundlagen Statistik & Algorithmen, Teil 3

Speed für Mustererkennung mit dem Rete-Algorithmus

02.07.18 - Geschäftsregeln halten zahlreiche Unternehmensprozesse am Laufen, deshalb können sie mitunter sehr umfangreich werden. Der Umfang macht ihre Ausführung zeitaufwendig, weshalb jede Methode, sie zu beschleunigen, willkommen ist. Der Rete-Algorithmus beschleunigte 1979 die damals bestehenden Systeme für die Verarbeitung von Business Rules um den Faktor 3.000. Er ist bis heute die Grundlage zahlreicher Expertensysteme, etwa in der Mustererkennung. lesen

Der Monte-Carlo-Algorithmus und -Simulationen

Grundlagen Statistik & Algorithmen, Teil 4

Der Monte-Carlo-Algorithmus und -Simulationen

10.09.18 - Eine Reihe von Algorithmen dient der Suche von Lösungen, ohne vorher die Antwort zu kennen, und von Entscheidungen, die nach „wahrscheinlich richtig oder falsch“ beurteilt werden. Das ist sinnvoll für das Risiko-Management, aber auch für die Nutzung von Supercomputern. Ein solcher Algorithmus ist der Monte-Carlo-Algorithmus und die darauf basierenden Simulationen lesen

Optimale Clusteranalyse und Segmentierung mit dem k-Means-Algorithmus

Grundlagen Statistik & Algorithmen, Teil 5

Optimale Clusteranalyse und Segmentierung mit dem k-Means-Algorithmus

19.11.18 - Der k-Means-Algorithmus ist ein Rechenverfahren, das sich für die Gruppierung von Objekten, die sogenannte Clusteranalyse, einsetzen lässt. Dank der effizienten Berechnung der Clusterzentren und dem geringen Speicherbedarf eignet sich der Algorithmus sehr gut für die Analyse großer Datenmengen, wie sie im Big-Data-Umfeld üblich sind, so etwa in der Bildverarbeitung und in der Kundensegmentierung. lesen

So deckt der Local Outlier Factor Anomalien auf

Grundlagen Statistik & Algorithmen, Teil 7

So deckt der Local Outlier Factor Anomalien auf

29.04.19 - Um Trends zu erkennen, wird oft die Clusteranalyse herangezogen. Der k-Means-Algorithmus etwa zeigt an, wo sich Analyseergebnisse in einer Normalverteilung ballen. Für manche Zwecke ist es aber aufschlussreicher, Ausreißer zu untersuchen, denn sie bilden die Antithese zum „Normalen“, etwa im Betrugswesen. Der Local-Outlier-Factor-Algorithmus (LOF) ist in der Lage, den Abstand von Ausreißern zu ihren Nachbarn zu berechnen und deckt so Anomalien auf. lesen

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45704766 / Analytics)