Ereigniszeitanalyse

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Survival Analysis)
Zur Navigation springen Zur Suche springen
Dieser Artikel wurde auf der Qualitätssicherungsseite des Portals Mathematik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Mathematik auf ein akzeptables Niveau zu bringen.

Bitte hilf mit, die Mängel dieses Artikels zu beseitigen, und beteilige dich bitte an der Diskussion! (Artikel eintragen)

Die Ereigniszeitanalyse (auch Verweildaueranalyse, Verlaufsdatenanalyse, Ereignisdatenanalyse, englisch survival analysis, analysis of failure times und event history analysis) ist ein Instrumentarium statistischer Methoden, bei der die Zeit bis zu einem bestimmten Ereignis („time to event“) zwischen Gruppen verglichen wird, um die Wirkung von prognostischen Faktoren, medizinischer Behandlung oder schädlichen Einflüssen zu schätzen. Das Ereignis kann dabei ein bevorstehender Tod sein, jedoch auch beliebige andere Endpunkte, wie Heilung, Erkrankung oder Eintreten einer Komplikation kommen infrage. Beispiele für eine solche Analyse sind der Kaplan-Meier-Schätzer, die Cox-Regression oder das Modell für beschleunigte Ausfallzeiten. Eine zentrale Größe ist die Hazardrate.

Darstellung zweier Überlebensfunktionen/Kaplan-Meier-Schätzer, für zwei unterschiedliche Patientengruppen.

Bezeichnungen für dieses Verfahren

[Bearbeiten | Quelltext bearbeiten]

Das Verfahren wurde von unterschiedlichen Autoren abweichend bezeichnet. Weil es verschiedene Anwendungszwecke gibt, sind heute noch verschiedene Begriffe in Gebrauch, die gleichwertig sind und oft synonym verwendet werden. Das Grundverfahren ist immer gleich.

  • In der medizinischen Statistik meist Überlebensanalyse, Überlebenszeitanalyse.
  • In der empirischen Sozialforschung ist die Methode als Verweildaueranalyse (auch: Verlaufsdatenanalyse, Ereignisanalyse) bekannt, wo sie sich mit Veränderungen in einem sozialen Zustand (z. B. Dauer der Ehe) beschäftigt. Sie liefert damit präzisere Beschreibungen von Verlaufsdaten als z. B. eine Zeitreihen- oder Paneldatenanalyse. Sie informiert anhand von ereignisorientierten Datenstrukturen über die genauen Zeitdauern bis zu einem Zustandswechsel.
  • In den Ingenieurwissenschaften wird das Verfahren auch Zuverlässigkeitsanalyse genannt (englisch Reliability Theory).
  • In englischsprachigen Programmpaketen wird sie als Survival Analysis, Analysis of Failure Times oder auch Event History Analysis bezeichnet.

Anwendungsbereiche

[Bearbeiten | Quelltext bearbeiten]

Dieses Verfahren kann immer eingesetzt werden, wenn eine Mortalität vorliegt, d. h. ein sukzessives Ausscheiden von Messobjekten aus der statistischen Erfassung. Es muss sich dabei nicht um den Tod handeln, sondern auch um den Ausfall mechanischer Systeme oder Eintritt in den Ruhestand. Auch beim Eintreten positiver Ereignisse, d. h. neuer Ereignisse für die es bisher keine Messgrundlage gab, kann das Verfahren angewendet werden. (Geburt des ersten Kindes, Auftreten erster technischer Probleme oder Garantiefälle)

Beispiele für eine Ereigniszeitanalyse: Welcher Anteil einer Population wird nach einer gegebenen Zeit noch leben? Mit welcher Rate werden die Überlebenden dann sterben? Welche Eigenschaften oder Einflüsse erhöhen oder verringern die Überlebenswahrscheinlichkeit?

Zuerst ist es notwendig, Ereigniszeit (Lebenszeit) zu definieren. Für biologische Systeme endet die Lebenszeit mit dem Tod. Schwieriger ist es mit der mechanischen Zuverlässigkeit. Ausfälle sind oft nicht klar definiert und können partiell sein. Oft ist es nur graduelles Versagen, das sich nicht so leicht zeitlich festlegen lässt. Ähnliche Schwierigkeiten treten bei anderen biologischen Ereignissen auf. Beispielsweise sind ein Herzanfall oder ein Organversagen schwierig zeitlich festzulegen.

Üblicherweise werden nur Ereignisse untersucht, die höchstens einmal pro Subjekt auftreten können. Eine Erweiterung auf wiederholt auftretende Ereignisse ist möglich.

Die Ereigniszeitanalyse wird auch zur Untersuchung von Materialermüdung eingesetzt[1].

Grundlegende Größen und Konzepte

[Bearbeiten | Quelltext bearbeiten]

Überlebensfunktion

[Bearbeiten | Quelltext bearbeiten]

Die zentrale Funktion ist die Überlebensfunktion (englisch Survival Function, Survivor Function) und wird mit bezeichnet. Im Bereich technischer Systeme wird für diese Funktion die Bezeichnung Zuverlässigkeitsfunktion (englisch Reliability Function) verwendet und mit bezeichnet:

dabei bezeichnet bestimmte Zeitpunkte, repräsentiert die Lebenszeit (die Zeit bis zum Tod bzw. zum Ausfall eines Geräts), und bezeichnet die Wahrscheinlichkeit. Die Überlebensfunktion gibt die Wahrscheinlichkeit an, mit der ein Individuum der Population eine Lebenszeit länger bzw. größer als haben wird.[2]

Da zu Beginn einer Analyse () alle interessierenden Individuen noch leben, ist die Wahrscheinlichkeit, diesen „nullten“ Zeitpunkt zu „überleben“ gleich . Falls ein sofortiger Tod oder Ausfall möglich ist, dann kann dieser Startwert auch kleiner als sein. Die Überlebensfunktion muss monoton fallend sein: falls . Ist diese Funktion bekannt, dann sind auch die Verteilungsfunktion und die Dichtefunktion eindeutig definiert.

Üblicherweise geht man davon aus, dass mit zunehmender Zeit die Wahrscheinlichkeit, den jeweiligen Zeitpunkt zu überleben, gegen Null geht, d. h.: . Ein Grenzwert größer als Null würde „ewiges Leben“ implizieren. Anders ausgedrückt sind und gegenläufig. Je mehr Zeit vergeht, desto wahrscheinlicher wird das Eintreten eines bestimmten Ereignisses. Die Überlebensfunktion beginnt als Funktion bei mit dem Wert und strebt mit der Zeit zum Wert (wobei meistens nicht erreicht wird, da die Betrachtung zu einem bestimmten Zeitpunkt beendet wird). Grafisch kann man sich als von aus in Richtung abwärts führende Treppenfunktion vorstellen, also monoton fallend, wobei die einzelnen Stufen unterschiedlich steil bzw. breit sein können. Die Steilheit der Treppenstufen ergibt sich aus der Anzahl der sterbenden Individuen, und ihre Breite durch die Anzahl der vergangenen Zeitpunkte . Je breiter und flacher solche Treppenstufen sind, desto höher ist die Überlebenswahrscheinlichkeit der Individuen.[3]

Ereigniszeit-Verteilungsfunktion und Ereignisdichtefunktion

[Bearbeiten | Quelltext bearbeiten]

Aus der Überlebensfunktion lassen sich verwandte Größen ableiten. Die Ereigniszeit-Verteilungsfunktion, in technischen Bezug auch als Ausfallswahrscheinlichkeit (englisch Probability of failure) bezeichnet und mit F abgekürzt, ist die komplementäre Funktion zur Überlebensfunktion:

und daher gilt auch . Die erste Ableitung von , die Ereignisdichtefunktion oder Ausfallsdichte (englisch failure density function), wird mit bezeichnet:

.

Die Ereignisdichtefunktion ist die Rate des betrachteten Ereignisses pro Zeitspanne.

Hazardfunktion und kumulierte Hazardfunktion

[Bearbeiten | Quelltext bearbeiten]

Die Ausfallrate, (speziell in der Überlebenszeitanalyse auch Hazardrate oder Hazardfunktion genannt und mit bezeichnet) ist definiert als Rate, mit der ein Ereignis zum Zeitpunkt eintritt unter der Voraussetzung, dass es bis zum Zeitpunkt t noch nicht eingetreten ist:

.

englisch force of mortality ist ein Synonym für die Hazardfunktion, welches speziell in der Demografie verwendet wird.

Die Ausfallrate muss stets positiv sein, und das Integral über muss unendlich sein. Die Hazardfunktion kann anwachsen oder fallen, sie braucht weder monoton noch stetig zu sein.

Alternativ kann die Hazardfunktion auch durch die kumulative Hazardfunktion ersetzt werden:

,

damit ist

heißt kumulative Hazardfunktion da

gilt.

Sie beschreibt die „Ansammlung“ von Hazard (Risiko) im Laufe der Zeit.

Aus folgt, dass mit wachsender Zeit unbegrenzt wächst falls gegen Null geht. Weiter folgt, dass nicht zu stark fallen darf, weil sonst die kumulierte Hazardfunktion gegen einen endlichen Wert konvergiert. Beispielsweise ist keine Hazardfunktion irgendeiner Ereigniszeitverteilung, da das Integral konvergiert.

Beispiel: die Ausfallrate für eine Überlebensfunktion ist eine Konstante .

Aus der Überlebensfunktion abgeleitete Größen

[Bearbeiten | Quelltext bearbeiten]

Die verbleibende Lebenszeit zu einem Zeitpunkt t0 ist die bis zum Tod bzw. Ausfall verbleibende Zeit, also . Die zukünftige Lebenserwartung ist der Erwartungswert der verbleibenden Lebenszeit. Die Ereignisdichtefunktion für den Zeitpunkt unter der Voraussetzung des Überlebens bis ist gerade

.

Damit ist die zukünftige Lebenserwartung

oder
.

Für reduziert sich dies auf die Lebenserwartung bei der Geburt.

In Zuverlässigkeitsanalysen wird die Lebenserwartung (Mean Time To Failure) und die mittlere Restlebenszeit genannt.

Das Alter, in dem der Anteil der Überlebenden einen vorgegebenen Wert q erreicht, kann man über die Gleichung S(t) = q ermitteln. t ist das gesuchte Quantil. Meist ist man an Größen wie dem Median der Lebensdauer q = 1/2 oder anderen Quantilen wie q = 0,90 oder q = 0,99 interessiert.

In folgender Darstellung ist tabellarisch der mathematische Zusammenhang zwischen den verschiedenen Kenngrößen dargestellt:

  Ausfallwahrscheinlichkeit
F(t)
Überlebenswahrscheinlichkeit
S(t)
Ausfalldichte
f(t)
Ausfallrate
h(t)
F(t)  
S(t)  
f(t)  
h(t)  

Beispiele für Überlebensfunktionen

[Bearbeiten | Quelltext bearbeiten]

Für Ereigniszeitmodelle wählt man zuerst eine grundlegende Überlebensfunktion aus. Es ist relativ einfach eine Verteilungsfunktion durch eine andere zu ersetzen, um die Auswirkungen zu studieren. An der grundlegenden Theorie ändert sich nichts.

Bei der Wahl der konkreten Verteilung spielen Vorkenntnisse über den konkreten Prozess eine große Rolle. Es ist in etwa analog zur Auswahl der Kopplungsfunktion in verallgemeinerten linearen Modellen. Einige häufig verwendete Funktionen sind im Folgenden aufgelistet.

Wahrscheinlichkeitsverteilung Überlebensfunktion
Exponentialverteilung
Weibull-Verteilung
Log-Normalverteilung

Dabei bezeichnet die Verteilungsfunktion der Standardnormalverteilung und die Fehlerfunktion.

Schätzen der Parameter

[Bearbeiten | Quelltext bearbeiten]

Ereigniszeitmodelle kann man als normale Regressionsmodelle betrachten in der die Ergebnisvariable die Zeit ist. Die Berechnung der Likelihood-Funktion ist kompliziert, da nicht zu jeder Zeit alle Informationen zur Verfügung stehen (siehe zensierte Daten).

Wenn Geburt und Tod bekannt sind, dann ist in diesem Fall der Lebensverlauf eindeutig. Wenn man dagegen nur weiß, dass die Geburt vor einem bestimmten Zeitpunkt stattfand, dann nennt man diesen Datensatz links zensiert. Genauso könnte nur bekannt sein, dass der Tod nach einem bestimmten Datum eintrat. Das ist dann ein rechts zensierter Datensatz. Ein Lebenslauf kann auf diese Weise auch rechts und links zensiert sein (intervallzensiert). Falls eine Person die ein bestimmtes Alter nicht erreicht, überhaupt nicht beobachtet wird, dann ist der Datensatz abgeschnitten (engl.: truncated). Bei einem links zensierten Datensatz wissen wir dagegen zumindest, dass das Individuum existierte.

Es gibt einige Standardfälle für zensierte und abgeschnittene Datensätze. Üblich ist ein rechts zensierter Datensatz. Betrachten wir eine Gruppe lebender Subjekte, dann wissen wir, dass sie heute am Leben sind. Wir wissen aber nicht ihren in der Zukunft liegenden Todestag. Links zensierte Daten sind auch üblich. Wir könnten für jedes Subjekt wissen, dass es heute lebt, aber wir kennen nicht den genauen Geburtstag. Abgeschnittene Daten treten in Studien mit verzögertem Anfang auf. Rentner könnten beispielsweise ab dem Alter 70 Jahre beobachtet werden. Über die Personen die vorher gestorben sind, ist nicht einmal deren Existenz bekannt.

Die Likelihood-Funktion für ein Ereigniszeitmodell mit zensierten Daten kann wie folgt definiert werden.[4] Definitionsgemäß ist die Likelihood-Funktion die gemeinsame Wahrscheinlichkeit der Daten bei vorgegebenen Modellparametern. Es ist üblich anzunehmen, dass die Daten unabhängig von den Parametern sind. Dann ist die Likelihood-Funktion das Produkt der Wahrscheinlichkeiten für jede Ereigniszeit. Wir teilen die Daten in vier Kategorien ein: unzensierte, links zensierte, rechts zensierte und intervallzensierte Daten. Wir unterscheiden sie in den Formeln mit „unz.“, „l.z.“, „r.z.“ und „i.z.“:

Für eine unzensierte Ereigniszeit mit dem Todesalter verwenden wir

.

Für links zensierte Daten wissen wir nur, dass der Tod vor einer Zeit eintrat

.

Für ein rechts zensiertes Individuum wissen wir, dass der Tod nach der Zeit eintritt, also ist

Und für intervallzensierte Ereignisse wissen wir, dass der Tod zwischen und eintritt

Diskrete Ereigniszeitmodelle

[Bearbeiten | Quelltext bearbeiten]
Umwandlung von Überlebensdaten in kontinuierlicher Zeit in Überlebensdaten in diskreter Zeit: Individuum 4 ist zensiert, und bei Individuum 5 tritt das Ereignis außerhalb des Beobachtungszeitraums auf.

Diskrete Ereigniszeitmodelle zerlegen die kontinuierliche Lebenszeit in Zeitintervalle, denen jeweils binäre Label (0 oder 1) zugeordnet werden, je nachdem ob ein Ereignis am Ende des Intervalls (in einem gewissen Zeithorizont) eintritt oder nicht. Durch Betrachtung der Ausfallwahrscheinlichkeiten (Übergangswahrscheinlichkeiten von Zustand 0 zum Zustand 1) in der Lebenszeit des i-ten Subjekts im j-ten Zeitintervall kann für rechtszensierte Lebenszeiten folgende Likelihood aufgestellt werden (ähnlich zu Markov-Ketten höherer Ordnung mit beliebig langem Gedächtnis): wobei anzeigt ob zum Zeitpunkt T ein Event vorliegt (1) oder eine zensierte Zeitreihe (0). Obwohl hier keine Unabhängigkeit der Übergangswahrscheinlichkeiten angenommen wurden, führt diese Formatierung der Daten und die Formulierung der Log-Likelihood-Funktion auf die typische Kreuzentropie-Verlustfunktion welche auch bei sonst unabhängigen Ereignissen vorliegt[5]. Kalibrierte binäre Klassifikatoren, welche die Kreuzentropie minimieren sind daher Maximum-Likelihood-Schätzer für die Ausfallwahrscheinlichkeit (Hazard-Funktion)[5].

Diskrete Ereigniszeitmodelle stehen in Verbindung zur empirischen Likelihood[6][7].

  • Kredit-Risiko[8][9]
  • Falschverurteilungsrate von zum Tode verurteilter Häftlinge[10]
  • Lieferzeiten für metallische Komponenten in der Luft- und Raumfahrtindustrie[11]
  • Rückfallzeiten in der Kriminalistik[12]
  • Überlebenszeiten von radio-markierten Tieren[13]
  • Überlebenszeiten bis zum gewaltsamen Tod von Römischen Imperatoren[14]
  • Wartezeiten zwischen zwei aufeinanderfolgenden Wertpapiergeschäften an elektronischen Börsen[15]

Die Güte von Ereigniszeitmodellen kann mit scoring rules bewertet werden[16].

  • Hans-Jürgen Andreß: Einführung in die Verlaufsdatenanalyse: statistische Grundlagen und Anwendungsbeispiele zur Längsschnittanalyse kategorialer Daten. In: Historical Social Research. Supplement 5, 1992, S. 1–323, urn:nbn:de:0168-ssoar-285968.
  • Hans-Peter Blossfeld, Götz Rohwer, Katrin Golsch: Event History Analysis with Stata. Lawrence Erlbaum Associates, Mahwah, N.J. 2007.
  • Regina Elandt-Johnson, Norman Johnson. Survival Models and Data Analysis. John Wiley & Sons, New York 1980/1999.
  • Wolfgang Ludwig-Mayerhofer: Statistische Modellierung von Verlaufsdaten in der Analyse sozialer Probleme. In: Soziale Probleme. Nr. 5/6, 1994.
  • Mario Cleves u. a.: An Introduction to Survival Analysis Using Stata. 3. Auflage. Stata Press, 2010.
  • Jerald F. Lawless: Statistical Models and Methods for Lifetime Data. 2. Auflage. John Wiley and Sons, Hoboken 2003.
  • Melinda Mills: Introducing Survival and Event History Analysis. Sage Publications, 2011.
  • Terry Therneau: A Package for Survival Analysis in S. Feb 1999. (online)
  • Arno Meyna, Bernhard Pauli: Zuverlässigkeitstechnik. Quantitative Bewertungsverfahren. 2. Auflage. Hanser, 2010, ISBN 978-3-446-41966-7.
Commons: Ereigniszeitanalyse – Sammlung von Bildern, Videos und Audiodateien
  • Verweildaueranalyse – Eintrag im ILMES (Internet-Lexikon der Methoden der empirischen Sozialforschung)
  • A. Ziegler, S. Lange, R. Bender: Überlebenszeitanalyse: Eigenschaften und Kaplan-Meier Methode – Artikel Nr. 15 der Statistik-Serie in der DMW. In: DMW – Deutsche Medizinische Wochenschrift. 127, S. T 14, doi:10.1055/s-2002-32819.

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. https://www.sciencedirect.com/science/article/abs/pii/S014211231830313X
  2. Christian FG Schendera: Regressionsanalyse mit SPSS. ISBN 978-3-486-71062-5, S. 233 (abgerufen über De Gruyter Online).
  3. Christian FG Schendera: Regressionsanalyse mit SPSS. ISBN 978-3-486-71062-5, S. 233 (abgerufen über De Gruyter Online).
  4. Mario Cleves, William Gould, Roberto G. Gutierrez, Yulia V. Marchenko: An Introduction to Survival Analysis Using Stata. 3rd Edition. Stata Press, 2010, ISBN 978-1-59718-074-0.
  5. a b Suresh, K., Severn, C. & Ghosh, D. Survival prediction models: an introduction to discrete-time modeling. BMC Med Res Methodol 22, 207 (2022). https://doi.org/10.1186/s12874-022-01679-6 , https://bmcmedresmethodol.biomedcentral.com/articles/10.1186/s12874-022-01679-6
  6. Empirical Likelihood in Survival Analysis, Gang Li (U.S.A.), Runze Li (U.S.A.), and Mai Zhou (U.S.A.), Contemporary Multivariate Analysis and Design of Experiments. March 2005, 337–349, https://www.ms.uky.edu/~mai/research/llz.pdf
  7. The Empirical Distribution Function with Arbitrarily Grouped, Censored and Truncated Data, Bruce W. Turnbull, Journal of the Royal Statistical Society. Series B (Methodological) Vol. 38, No. 3 (1976), pp. 290–295 (6 pages), https://apps.dtic.mil/sti/tr/pdf/ADA030940.pdf
  8. Maria Stepanova, Lyn Thomas: Survival Analysis Methods for Personal Loan Data. In: Operations Research. 50. Jahrgang, Nr. 2, 1. April 2002, ISSN 0030-364X, S. 277–289, doi:10.1287/opre.50.2.277.426.
  9. Dennis Glennon, Peter Nigro: Measuring the Default Risk of Small Business Loans: A Survival Analysis Approach. In: Journal of Money, Credit and Banking. 37. Jahrgang, Nr. 5, 2005, ISSN 0022-2879, S. 923–947, doi:10.1353/mcb.2005.0051, JSTOR:3839153.
  10. Edward H. Kennedy, Chen Hu, Barbara O’Brien, Samuel R. Gross: Rate of false conviction of criminal defendants who are sentenced to death. In: Proceedings of the National Academy of Sciences. 111. Jahrgang, Nr. 20, 20. Mai 2014, ISSN 0027-8424, S. 7230–7235, doi:10.1073/pnas.1306417111, PMID 24778209, PMC 4034186 (freier Volltext), bibcode:2014PNAS..111.7230G (englisch).
  11. F. J. de Cos Juez, P. J. García Nieto, J. Martínez Torres, J. Taboada Castro: Analysis of lead times of metallic components in the aerospace industry through a supported vector machine model. In: Mathematical and Computer Modelling (= Mathematical Models in Medicine, Business & Engineering 2009). 52. Jahrgang, Nr. 7, 1. Oktober 2010, ISSN 0895-7177, S. 1177–1184, doi:10.1016/j.mcm.2010.03.017.
  12. Andrew L. Spivak, Kelly R. Damphousse: Who Returns to Prison? A Survival Analysis of Recidivism among Adult Offenders Released in Oklahoma, 1985 – 2004. In: Justice Research and Policy. 8. Jahrgang, Nr. 2, 2006, ISSN 1525-1071, S. 57–88, doi:10.3818/jrp.8.2.2006.57 (amerikanisches Englisch).
  13. Kenneth H. Pollock, Scott R. Winterstein, Christine M. Bunck, Paul D. Curtis: Survival Analysis in Telemetry Studies: The Staggered Entry Design. In: The Journal of Wildlife Management. 53. Jahrgang, Nr. 1, 1989, ISSN 0022-541X, S. 7–15, doi:10.2307/3801296, JSTOR:3801296 (ncsu.edu).
  14. Joseph Homer Saleh: Statistical reliability analysis for a most dangerous occupation: Roman emperor. In: Palgrave Communications. 5. Jahrgang, Nr. 1, 23. Dezember 2019, ISSN 2055-1045, S. 1–7, doi:10.1057/s41599-019-0366-y (englisch).
  15. Markus Kreer, Ayse Kizilersu, Anthony W. Thomas: Censored expectation maximization algorithm for mixtures: Application to intertrade waiting times. In: Physica A: Statistical Mechanics and its Applications. 587. Jahrgang, Nr. 1, 2022, ISSN 0378-4371, S. 126456, doi:10.1016/j.physa.2021.126456 (sciencedirect.com).
  16. Proper Scoring Rules for Survival Analysis, Hiroki Yanagisawa, https://arxiv.org/abs/2305.00621v3