Regressionsdiagnostik

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

In der Statistik ist die Regressionsdiagnostik die Überprüfung, ob die klassischen Annahmen eines Regressionsmodells mit den vorliegenden Daten konsistent sind. Falls die Annahmen nicht zutreffen, sind die berechneten Standardfehler der Parameterschätzungen und p-Werte nicht korrekt. Die Problematik bei der Regressionsdiagnostik ist, dass sich die klassischen Annahmen nur auf die Störgrößen, nicht aber auf die Residuen beziehen.

Überprüfung der Regressionsmodellannahmen

[Bearbeiten | Quelltext bearbeiten]

Im Rahmen der Regressionsdiagnostik sollen die Voraussetzungen des Regressionsmodells, soweit möglich, geprüft werden. Dazu zählen die Überprüfung, ob die Fehlerterme keine Struktur (die dann nicht zufällig wäre) haben. Dazu gehört, ob

Erwünschte (links oben) und unerwünschte (alle anderen) Streudiagramme der Residuen.
Erwünschte (links oben) und unerwünschte (alle anderen) Streudiagramme der Residuen.
  1. die Fehlerterme unabhängig sind,
  2. Analyse der Varianz der Fehlerterme (Homoskedastizität und Heteroskedastizität),
  3. die Fehlerterme normal-verteilt und
  4. keine weitere regressierbare Struktur in den Fehlertermen existiert.

Kennzahlen und Tests

[Bearbeiten | Quelltext bearbeiten]

Zur Analyse werden Streudiagramme, Kennzahlen und Tests eingesetzt:

Unabhängigkeit der Fehlerterme
  • Streudiagramme der Residuen ( -Achse) gegen die unabhängige Variable, die abhängige Variable und/oder die geschätzten Regresswerten
  • Durbin-Watson-Test auf autokorrelierte Fehlerterme
Heteroskedastizität der Fehlerterme
  • Streudiagramme der Residuen ( -Achse) gegen die unabhängige Variable, die abhängige Variable und/oder die geschätzten Regresswerten
  • Breusch-Pagan-Test
  • Goldfeld-Quandt-Test
Normalverteilung der Fehlerterme
Regressierbare Struktur der Fehlerterme
  • Streudiagramm der (quadrierten) Residuen ( -Achse) inklusive einer nichtparametrischen Regression gegen die unabhängige Variable, die abhängige Variable, den geschätzten Regresswerten und/oder die nicht in der Regression benutzten Variablen
Vorliegen von Autokorrelation
Ein Ausreißer-Messwert. Die blaue Regressionsgerade wurde ohne Einbeziehung des Ausreißers erstellt, die violette mit.

Als Ausreißer sind Datenwerte definiert, die „nicht in eine Messreihe passen“. Diese Werte haben einen starken Einfluss auf die Regressiongleichung und verfälschen das Ergebnis. Um dies zu vermeiden, müssen die Daten auf fehlerhafte Beobachtungen untersucht werden. Die entdeckten Ausreißer können beispielsweise aus der Messreihe ausgeschieden werden oder es sind alternative ausreißerresistente Berechnungsverfahren wie die gewichtete Regression oder das Drei-Gruppen-Verfahren anzuwenden.

Im ersten Fall wird nach der ersten Berechnung der Schätzwerte durch statistische Tests geprüft, ob Ausreißer in einzelnen Messwerten vorliegen. Diese Messwerte werden dann ausgeschieden und die Schätzwerte erneut berechnet. Dieses Verfahren eignet sich dann, wenn nur wenige Ausreißer vorliegen.

Bei der gewichteten Regression werden die abhängigen Variablen in Abhängigkeit von ihren Residuen gewichtet. Ausreißer, d. h. Beobachtungen mit großen Residuen, erhalten ein geringes Gewicht, das je nach Größe des Residuums abgestuft sein kann. Beim Algorithmus nach Mosteller und Tukey (1977), der als „biweighting“ bezeichnet wird, werden unproblematische Werte mit 1 und Ausreißer mit 0 gewichtet, was die Unterdrückung des Ausreißers bedingt. Bei der gewichteten Regression sind in der Regel mehrere Iterationsschritte erforderlich, bis sich die Menge der erkannten Ausreißer nicht mehr ändert. Führt das Weglassen einer oder weniger Beobachtungen zu starken Änderungen bei der Regressionsgeraden, so stellt sich die Frage, ob das Regressionsmodell angemessen ist.

  • Diagnose: Cook-Abstand: Der Cook-Abstand misst den Einfluss der -ten Beobachtung auf die Schätzung des Regressionsmodells.