Testtheorie (Statistik)

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Die Testtheorie ist neben der Schätztheorie ein zentrales Teilgebiet der mathematischen Statistik und beschäftigt sich mit der Konstruktion und Untersuchung von statistischen Tests. Solche Tests versuchen, aufgrund vorliegender Daten Fragen wie

  • Wirkt ein neues Medikament wirklich besser als das ältere, gut untersuchte Präparat?
  • Ist der Klimawandel anthropogen verursacht oder nicht?
  • Wird sich der Bau einer Fabrik an einem neuen Standort innerhalb von zehn Jahren rechnen oder nicht?

zu beantworten. Dabei spielt einerseits die Modellierung und Konstruktion eines Tests eine Rolle, andererseits auch die Frage, welchen Qualitätsansprüchen ein Test genügen sollte und ob ein solcher Test überhaupt existiert.

Im Allgemeinen werden mögliche Fehler bei der Entscheidung für oder gegen eine Hypothese asymmetrisch bewertet. Beispielsweise hätte im Falle des genannten Medikamententests die Entscheidung für das neue Medikament, wenn es schlechter als das bereits vorhandene ist, wesentlich dramatischere Folgen (schwere Schädigungen von Patienten, hohe Kosten für mögliche Entschädigungsansprüche, vergeblicher Kostenaufwand für die Neueinführung, Imageverlust, …) als die umgekehrte Fehlentscheidung, bei der das neue Medikament verworfen wird, obwohl es eine Verbesserung darstellt (verpasste Marktchance). In der Regel ist es weitaus wichtiger, einen Fehler der ersten Art zu vermeiden als einen Fehler der zweiten Art. Diese Asymmetrie spiegelt sich in der Modellierung wider, indem vorrangig die Wahrscheinlichkeit eines Fehlers der ersten Art beschränkt wird. Das motiviert die folgenden Begriffsbildungen.

Nullhypothese und Alternative

[Bearbeiten | Quelltext bearbeiten]

Gegeben ist ein (nicht notwendigerweise parametrisches) statistisches Modell . Dabei formalisiert die Werte, welche die Daten annehmen können, ist eine σ-Algebra, die beschreibt, welchen Teilmengen von eine Wahrscheinlichkeit zugeordnet wird. ist eine Familie von Wahrscheinlichkeitsmaßen. Die Indexmenge wird dann disjunkt in zwei Mengen und zerlegt. Dabei bedeutet

  • die Nullhypothese und steht für die Menge aller günstigen Testfälle
  • die Alternativhypothese oder kurz Alternative und vereint alle ungünstigen Testfälle.

Die zentrale Frage der Testtheorie lautet nun: Angenommen, es liegt irgendeine unbekannte Wahrscheinlichkeitsverteilung mit vor und Daten sind gegeben. Wie kann man eine möglichst gute Aussage darüber treffen, ob ist oder ist?

Zu beachten ist, dass sich die Rolle der Nullhypothese und die der Alternative auch umkehren kann, wenn sich die Fragestellung ändert.

Statistischer Test

[Bearbeiten | Quelltext bearbeiten]

Der statistische Test formalisiert die zu treffende Entscheidung. Dabei wird 0="Annahme der Nullhypothese" und 1="Annahme der Alternative" gesetzt. Werte zwischen 0 und 1 entsprechen dann der Wahrscheinlichkeit, sich für die Alternative zu entscheiden. Mathematisch ist ein Test eine messbare Funktion

die bei Vorliegen der Daten eine Entscheidung liefert. Man spricht dann auch von einem Test von gegen . Die Menge

heißt der Ablehnungsbereich des Tests und enthält alle Daten, bei deren Vorliegen man sich für die Alternative entscheidet.

Ein Test heißt ein nichtrandomisierter Test, wenn . Ansonsten heißt der Test ein randomisierter Test. Nichtrandomisierte Tests liefern also immer eine eindeutige Entscheidung.

Fehler 1. und 2. Art

[Bearbeiten | Quelltext bearbeiten]

Ist ein gegeben, so kann man auf zwei verschiedene Arten einen Fehler begehen. Als Fehler 1. Art bezeichnet man die Entscheidung für , obwohl ist. Mit Rückgriff auf die Notation der bedingten Wahrscheinlichkeit ist dann

die Wahrscheinlichkeit für einen Fehler 1. Art. Analog spricht man von einem Fehler 2. Art, wenn man sich für entscheidet, aber ist. Die Wahrscheinlichkeit für einen Fehler 2. Art ist somit

Gütefunktion, Niveau und Trennschärfe

[Bearbeiten | Quelltext bearbeiten]

Für einen vorliegenden Test heißt die Funktion

die Gütefunktion des Tests. Dabei bezeichnet den Erwartungswert bezüglich des Wahrscheinlichkeitsmaßes .

Ist ein gegeben, so dass

,

so nennt man das Niveau des Tests. Gilt sogar

,

so heißt das effektive Niveau des Tests. Das effektive Niveau des Tests ist somit eine obere Schranke für einen Fehler 1. Art.

Für ein heißt die Trennschärfe des Tests an der Stelle . Sie entspricht der Wahrscheinlichkeit, einen Fehler 2. Art nicht zu machen, wenn der Parameter vorliegt.

Optimalitätsbegriffe für Tests

[Bearbeiten | Quelltext bearbeiten]

Für Tests lassen sich verschiedene Optimalitätsbegriffe formulieren, die sich in ihrer Stärke unterscheiden. Je stärker der Optimalitätsbegriff, umso stärker die Voraussetzungen, unter denen ein optimaler Test existiert. Neben Optimalitätsbegriffen formuliert man oft auch Reduktionsprinzipien (siehe unten), um optimale Tests nur innerhalb kleinerer Mengen von Tests suchen zu müssen.

Gleichmäßig beste Tests

[Bearbeiten | Quelltext bearbeiten]

Ein gleichmäßig bester Test ist ein Test, dessen Trennschärfe immer größer als die aller anderen Tests zu einem vorgegebenen Niveau. Somit ist die Wahrscheinlichkeit für einen Fehler 2. Art bei gleichmäßig besten Tests immer kleiner als für einen beliebigen weiteren Test.

Zentrale Existenzaussage für gleichmäßig beste Tests ist das Neyman-Pearson-Lemma. Es besagt, dass der Neyman-Pearson-Test ein gleichmäßig bester Test ist. Dieses Resultat kann unter geeigneten Voraussetzungen (z. B. bei monotonen Dichtequotienten) auf allgemeinere Testprobleme ausgeweitet werden.

Maximin-Tests sind Tests, bei denen die Worst-Case-Wahrscheinlichkeit für einen Fehler 2. Art kleiner ist als bei allen anderen Tests zu einem vorgegebenen Niveau. Großer Vorteil von Maximin-Tests ist, dass sie unter weitaus allgemeineren Voraussetzungen existieren als gleichmäßig beste Tests.

Strenge Tests sind Tests, bei denen die maximale Abweichung der Trennschärfe von der Trennschärfe des lokal besten Tests (bzw. der envelope power function) kleiner ist als bei allen anderen Tests zum vorgegebenen Niveau. Wie auch Maximin-Tests existieren strenge Tests bereits unter schwachen Voraussetzungen.

Reduktionsprinzipien

[Bearbeiten | Quelltext bearbeiten]

Als Reduktionsprinzipien bezeichnet man Vorgehensweisen, die es erlauben, in kleinere Klassen von Tests nach optimalen Elementen zu suchen. Ein wichtiges Reduktionsprinzip ist die Einschränkung auf unverfälschte Tests. Dies sind diejenigen Tests zu einem vorgegebenen Niveau, bei denen die Trennschärfe des Tests immer über dem Niveau liegt. Somit sind unverfälschte Tests immer besser als der „naive“ Test, der eine rein zufällige Entscheidung auslost. Ein wichtiges Hilfsmittel zum Auffinden von gleichmäßig besten unverfälschten Tests sind die ähnlichen Tests. Bei diesen nimmt die Gütefunktion auf dem Übergang von Nullhypothese zu Alternative genau den Wert des Niveaus an.

Testtheorie als Entscheidungsproblem

[Bearbeiten | Quelltext bearbeiten]

Viele Optimalitäts- und Reduktionsprinzipien der Testtheorie lassen sich im Rahmen der Entscheidungstheorie in ein statistisches Entscheidungsproblem einordnen und miteinander vergleichen.

Grundlage des statistischen Entscheidungsproblems ist wie in der Testtheorie ein statistisches Modell sowie ein Entscheidungsraum, der in der Testtheorie stets ist. Entscheidungsfunktionen sind dann genau die statistischen Tests, wobei die randomisierten Tests den randomisierten Entscheidungsfunktionen entsprechen, die nichtrandomisierten Tests entsprechend den nichtrandomisierten Entscheidungsfunktionen.

Typische Wahl für die Verlustfunktion ist die Neyman-Pearson-Verlustfunktion, die bei gleicher Gewichtung für den Fehler 1. und 2. Wahl die Risikofunktion

für einen statistischen Test liefert. Hierbei bezeichnen bzw. die Wahrscheinlichkeit für einen Fehler 1. bzw. 2. Art, wenn vorliegt.

Schränkt man die Menge der Tests nun auf die Menge der Tests zum Niveau ein und verwendet obige Risikofunktion, so sind