Reduktionsprinzip

Als Reduktionsprinzipien bezeichnet man in der mathematischen Statistik verschiedene Methoden und Argumentationsweisen, welche das Auffinden von guten statistischen Verfahren erleichtern. Dabei wird die Menge der in Frage kommenden Verfahren durch eine gewissen strukturelle Anforderung verkleinert, was das Auffinden der guten Verfahren erleichtert. Die strukturelle Anforderung entspringt dabei beispielsweise den Eigenschaften des statistischen Modells oder pragmatischen Überlegungen. Drei klassische Reduktionsprinzipien sind Suffizienz, Äquivarianz/Invarianz und Erwartungstreue.^[1]

Motivation

Betrachtet man als Beispiel ein statistisches Produktmodell, das mit einer beliebigen Familie von Wahrscheinlichkeitsverteilungen $(P_{\vartheta })_{\vartheta \in \Theta }$ versehen ist. Es werden also $n$ -mal Daten erhoben, wobei jede Erhebung einer Realisierung einer unbekannten Wahrscheinlichkeitsverteilung aus dem entsprechenden Modell ist. Geschätzt werden soll der unbekannte Erwartungswert der vorliegenden Wahrscheinlichkeitsverteilung, die zu schätzende Funktion ist also von der Form

g(P_{\vartheta })=\operatorname {E} (P_{\vartheta })

Die erhobenen Daten $(x_{1},x_{2},\dots ,x_{n})$ sind Elemente des $\mathbb {R} ^{n}$ , der Erwartungswert ist eine reelle Zahl. Jeder Schätzer $T$ für den Erwartungswert ist also eine Funktion von $\mathbb {R} ^{n}$ nach $\mathbb {R}$ , formal

T\colon \mathbb {R} ^{n}\to \mathbb {R}

.

Um nun von guten oder schlechten Schätzern sprechen zu können, wird noch eine Verlustfunktion eingeführt, mit der sich dann eine Risikofunktion bestimmen lässt. Gängig ist der Gauß-Verlust, der als Risikofunktion den mittleren quadratischen Fehler (Means squared error, MSE)

\operatorname {MSE} (T,\operatorname {E} (P_{\vartheta })):=\operatorname {E} _{\vartheta }\left(\left(T-\operatorname {E} (P_{\vartheta })\right)^{2}\right)

liefert (Hierbei bezeichnet $\operatorname {E} _{\vartheta }$ die Bildung des Erwartungswertes bezüglich $P_{\vartheta }$ ).

Nun soll ein möglichst guter Schätzer für den Erwartungswert gefunden werden, sprich ein Schätzer, dessen mittlerer quadratischer Fehler kleiner ist als der aller weiteren Schätzer.

Das Problem ist nun, dass es sich bei der bisherigen Fragestellung um eine sehr offene Fragestellung mit wenig Struktur handelt, da die Menge der in Frage kommenden Schätzer sehr groß ist. Somit ist einerseits die Anzahl der potentiellen optimalen Schätzer sehr groß, andererseits ist es auch schwierig zu zeigen, dass ein Kandidat für den besten Schätzer wirklich besser ist als alle anderen Schätzer.

Daher ist es sinnvoll, nach Kriterien zu suchen, welche die Menge der in betracht kommenden Schätzfunktionen verkleinert, um die Suche nach optimalen Schätzern zu vereinfachen. Drei typische Kriterien sind:

Erwartungstreue: Hierbei schränkt man sich auf Schätzer ein, die im Mittel richtig liegen und somit keinen systematischen Fehler besitzen
Suffizienz: Zentrale Fragestellung der Suffizienz ist, ob die vorhandene Daten ohne Informationsverlust komprimiert werden können. Die komprimierten Daten bilden dann ein einfacheres Modell, was sich besser untersuchen lässt.
Äquivarianz und Invarianz: Diese Kriterien beschäftigen sich mit den geometrischen Eigenschaften des Modells und nutzen diese aus. So sollten gewisse Schätzwerte unabhängig von der Skalierung der Daten sein, ebenso sollte sich der Erwartungswert im obigen Modell bei einer Verschiebung der Daten um ebendiesen Wert verschieben.

Erwartungstreue

Die Reduktion durch Erwartungstreue beruht auf der Idee, dass ein guter Schätzer im Mittel den gesuchten Wert korrekt schätzen sollte. Umgekehrt formuliert entspricht das der Forderung, dass der Schätzer keinen systematischen Fehler aufweisen sollte. Die Eigenschaft der Erwartungstreue wird auch unter dem Stichwort der Unverzerrtheit auf statistische Tests und Konfidenzbereiche übertragen.

Unter den Reduktionsprinzpien ist die Erwartungstreue am besten zugänglich, da sie nur auf dem Umgang mit dem Erwartungswert beruht und keine weiterreichenden komplexeren mathematischen Strukturen benötigt werden. Allerdings existieren erwartungstreue Schätzer nicht für jede Problemstellung oder können durchaus unsinnig sein.

Reduktion durch Suffizienz

Die der Suffizienz zugrundeliegenden Idee ist, dass statistische Modelle möglicherweise Informationen enthalten, die für die Lösung einer Aufgabe (Schätzen, Testen usw.) gar nicht benötigt werden. Daher versucht man, die vorhandenen Daten ohne Informationsverlust zu komprimieren. Daraufhin kann nach optimalen statistischen Verfahren auf den komprimierten Daten weitergesucht werden.^[2]^[3]

Ein einfaches Beispiel hierfür ist das n-malige Werfen einer Münze. Die Wiederholungen sollen dabei unabhängig voneinander sein. Aufgabe ist es, die unbekannte Wahrscheinlichkeit der Münze Kopf zu zeigen zu schätzen. Der Einfachheit halber sei Kopf mit der Zahl 1 und Zahl mit der Zahl 0 codiert. Das n-malige Hintereinanderausführen des Werfens legt nahe, das Experiment als Produktexperiment zu modellieren. Dabei kann in jedem Durchgang entweder eine eins oder eine null geworfen werden, nach $n$ Durchgängen ergibt sich also als Grundraum

{\mathcal {X}}_{1}=\{0,1\}^{n}

.

Dieser enthält zu jedem Durchgang von 1 bis $n$ die Information, ob 0 oder ob 1 geworfen wurde. Eine Möglichkeit, diese Information zu komprimieren besteht darin, lediglich die Anzahl der geworfenen Einsen zu notieren. Dies entspricht dem Grundraum

{\mathcal {X}}_{2}:=\{0,1,2,\dots ,n\}

,

die Kompression wird durch die Abbildung

(x_{1},x_{2},\dots ,x_{n})\mapsto x_{1}+x_{2}+\dots +x_{n}

vermittelt. Dass eine Kompression vorliegt, ist hier bereits an der Mächtigkeit der Mengen zu erkennen: ${\mathcal {X}}_{1}$ enthält $2^{n}$ Elemente, wohingegen ${\mathcal {X}}_{2}$ nur $n+1$ Elemente enthält. Interessant ist nun die Frage, ob noch alle relevanten Informationen für die Schätzung vorhanden sind oder ob bereits ein Informationsverlust aufgetreten ist. Sind alle relevanten Informationen (für die gestellte Aufgabe!) noch in ${\mathcal {X}}_{2}$ enthalten, so genügt es völlig, nach guten Schätzern auf ${\mathcal {X}}_{2}$ zu suchen.

Zentrales Werkzeug bei der Modellierung der Kompression ist der bedingte Erwartungswert. Er ermöglicht es nicht nur, die Kompression von Daten durch Abbildungen, sondern auch den Informationsgehalt von Mengensystemen, insbesondere σ-Algebren, zu erfassen.

Reduktion durch Invarianz und Äquivarianz

Bei der Reduktion durch Invarianz und Äquivarianz versucht man, geometrische und algebraische Strukturen im Modell und der Aufgabenstellung ausfindig zu machen und zu nutzen. So gilt beispielsweise für den Erwartungswert einer Zufallsvariable

\operatorname {E} (X+a)=\operatorname {E} (X)+a

für eine Zahl $a$ . Verschiebung der Zufallsvariable um $a$ führt also zur Verschiebung des Erwartungswertes um $a$ . Diese Eigenschaft wird auch Verschiebungsäquivarianz genannt.

Soll nun der Erwartungswert geschätzt werden, so ist es sinnvoll, von Schätzern zu fordern, dass sie mit dieser Eigenschaft des Erwartungswertes verträglich sind. Ist als $T$ ein Schätzer für den Erwartungswert, so sollte

T(X+a)=T(X)+a

gelten. Solche Schätzer werden äquivariant genannt. Dies entspricht der Intuition, dass sich ein Lagemaß wie der Erwartungswert bei einer Verschiebung der Lage der Daten und genau diese Verschiebung verändern sollte, da es ja die Lage der Daten erfassen soll. Ein analoges Beispiel gilt für die Varianz, da sie immer

\operatorname {Var} (X+a)=\operatorname {Var} (X)

erfüllt. Sie ist somit verschiebungsinvariant. Dementsprechend sollte ein Schätzer für die Varianz auch verschiebungsinvariant sein, also

V(X+a)=V(X)

erfüllen. Dies entspricht der Intuition, dass ein Streuungsmaß wie die Varianz unabhängig von der Position der Daten ist.

Bei der Reduktion durch Invarianz und Äquivarianz versucht man daher, solche zugrundeliegenden algebraischen und geometrischen Anforderungen ausfindig zu machen und schränkt dann die Suche nach optimalen statistischen Verfahren auf solche ein, die mit der zugrundeliegenden Struktur verträglich sind. Hierbei wird die Gruppentheorie als Hilfsmittel herangezogen, da die geometrischen und algebraischen Strukturen durch Gruppen formalisiert werden. Die relevanten statistischen Verfahren sind dann diejenigen, welche mit den Gruppenoperationen verträglich sind.^[4]^[5]

Im obigen Beispiel wäre die entsprechende Gruppe die Translationsgruppe auf $\mathbb {R} ^{n}$ , die Verträglichkeit der Abbildungen entspricht dann der (Verschiebungs-)Äquivarianz im Falle des Erwartungswertes und der Verschiebungsinvarianz im Falle der Varianz.

Einzelnachweise

↑ Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. V, doi:10.1007/978-3-642-41997-3.
↑ Ehrhard Behrends: Elementare Stochastik. Ein Lernbuch – von Studierenden mitentwickelt. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-8348-1939-0, S. 298, doi:10.1007/978-3-8348-2331-1.
↑ A.S. Kholevo: Sufficient Statistic. In: Michiel Hazewinkel (Hrsg.): Encyclopedia of Mathematics. Springer-Verlag und EMS Press, Berlin 2002, ISBN 1-55608-010-7 (englisch, encyclopediaofmath.org).
↑ Francisco J. Samaniego: A Comparison of the Bayesian and Frequentist Approaches to Estimation. Springer-Verlag, New York/Dordrecht/Heidelberg 2010, ISBN 978-1-4419-5940-9, S. 21–22, doi:10.1007/978-1-4419-5941-6.
↑ Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 249–250, doi:10.1007/978-3-642-41997-3.

[RüschendorfV-1] Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. V, doi:10.1007/978-3-642-41997-3.

[Behrends298-2] Ehrhard Behrends: Elementare Stochastik. Ein Lernbuch – von Studierenden mitentwickelt. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-8348-1939-0, S. 298, doi:10.1007/978-3-8348-2331-1.

[EOMSuff-3] A.S. Kholevo: Sufficient Statistic. In: Michiel Hazewinkel (Hrsg.): Encyclopedia of Mathematics. Springer-Verlag und EMS Press, Berlin 2002, ISBN 1-55608-010-7 (englisch, encyclopediaofmath.org).

[Samaniego21-4] Francisco J. Samaniego: A Comparison of the Bayesian and Frequentist Approaches to Estimation. Springer-Verlag, New York/Dordrecht/Heidelberg 2010, ISBN 978-1-4419-5940-9, S. 21–22, doi:10.1007/978-1-4419-5941-6.

[Rüschendorf249-5] Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 249–250, doi:10.1007/978-3-642-41997-3.

[1]

[2]

[3]

[4]

[5]