Die F-Verteilung oder Fisher-Verteilung , auch Fisher-Snedecor-Verteilung (nach Ronald Aylmer Fisher und George W. Snedecor ), ist eine stetige Wahrscheinlichkeitsverteilung . Eine F-verteilte Zufallsvariable ergibt sich als Quotient zweier jeweils durch die zugehörige Anzahl der Freiheitsgrade geteilter Chi-Quadrat-verteilter Zufallsvariablen. Die F-Verteilung besitzt zwei unabhängige Freiheitsgrade als Parameter und bildet so eine Zwei-Parameter-Verteilungsfamilie .
Die F-Verteilung wird häufig in einem Test verwendet (F-Test ), um festzustellen, ob der Unterschied zweier Stichprobenvarianzen auf statistischer Schwankung beruht oder ob er auf unterschiedliche Grundgesamtheiten hinweist. Auch im Rahmen der Varianzanalyse wird mit einer F-Statistik auf signifikante Unterschiede zwischen Grundgesamtheiten (Gruppen) getestet.[ 1]
Dichtefunktion der F-Verteilung mit ausgewählten Freiheitsgraden
m
{\displaystyle m}
und
n
{\displaystyle n}
Verteilungsfunktion der F-Verteilung mit ausgewählten Freiheitsgraden
m
{\displaystyle m}
und
n
{\displaystyle n}
Eine stetige Zufallsvariable genügt der F-Verteilung
F
(
m
,
n
)
{\displaystyle F(m,n)}
, mit
m
{\displaystyle m}
Freiheitsgraden im Zähler und
n
{\displaystyle n}
Freiheitsgraden im Nenner, wenn sie die Wahrscheinlichkeitsdichte
f
(
x
∣
m
,
n
)
=
m
m
2
n
n
2
⋅
Γ
(
m
+
n
2
)
Γ
(
m
2
)
Γ
(
n
2
)
⋅
x
m
2
−
1
(
m
x
+
n
)
m
+
n
2
,
x
>
0
{\displaystyle f(x\mid m,n)=m^{\frac {m}{2}}n^{\frac {n}{2}}\cdot {\frac {\Gamma ({\frac {m+n}{2}})}{\Gamma ({\frac {m}{2}})\Gamma ({\frac {n}{2}})}}\cdot {\frac {x^{{\frac {m}{2}}-1}}{(mx+n)^{\frac {m+n}{2}}}},\quad x>0}
besitzt. Dabei ist mit
Γ
(
x
)
{\displaystyle \Gamma (x)}
die Gammafunktion an der Stelle
x
{\displaystyle x}
bezeichnet.
Den historischen Ursprung obiger Definition der F-Verteilung bildet die Verteilung
F
m
,
n
=
χ
m
2
/
m
χ
n
2
/
n
,
{\displaystyle F_{m,n}={\frac {\chi _{m}^{2}/m}{\chi _{n}^{2}/n}},}
wobei
χ
m
2
{\displaystyle \chi _{m}^{2}}
und
χ
n
2
{\displaystyle \chi _{n}^{2}}
unabhängige, Chi-Quadrat-verteilte Zufallsvariablen mit
m
{\displaystyle m}
bzw.
n
{\displaystyle n}
Freiheitsgraden sind.
Der Erwartungswert existiert nur für
n
>
2
{\displaystyle n>2}
und hat dann den Wert
E
(
F
m
,
n
)
=
n
n
−
2
{\displaystyle \operatorname {E} (F_{m,n})={\frac {n}{n-2}}}
.
Die Varianz ist nur für
n
>
4
{\displaystyle n>4}
definiert und lautet dann
Var
(
F
m
,
n
)
=
2
n
2
(
m
+
n
−
2
)
m
(
n
−
2
)
2
(
n
−
4
)
{\displaystyle \operatorname {Var} (F_{m,n})={\frac {2n^{2}(m+n-2)}{m(n-2)^{2}(n-4)}}}
.
Die Werte der Verteilung
P
(
X
≤
x
)
=
F
(
x
|
m
;
n
)
{\displaystyle P(X\leq x)=F(x|m;n)}
werden meist numerisch ermittelt und in einer Tabelle angegeben. Eine komplette Tabellierung bezüglich aller Freiheitsgrade ist i. A. nicht notwendig, sodass die meisten Verteilungstabellen die Quantile bezüglich ausgewählter Freiheitsgrade und Wahrscheinlichkeiten angeben. Man macht sich hier auch die Beziehung zunutze:
F
−
1
(
p
;
m
;
n
)
=
1
F
−
1
(
1
−
p
;
n
;
m
)
,
{\displaystyle F^{-1}(p;m;n)={\frac {1}{F^{-1}(1-p;n;m)}},}
wobei
F
−
1
(
p
;
m
;
n
)
{\displaystyle F^{-1}(p;m;n)}
das
p
{\displaystyle p}
-Quantil der F-Verteilung mit
m
{\displaystyle m}
und
n
{\displaystyle n}
Freiheitsgraden bedeutet.
Die F-Verteilung lässt sich geschlossen ausdrücken als
F
(
x
|
m
;
n
)
=
I
(
m
⋅
x
m
⋅
x
+
n
,
m
2
,
n
2
)
,
{\displaystyle F(x|m;n)=I\left({\frac {m\cdot x}{m\cdot x+n}},{\frac {m}{2}},{\frac {n}{2}}\right),}
wobei
I
(
z
,
a
,
b
)
=
1
B
(
a
,
b
)
⋅
∫
0
z
t
a
−
1
(
1
−
t
)
b
−
1
d
t
{\displaystyle I(z,a,b)={\frac {1}{B(a,b)}}\cdot \int _{0}^{z}t^{a-1}(1-t)^{b-1}\mathrm {d} t}
die regularisierte unvollständige Betafunktion darstellt.
Für
m
>
2
{\displaystyle m>2}
nimmt
f
{\displaystyle f}
an der Stelle
x
m
a
x
=
n
(
m
−
2
)
m
(
n
+
2
)
{\displaystyle x_{\mathrm {max} }={\frac {n(m-2)}{m(n+2)}}}
das Maximum an.
Die Entropie der F-Verteilung (ausgedrückt in nats ) beträgt
H
(
X
)
=
ln
(
n
m
⋅
Γ
(
m
2
)
Γ
(
n
2
)
Γ
(
m
2
+
n
2
)
)
+
(
1
−
m
2
)
ψ
(
m
2
)
−
(
1
+
n
2
)
ψ
(
n
2
)
+
m
+
n
2
ψ
(
m
+
n
2
)
,
{\displaystyle H(X)=\ln \left({\frac {n}{m}}\cdot {\frac {\Gamma \left({\frac {m}{2}}\right)\Gamma \left({\frac {n}{2}}\right)}{\Gamma \left({\frac {m}{2}}+{\frac {n}{2}}\right)}}\right)+\left(1-{\frac {m}{2}}\right)\psi \left({\frac {m}{2}}\right)-\left(1+{\frac {n}{2}}\right)\psi \left({\frac {n}{2}}\right)+{\frac {m+n}{2}}\psi \left({\frac {m+n}{2}}\right),}
wobei
ψ
{\displaystyle \psi }
die Digamma-Funktion bezeichnet.
Das Zeichen
∼
{\displaystyle \sim }
bedeutet im Folgenden „ist verteilt wie“.
Die Zufallsvariable
Y
=
m
n
F
m
,
n
1
+
m
n
F
m
,
n
{\displaystyle Y={\frac {{\frac {m}{n}}F_{m,n}}{1+{\frac {m}{n}}F_{m,n}}}}
ist betaverteilt mit Parametern
m
/
2
{\displaystyle m/2}
und
n
/
2
{\displaystyle n/2}
(
Y
∼
Beta
(
m
/
2
,
n
/
2
)
)
.
{\displaystyle \left(Y\sim \operatorname {Beta} (m/2,n/2)\right).}
Es gilt:
Y
∼
χ
m
2
χ
m
2
+
χ
n
2
{\displaystyle Y\sim {\frac {\chi _{m}^{2}}{\chi _{m}^{2}+\chi _{n}^{2}}}}
wobei
χ
m
2
{\displaystyle \chi _{m}^{2}}
und
χ
n
2
{\displaystyle \chi _{n}^{2}}
unabhängige Chi-Quadrat-verteilte Zufallsgrößen sind mit
m
{\displaystyle m}
bzw.
n
{\displaystyle n}
Freiheitsgraden.
Aus den unabhängigen
χ
m
2
{\displaystyle \chi _{m}^{2}}
und
χ
n
2
{\displaystyle \chi _{n}^{2}}
Chi-Quadrat-verteilten Zufallsgrößen mit
m
{\displaystyle m}
bzw.
n
{\displaystyle n}
Freiheitsgraden lässt sich
F
m
,
n
=
χ
m
2
/
m
χ
n
2
/
n
{\displaystyle F_{m,n}={\frac {\chi _{m}^{2}/m}{\chi _{n}^{2}/n}}}
konstruieren. Diese Zufallsvariable ist
F
(
m
,
n
)
{\displaystyle F(m,n)}
-verteilt.
Für unabhängige Zufallsvariablen
X
∼
χ
2
(
δ
,
m
)
{\displaystyle X\sim \chi ^{2}(\delta ,m)}
und
Y
∼
χ
2
(
n
)
{\displaystyle Y\sim \chi ^{2}(n)}
ist
Z
=
X
/
m
Y
/
n
{\displaystyle Z={\frac {X/m}{Y/n}}}
verteilt nach der nichtzentralen F-Verteilung
Z
∼
F
(
δ
,
m
,
n
)
{\displaystyle Z\sim F(\delta ,m,n)}
mit Nichtzentralitäts-Parameter
δ
{\displaystyle \delta }
. Dabei ist
χ
2
(
δ
,
m
)
{\displaystyle \chi ^{2}(\delta ,\,m)}
eine nichtzentrale Chi-Quadrat-Verteilung mit Nichtzentralitäts-Parameter
δ
{\displaystyle \delta }
und
m
{\displaystyle m}
Freiheitsgraden. Für
δ
=
0
{\displaystyle \delta =0}
ergibt sich die zentrale F-Verteilung
F
(
m
,
n
)
{\displaystyle F(m,\,n)}
.
g
(
z
|
m
,
n
,
δ
)
=
f
(
z
|
m
,
n
)
⋅
e
−
δ
/
2
1
F
1
(
m
+
n
2
,
m
2
,
m
⋅
z
⋅
δ
2
(
m
⋅
z
+
n
)
)
.
{\displaystyle g(z|m,n,\delta )=f(z|m,n)\cdot e^{-\delta /2}{}_{1}{\mathcal {F}}_{1}\left({\frac {m+n}{2}},{\frac {m}{2}},{\frac {m\cdot z\cdot \delta }{2(m\cdot z+n)}}\right).}
[ 2]
Die Funktion
1
F
1
(
a
,
b
,
x
)
{\displaystyle {}_{1}{\mathcal {F}}_{1}(a,b,x)}
ist eine spezielle hypergeometrische Funktion , auch Kummersche Funktion genannt und
f
(
x
|
m
,
n
)
{\displaystyle f(x|m,n)}
repräsentiert die oben angegebene Dichte der zentralen F-Verteilung.
Erwartungswert und Varianz der nichtzentralen F-Verteilung sind gegeben durch
n
(
1
+
δ
/
m
)
n
−
2
{\displaystyle {\frac {n(1+\delta /m)}{n-2}}}
mit
n
>
2
{\displaystyle n>2}
und
2
n
2
(
m
(
1
+
δ
/
m
)
2
+
(
n
−
2
)
(
1
+
2
δ
/
m
)
)
m
(
n
−
2
)
2
(
n
−
4
)
{\displaystyle {\frac {2n^{2}(m(1+\delta /m)^{2}+(n-2)(1+2\delta /m))}{m(n-2)^{2}(n-4)}}}
mit
n
>
4.
{\displaystyle n>4.}
Beide ergeben bei
δ
→
0
{\displaystyle \delta \to 0}
die Formeln der zentralen F-Verteilung.
Wenn die unabhängigen normalverteilten Zufallsvariablen
X
1
,
X
2
,
…
,
X
m
,
Y
1
,
Y
2
,
…
,
Y
n
{\displaystyle X_{1},X_{2},\dotsc ,X_{m},Y_{1},Y_{2},\dotsc ,Y_{n}}
die Parameter
E
(
X
i
)
=
μ
,
Var
(
X
i
)
=
σ
2
{\displaystyle \operatorname {E} (X_{i})=\mu ,\quad \operatorname {Var} (X_{i})=\sigma ^{2}}
E
(
Y
j
)
=
ν
,
Var
(
Y
j
)
=
τ
2
{\displaystyle \operatorname {E} (Y_{j})=\nu ,\quad \operatorname {Var} (Y_{j})=\tau ^{2}}
besitzen, sind die jeweiligen Stichprobenvarianzen
S
X
2
{\displaystyle S_{X}^{2}}
und
S
Y
2
{\displaystyle S_{Y}^{2}}
unabhängig, und es gilt :
S
X
2
σ
2
∼
χ
m
−
1
2
/
(
m
−
1
)
{\displaystyle {\frac {S_{X}^{2}}{\sigma ^{2}}}\sim \chi _{m-1}^{2}/(m-1)}
S
Y
2
τ
2
∼
χ
n
−
1
2
/
(
n
−
1
)
{\displaystyle {\frac {S_{Y}^{2}}{\tau ^{2}}}\sim \chi _{n-1}^{2}/(n-1)}
Deshalb unterliegt die Zufallsvariable
F
=
S
X
2
/
σ
2
S
Y
2
/
τ
2
{\displaystyle F={\frac {S_{X}^{2}/\sigma ^{2}}{S_{Y}^{2}/\tau ^{2}}}}
einer F-Verteilung mit
m
−
1
{\displaystyle m-1}
Freiheitsgraden im Zähler und
n
−
1
{\displaystyle n-1}
Freiheitsgraden im Nenner.
Wenn
X
∼
t
n
{\displaystyle X\sim t_{n}}
(Studentsche t-Verteilung ), dann ist
X
2
∼
F
(
1
,
n
)
.
{\displaystyle X^{2}\sim F(1,n).}
Das Quadrat einer t-verteilten Zufallsvariablen mit
n
{\displaystyle n}
Freiheitsgraden folgt einer F-Verteilung mit
m
=
1
{\displaystyle m=1}
und
n
{\displaystyle n}
Freiheitsgraden.
Die Wahrscheinlichkeitsdichte der F-Verteilung lässt sich herleiten (vgl. Herleitung der Dichte der Studentschen t-Verteilung ) aus der gemeinsamen Dichte der beiden unabhängigen Zufallsvariablen
χ
m
2
{\displaystyle \chi _{m}^{2}}
und
χ
n
2
{\displaystyle \chi _{n}^{2}}
, die beide Chi-Quadrat-verteilt sind.[ 3]
g
χ
m
2
,
χ
n
2
(
x
,
y
)
=
(
1
2
m
2
Γ
(
m
2
)
x
m
2
−
1
exp
{
−
x
2
}
)
⋅
(
1
2
n
2
Γ
(
n
2
)
y
n
2
−
1
exp
{
−
y
2
}
)
{\displaystyle g_{\chi _{m}^{2},\chi _{n}^{2}}(x,y)=\left({\frac {1}{2^{\frac {m}{2}}\Gamma ({\tfrac {m}{2}})}}x^{{\frac {m}{2}}-1}\operatorname {exp} \left\{-{\frac {x}{2}}\right\}\right)\cdot \left({\frac {1}{2^{\frac {n}{2}}\Gamma ({\tfrac {n}{2}})}}y^{{\frac {n}{2}}-1}\operatorname {exp} \left\{-{\frac {y}{2}}\right\}\right)}
.
Mit der Transformation
f
=
x
/
m
y
/
n
,
v
=
y
{\displaystyle f={\frac {x/m}{y/n}},v=y}
bekommt man die gemeinsame Dichte von
F
=
χ
m
2
/
m
χ
n
2
/
n
{\displaystyle F={\frac {\chi _{m}^{2}/m}{\chi _{n}^{2}/n}}}
und
χ
n
2
{\displaystyle \chi _{n}^{2}}
, wobei
f
≥
0
{\displaystyle f\geq 0}
und
v
≥
0
{\displaystyle v\geq 0}
gilt.
Die Jacobideterminante dieser Transformation ist:
det
∂
(
x
,
y
)
∂
(
f
,
v
)
=
|
m
n
v
0
◊
1
|
=
m
n
v
{\displaystyle \det {\frac {\partial (x,y)}{\partial (f,v)}}={\begin{vmatrix}{\frac {m}{n}}v&0\\\Diamond &1\end{vmatrix}}={\frac {m}{n}}v}
Der Wert
◊
{\displaystyle \Diamond }
ist unwichtig, weil er bei der Berechnung der Determinante mit 0 multipliziert wird. Die neue Dichtefunktion schreibt sich also
g
F
,
χ
n
2
(
f
,
v
)
=
1
2
m
2
Γ
(
m
2
)
(
f
v
m
n
)
m
2
−
1
e
−
1
2
(
f
v
m
n
)
⋅
1
2
n
2
Γ
(
n
2
)
v
n
2
−
1
e
−
1
2
v
⋅
m
n
v
.
{\displaystyle g_{F,\chi _{n}^{2}}(f,v)={\frac {1}{2^{\frac {m}{2}}\Gamma ({\frac {m}{2}})}}\left(fv\,{\frac {m}{n}}\right)^{{\frac {m}{2}}-1}e^{-{\frac {1}{2}}(fv\,{\frac {m}{n}})}\cdot {\frac {1}{2^{\frac {n}{2}}\Gamma ({\frac {n}{2}})}}v^{{\frac {n}{2}}-1}e^{-{\frac {1}{2}}v}\cdot {\frac {m}{n}}v.}
Gesucht ist nun die Randverteilung
g
m
,
n
(
f
)
{\displaystyle g_{m,\,n}(f)}
als Integral über die nicht interessierende Variable
v
{\displaystyle v}
:
g
m
,
n
(
f
)
=
∫
0
∞
g
F
,
χ
n
2
(
f
,
v
)
d
v
=
(
m
n
)
m
2
f
m
2
−
1
2
m
+
n
2
Γ
(
m
2
)
Γ
(
n
2
)
∫
0
∞
v
m
+
n
2
−
1
e
−
v
2
(
1
+
m
n
f
)
d
v
=
m
m
2
n
n
2
⋅
Γ
(
m
2
+
n
2
)
Γ
(
m
2
)
Γ
(
n
2
)
⋅
f
m
2
−
1
(
m
f
+
n
)
m
+
n
2
.
{\displaystyle g_{m,n}(f)=\int \limits _{0}^{\infty }g_{F,\chi _{n}^{2}}(f,v)\,dv={\frac {({\frac {m}{n}})^{\frac {m}{2}}f^{{\frac {m}{2}}-1}}{2^{\frac {m+n}{2}}\Gamma ({\frac {m}{2}})\Gamma ({\frac {n}{2}})}}\int \limits _{0}^{\infty }v^{{\frac {m+n}{2}}-1}e^{-{\frac {v}{2}}(1+{\frac {m}{n}}f)}\,dv=m^{\frac {m}{2}}n^{\frac {n}{2}}\cdot {\frac {\Gamma ({\frac {m}{2}}+{\frac {n}{2}})}{\Gamma ({\frac {m}{2}})\Gamma ({\frac {n}{2}})}}\cdot {\frac {f^{{\frac {m}{2}}-1}}{(mf+n)^{\frac {m+n}{2}}}}.}
Das
p
{\displaystyle p}
-Quantil der F-Verteilung
x
p
{\displaystyle x_{p}}
ist die Lösung der Gleichung
p
=
F
(
x
p
|
m
,
n
)
{\displaystyle p=F(x_{p}|m,\,n)}
und damit prinzipiell über die Umkehrfunktion zu berechnen. Konkret gilt hier
x
p
=
n
I
−
1
(
p
,
m
2
,
n
2
)
m
(
1
−
I
−
1
(
p
,
m
2
,
n
2
)
)
{\displaystyle x_{p}={\frac {nI^{-1}(p,{\frac {m}{2}},{\frac {n}{2}})}{m(1-I^{-1}(p,{\frac {m}{2}},{\frac {n}{2}}))}}}
mit
I
−
1
{\displaystyle I^{-1}}
als Inverse der regularisierten unvollständigen Betafunktion. Dieser Wert
x
p
{\displaystyle x_{p}}
ist in der F-Verteilungstabelle unter den Koordinaten
p
{\displaystyle p}
,
m
{\displaystyle m}
und
n
{\displaystyle n}
eingetragen oder in der Quantiltabelle der Fisher-Verteilung zu finden.
Für einige Werte
m
{\displaystyle m}
,
n
{\displaystyle n}
lassen sich die Quantilsfunktionen
x
p
(
m
,
n
)
{\displaystyle x_{p}(m,\,n)}
explizit ausrechnen. Man löst das Beta-Integral
I
(
m
x
m
x
+
n
,
m
2
,
n
2
)
{\displaystyle I({\tfrac {mx}{mx+n}},{\tfrac {m}{2}},{\tfrac {n}{2}})}
mit
m
,
n
=
1
,
2
,
…
,
{\displaystyle m,n=1,2,\dotsc ,}
wobei für ein paar Indizes invertierbare Funktionen auftreten:
m
↓
,
n
→
1
2
3
4
1
tan
(
π
2
p
)
2
2
p
2
1
−
p
2
?
4
2
cos
(
2
arcsin
(
p
)
3
)
−
1
−
4
2
1
2
(
1
(
1
−
p
)
2
−
1
)
p
1
−
p
3
2
(
1
(
1
−
p
)
2
/
3
−
1
)
2
1
−
p
−
2
3
?
2
p
2
/
3
3
−
3
p
2
/
3
?
?
4
1
(
4
sin
(
arcsin
(
1
−
p
)
3
)
)
2
−
1
4
p
2
(
1
−
p
)
?
1
1
2
+
sin
(
arcsin
(
1
−
2
p
)
3
)
−
1
{\displaystyle {\begin{array}{c|c|c|c|c}m\downarrow ,\,n\rightarrow &1&2&3&4\\\hline 1&\tan({\frac {\pi }{2}}p)^{2}&{\frac {2p^{2}}{1-p^{2}}}&?&{\frac {4}{2\cos({\frac {2\arcsin(p)}{3}})-1}}-4\\\hline 2&{\frac {1}{2}}({\frac {1}{(1-p)^{2}}}-1)&{\frac {p}{1-p}}&{\frac {3}{2}}({\frac {1}{(1-p)^{2/3}}}-1)&{\frac {2}{\sqrt {1-p}}}-2\\\hline 3&?&{\frac {2p^{2/3}}{3-3p^{2/3}}}&?&?\\\hline 4&{\frac {1}{(4\sin({\frac {\arcsin(1-p)}{3}}))^{2}}}-{\frac {1}{4}}&{\frac {\sqrt {p}}{2(1-{\sqrt {p}})}}&?&{\frac {1}{{\frac {1}{2}}+\sin({\frac {\arcsin(1-2p)}{3}})}}-1\\\end{array}}}
Aus der jeweils vollständigen Zeile und Spalte kann man sogar die allgemeinen Ausdrücke für höhere Indizes ablesen. Man findet:
x
p
(
2
,
n
)
=
n
2
(
1
(
1
−
p
)
2
/
n
−
1
)
{\displaystyle x_{p}(2,\,n)={\frac {n}{2}}\left({\frac {1}{(1-p)^{2/n}}}-1\right)}
x
p
(
m
,
2
)
=
2
m
(
p
2
/
m
1
−
p
2
/
m
)
{\displaystyle x_{p}(m,\,2)={\frac {2}{m}}\left({\frac {p^{2/m}}{1-p^{2/m}}}\right)}
Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik. 12. Auflage, Oldenbourg 1999, S. 156 ff., ISBN 3-486-24984-3 .
↑ P. R. Kinnear, C. D. Gray (2004): SPSS 12 MADE SIMPLE. Psychology Press. New York. S. 208–209.
↑ Eric W. Weisstein : Snedecor’s F-Distribution . In: MathWorld (englisch).
↑ Frodesen, Skjeggestad, Tofte: Probability and Statistics in Particle Physics. Universitetsforlaget, Bergen – Oslo – Tromsø S. 145 f.
Diskrete univariate Verteilungen
Kontinuierliche univariate Verteilungen
Multivariate Verteilungen