Ein Konfidenzband (engl. confidence band ) wird in der Statistik verwendet, um ---- Die Idee ist, ein Band um die Schätzfunktion
f
^
{\displaystyle {\hat {f}}}
zu legen, das die wahre Funktion
f
{\displaystyle f}
mit einer bestimmen vorgegebenen Wahrscheinlichkeit überdeckt .
Ein Paar von Funktionen
F
n
−
,
F
n
+
:
R
×
R
n
→
[
0
,
1
]
{\displaystyle F_{n}^{-},F_{n}^{+}:\mathbb {R} \times \mathbb {R} ^{n}\to [0,1]}
heiß Konfidenzband zum Niveau
1
−
α
{\displaystyle 1-\alpha }
für
F
{\displaystyle F}
, falls:
P
(
∀
t
∈
R
:
F
n
−
(
t
;
X
1
,
.
.
.
,
X
n
)
≤
F
(
t
)
≤
F
n
+
(
t
;
X
1
,
.
.
.
,
X
n
)
)
≥
1
−
α
{\displaystyle P(\forall t\in \mathbb {R} :F_{n}^{-}(t;X_{1},...,X_{n})\leq F(t)\leq F_{n}^{+}(t;X_{1},...,X_{n}))\geq 1-\alpha }
für jedes
F
{\displaystyle F}
. Man beachte dabei, dass
F
n
−
(
t
)
≤
F
(
t
)
≤
F
n
+
(
t
)
{\displaystyle F_{n}^{-}(t)\leq F(t)\leq F_{n}^{+}(t)}
für alle
t
∈
R
{\displaystyle t\in \mathbb {R} }
gleichzeitig gelten soll; daher spricht man von einem Konfidenzband und keinem Konfidenzintervall.[ 1]
Mit anderen Worten: Man kann mit einer Irrtumswahrscheinlichkeit
α
{\displaystyle \alpha }
davon ausgehen, dass der Graph von
F
{\displaystyle F}
im Konfidenzband
{
(
t
,
y
)
:
t
∈
R
,
y
∈
[
F
n
−
(
t
;
x
1
,
.
.
.
,
x
n
)
,
F
n
+
(
t
;
x
1
,
.
.
,
x
n
)
]
∩
[
0
,
1
]
}
{\displaystyle \{(t,y):t\in \mathbb {R} ,y\in [F_{n}^{-}(t;x_{1},...,x_{n}),F_{n}^{+}(t;x_{1},..,x_{n})]\cap [0,1]\}}
liegt.[ 2]
Seien
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
unabhängig und identisch verteilte Zufallsvariablen mit unbekannter Verteilungsfunktion
F
{\displaystyle F}
. Ein natürlicher Schätzer für diese theoretische Verteilungsfunktion ist die empirische Verteilungsfunktion
F
^
n
=
1
n
∑
i
=
1
n
1
{
X
i
≤
t
}
{\displaystyle {\hat {F}}_{n}={\frac {1}{n}}\sum \limits _{i=1}^{n}\mathbf {1} _{\{X_{i}\leq t\}}}
. Nach dem Satz von Glivenko-Cantelli konvergiert diese für größer werdenden Stichprobenumfang
n
{\displaystyle n}
fast sicher gleichmäßig gegen die wahre Verteilungsfunktion
F
{\displaystyle F}
. Die Idee ist nun, ein Band um die empirische Verteilungsfunktion zu legen, das die wahre Verteilungsfunktion zu einer vorgegebenen
Konfidenzbänder für die empirische Verteilungsfunktion normalverteilter Daten unterschiedlicher Stichprobenumfänge
Wahrscheinlichkeit überdeckt . Für die Konstruktion eines Konfidenzbands ist die Dvoretzky-Kiefer-Wolfowitz-Massart-Ungleichung (kurz: DKWM-Ungleichung) hilfreich. Für alle
ε
>
0
{\displaystyle \varepsilon >0}
gilt[ 3] :
P
(
sup
t
∈
R
|
F
^
n
(
t
)
−
F
(
t
)
|
≥
ε
)
≤
2
e
−
2
n
ε
2
{\displaystyle P\left(\sup \limits _{t\in \mathbb {R} }|{\hat {F}}_{n}(t)-F(t)|\geq \varepsilon \right)\leq 2e^{-2n\varepsilon ^{2}}}
Es sei nun ein Konfidenzniveau
γ
=
1
−
α
{\displaystyle \gamma =1-\alpha }
vorgegeben. Setzt man
2
e
−
2
n
ε
2
=
α
{\displaystyle 2e^{-2n\varepsilon ^{2}}=\alpha }
, so ergibt sich
ε
=
1
2
n
ln
2
α
{\displaystyle \varepsilon ={\sqrt {{\frac {1}{2n}}\ln {\frac {2}{\alpha }}}}}
. Nach der DKWM-Ungleichung gilt nun:
P
(
∀
t
∈
R
:
F
^
n
(
t
)
−
ε
≤
F
(
t
)
≤
F
^
n
(
t
)
+
ε
)
=
1
−
P
(
sup
t
∈
R
|
F
^
n
(
t
)
−
F
(
t
)
|
>
ε
)
≥
1
−
α
{\displaystyle P(\forall t\in \mathbb {R} :{\hat {F}}_{n}(t)-\varepsilon \leq F(t)\leq {\hat {F}}_{n}(t)+\varepsilon )=1-P\left(\sup \limits _{t\in \mathbb {R} }|{\hat {F}}_{n}(t)-F(t)|>\varepsilon \right)\geq 1-\alpha }
Das heißt ein Konfidenzband für die Verteilungsfunktion
F
{\displaystyle F}
ist über
F
n
−
(
t
)
=
max
{
F
^
n
(
t
)
−
1
2
n
ln
2
α
,
0
}
{\displaystyle F_{n}^{-}(t)=\max \left\{{\hat {F}}_{n}(t)-{\sqrt {{\frac {1}{2n}}\ln {\frac {2}{\alpha }}}},0\right\}}
bzw.
F
n
+
(
t
)
=
min
{
F
^
n
(
t
)
+
1
2
n
ln
2
α
,
1
}
{\displaystyle F_{n}^{+}(t)=\min \left\{{\hat {F}}_{n}(t)+{\sqrt {{\frac {1}{2n}}\ln {\frac {2}{\alpha }}}},1\right\}}
konstruierbar.
↑ Zakhar Kabluchko: Mathematische Statistik . 2017, S. 155 (uni-muenster.de [PDF]).
↑ Lutz Dümbgen: Einführung in die Statistik . Birkhäuser, ISBN 978-3-0348-0003-7 , S. 69 .
↑ Michael Messer, Gaby Schneider: Statistik: Theorie und Praxis im Dialog . Springer Spektrum, 2019, ISBN 978-3-662-59338-7 , S. 69 .
Kategorie:Stochastik
Kategorie:Schätztheorie