Scoring Rule
In der Entscheidungstheorie ist eine score function oder scoring rule, zu deutsch eine Bewertungs-Regel, ein Maß für die Performanz einer Wahrscheinlichkeitsvorhersage eines Modells, ohne dabei zu dichotomisieren. Im Rahmen der probabilistischen Klassifikation und der empirischen Risikominimierung können Scoring rules als Verlustfunktionen eingesetzt werden.
Motivation
[Bearbeiten | Quelltext bearbeiten]Eine Dichotomisierung der Wahrscheinlichkeitsvorhersage wird häufig bei der Beurteilung eines binären Klassifikators angewandt. Ein Vorteil von Scoring rules gegenüber anderen Bewertungsmetriken wie Precision, Recall oder F-Score, ist, dass eine schlechtere Wahrscheinlichkeitskalibrierung zu einem schlechteren scoring führt (was für die anderen Bewertungsmetriken nicht zwingend der Fall ist).
Daher werden in der probabilistischer Klassifikation, bei der es um gute Wahrscheinlichkeitskalibrierung geht (d. h. die vorhergesagten Wahrscheinlichkeiten mit den tatsächlichen übereinstimmen sollen), proper score functions zur Bewertung und als Verlustfunktion herangezogen[1].
Definition
[Bearbeiten | Quelltext bearbeiten]Eine Scoring rule ist eine Funktion, welche die Übereinstimmung einzelner Vorhersagen mit ihrer Beobachtung bewertet. Die Scoring rule ist über dem zusammengesetzten Raum des Ergebnisraumes und der Wahrscheinlichkeitsmaße definiert. Die Scoring-Funktion liefert die Bewertung für die Vorhersage bei Eintritt des Ereignisses . Die Eintrittswahrscheinlichkeit des Ereignisses ist , d. h. .
Scoring rules werden in folgende Fälle unterschieden:
- positive Orientierung, das heißt größere Scores sind besser
- negative Orientierung, das heißt kleinere Scores sind besser
Erwartungswert der Scoring rule
[Bearbeiten | Quelltext bearbeiten]Der Erwartungswert der Scoring rule kann mithilfe einer zufälligen Stichprobe und einer Realisierung des Stichprobenmittelwertes geschätzt werden (welcher nach dem Gesetz der großen Zahlen konvergiert):
die Werte sind die Wahrscheinlichkeitsvorhersagen für den Eintritt des realisierten Ereignisses , .
Einteilung
[Bearbeiten | Quelltext bearbeiten]Eine Scoring rule positiver Orientierung heißt (analog für negative Orientierung, aber mit umgedrehten Ungleichungen)[2]:
- strictly proper, falls : für alle
- proper, falls : für alle
- improper, falls : für manche
Eine scoring rule heißt somit proper, wenn der Vorhersagende motiviert wird, ehrlich und kohärent zu schätzen.
Proper score functions
[Bearbeiten | Quelltext bearbeiten]Brier score
[Bearbeiten | Quelltext bearbeiten]Die häufigste Definition[3] des Brier score ist gegeben durch
Er sollte minimiert werden.
Logarithmische Score-Funktion
[Bearbeiten | Quelltext bearbeiten]Die logarithmische Score-Funktion.
Continuous ranked probability score
[Bearbeiten | Quelltext bearbeiten]Der continuous ranked probability score (CRPS) ist eine strictly proper scoring rule. Der CRPS vergleicht eine einzelne Beobachtung mit der vorhergesagten Verteilung. Er wird wie folgt definiert:
Dabei ist die vorhergesagte kumulative Verteilungsfunktion über einem Träger, welcher durch beschrieben wird und ist die Beobachtung. Beachte, dass die Vorhersage mehrere Wahrscheinlichkeiten schätzt, sodass eine kumulative Verteilungsfunktion F entsteht.
Wenn die Vorhergesagte Dichte eine Delta-Distribution ist (also) dann ist der CRPS äquivalent zum Mean absolute error (MAE):
Sphärische scoring rule
[Bearbeiten | Quelltext bearbeiten]Beispiel Bernoulli-verteilte Zufallszahl
[Bearbeiten | Quelltext bearbeiten]Betrachte die Aufgabe der Wettervorhersage, bei der an jedem Tag eine Regenwahrscheinlichkeit q vorhergesagt wird und es an einem Tag entweder regnet (x = 1) oder nicht regnet (x = 0). Die echte Wahrscheinlichkeit, dass es regnet ist sei p und die Wahrscheinlichkeit, dass es nicht regnet 1-p. Wir betrachten somit eine Bernoulli-verteilte Zufallszahl :
Durch eine Statistik der vorhergesagten Wahrscheinlichkeiten q kann die tatsächliche Regenhäufigkeit p mit der Vorhersage abgeglichen werden. Besitzt die Vorhersage q oft eine große Abweichung zu p, so wird sie schlecht kalibriert genannt. Um den Vorhersagenden zu motivieren, die Wahrscheinlichkeitskalibrierung (seine Leistung) zu verbessern, kann ihm das Ziel gesetzt werden den Erwartungswert einer proper scoring rule positiver Orientierung zu maximieren (oder bei negativer Orientierung zu minimieren).
Logarithmischer Score
[Bearbeiten | Quelltext bearbeiten]Betrachte die Scoring-Funktion so ist . Maximierung des erwarteten Scores liefert:
Somit wird der erwartete Score durch die spezielle Wahl maximiert und ist eine proper scoring rule (positiver Orientierung).
Beachte: der negative Erwartungswert entspricht der Kreuzentropie. Die Wahl einer logarithmischen scoring rule ist per-se willkürlich, kann jedoch durch Maximierung der Likelihood-Funktion motiviert werden.
Quadratischer Score
[Bearbeiten | Quelltext bearbeiten]Betrachte die Scoring-Funktion so ist . Minimierung des erwarteten Scores liefert:
Somit wird der erwartete Score durch die spezielle Wahl minimiert und ist eine proper scoring rule (negativer Orientierung).
Absoluter Score
[Bearbeiten | Quelltext bearbeiten]Betrachte die Scoring-Funktion (mit ), so ist . Minimierung des erwarteten Scores liefert:
was nur für p = 0.5 wahr ist. Somit wird der erwartete Score nicht durch die spezielle Wahl minimiert und ist keine proper scoring rule.
Probleme
[Bearbeiten | Quelltext bearbeiten]Eine extreme Ungleichheit bei den Klassenhäufigkeiten macht die Schätzung von Wahrscheinlichkeiten schwer[4].
Literatur
[Bearbeiten | Quelltext bearbeiten]- Some Comparisons among Quadratic, Spherical, and Logarithmic Scoring Rules, J. Eric Bickel, 7 https://doi.org/10.1287/deca.1070.0089
Weblinks
[Bearbeiten | Quelltext bearbeiten]Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ Greenberg, Spencer. "Calibration scoring rules for practical prediction training." arXiv preprint arXiv:1808.07501 (2018). https://arxiv.org/abs/1808.07501
- ↑ Economic Value of Weather and Climate Forecasts. (1997). Vereinigtes Königreich: Cambridge University Press. Seite 36, google books
- ↑ Healthcare Data Analytics. (2015). USA: CRC Press. https://www.google.de/books/edition/Healthcare_Data_Analytics/Iun5CQAAQBAJ?hl=de&gbpv=1&dq=brier%20score%20definition%20most%20common&pg=PA366&printsec=frontcover
- ↑ Wallace, Byron & Dahabreh, Issa. (2012). Class Probability Estimates are Unreliable for Imbalanced Data (and How to Fix Them). Proceedings - IEEE International Conference on Data Mining, ICDM. 695-704. doi:10.1109/ICDM.2012.115