Benutzer:MikWikHD/arbeit

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Quantal Response Gleichgewicht
Bezug Nash-Gleichgewicht, Logit, Probit
Wissenschaftler Richard McKelvey and Thomas Palfrey
Anwendungsgebiet nicht-kooperative Spiele
Beispiel Alle Spiele in Normalform mit Dichtefunktionen

Das Quantal Response Gleichgewicht (engl. Quantal Response Equilibrium, QRE) ist ein Begriff der mathematischen Spieltheorie. Es beschreibt in nicht-kooperativen Spielen eine Kombination von Strategien: Jeder Spieler wählt eine Strategie, von der aus es für keinen Spieler sinnvoll ist von seiner gewählten Strategie abzuweichen, obwohl diese nicht wissen, ob es sich um die beste der Strategien handelt und Fehler machen. Die Strategien der Spieler sind demnach im besten Fall gegenseitig beste Antworten. Wenn die Spieler vollständig rational spielen konvergiert das QRE zum Nash-Gleichgewicht. Das QRE ist ein statistisches Lösungskonzept der Spieltheorie. Definition und Existenzbeweis des QREs gehen auf das 1995 veröffentlichte Paper „Quantal Response Equilibria for Normal Form Games“ der Ökonomen Richard McKelvey und Thomas Palfrey zurück. Das QRE findet unter anderem eine zentrale Bedeutung in wirtschaftswissenschaftlichen Bereichen wie der Ökonometrie und der statistischen Betrachtung inkonsistenter Spieler zum Beispiel bei Wahlen oder dem Traveler's Dilemma. Das QRE ist nur für Spiele mit diskreten Strategien definiert.


Spieler entscheiden sich für eine Strategie von der sie nicht wissen, ob es sich um die beste aller Strategien handelt und sie machen Fehler bei der Auswahl. Sie wählen aus einem diskreten Strategienraum und stellen Vermutungen über die Wahl der Strategie des Gegenspielers an. Diese Vermutung oder Belief bewahrheitet sich in Erwartung . Im Gleichgewicht stimmen die Vermutungen über die Wahl der Strategie des Gegenspielers und die Fehler in der Auswahl sind minimal, sodass sich die Auszahlung jedes Spielers maximiert und gewährleistet, dass Fehler keine Auswirkungen auf die Strategienwahl eines Spielers haben. Bei perfekt rational handelnden Individuen decken sich statistische Vorhersagen mit der theoretischen Gleichgewichtswahl, da niemand Anreiz hat von seiner Gleichgewichtswahl abzuweichen.

Das Konzept des QRE unterscheidet sich insofern von anderen theoretischen Gleichgewichtsvorhersagen, als dass es sich um eine statistische Prognose einer Gleichgewichtswahl aus diskreten Strategien handelt. Durch die Modellierung eines Fehlerterms kann jegliches Verhalten von Spielern vorhergesagt werden, welche Tatsache die Güte eines Gleichgewichtskonzepts einschränkt[1]. Grundsätzlich können Aussagen des QRE als deskriptive Gleichgewichtsvorhersage interpretiert werden.

Aufbau QRE in Normalform

[Bearbeiten | Quelltext bearbeiten]

Die strikte Annahme der perfekten Rationalität der Spieler, modelliert durch die deterministische Natur einer strategischen Spielumgebung, soll durch die Hinzunahme eines probabilistischen Ausdrucks erweitert werden. Als Folge ist mögliche Inkonsistenz der Spieler möglich.[2] In dieser Spielumgebung lassen sich Lösungen des Gleichgewichts, wie in deterministischen Spielumgebungen nur noch in Wahrscheinlichkeiten ausdrücken, da das Gleichgewicht vom probabilistischen Teil und einer Wahrscheinlichkeit der deterministischen Wahl abhängt und somit immer dann ökonomisch relevant ist, wenn der Nutzen eines Spielers von der Realisation der Zufallsvariable determiniert wird.


Die erwartete Auszahlung eines Spielers aus unterschiedlichen Strategien hängt von den Beliefs der Spieler über die Wahl der Strategie anderer Spieler ab. Beliefs determinieren erwartete Auszahlungen, welche wiederum Auswahlmöglichkeiten und Quantal Response Funktionen generieren. Im Gleichgewicht passen diese Beliefs zu den Gleichgewichtsauswahlmöglichkeiten [2].


Spieler machen „infinitesimal“ [3] Fehler. Diese Änderung erlaubt es Abweichungen von perfekt rational erwarteten Spielverhalten zu beobachten und mithilfe von logistischer Regression formal zu beschreiben, welche Tatsache signifikant unterschiedliche Ergebnisse zu Nash-Gleichgewichtsvorhersagen haben kann, jedoch mit steigender Wahrscheinlichkeit beziehungsweise Wissen über die Realisation der Zufallsvariable gegen das Nash-GGW konvergiert [4].


Das QRE nimmt im Vergleich zum Nash GGW einen Unsicherheitsfaktor hinzu und macht es somit resistenter und allgemeingültiger als das deterministische Modell, da das Verhalten von „noisy players“[2] modelliert werden kann. Tatsächlich aber handelt es sich beim QRE um eine Verallgemeinerung des Nash-Gleichgewichts (NGGW), die zu diesem mit sinkendem beziehungsweise mit steigender Rationalität konvergiert und sich der Beste-Antwort Funktion annähert [5].

Dies liefert einen nützlichen theoretischen Rahmen für die Beobachtung komparativ statischer Effekte von Parameterveränderungen. Es führt nicht zwingend zu Abweichungen von den Nash (John Forbes Nash Jr.) Vorhersagen [5].


  • Spieler wählen nicht die beste Antwort mit Wahrscheinlichkeit 1 ( wie im NGGW)
  • Spieler wählen Antworten mit höherer erwarteter Auszahlung gewichtet mit höherer Wahrscheinlichkeit - bessere Antworten als beste Antworten
  • Spieler haben rationale Erwartungen und nutzen wahre erwartete Fehler, wenn sie Strategien anderer Spieler interpretieren [6]


In dieser Modellierung haben Spieler eine freie Auswahl nach einem Gut (hier: Strategie) und entscheiden unter probabilistischem Einfluss. Sie kennen die Auswahlwahrscheinlichkeit p und schätzen diese Wahrscheinlichkeit mit steigender Erfahrung “besser”. Der deterministische Teil einer Strategienwahl des Spielers ist durch beobachtbare Attribute geprägt und der probabilistische Teil unterliegt unbeobachtbaren Einflüssen.


Die Präferenz der Spieler besteht darin eine Strategie (Spieltheorie) zu wählen, die eine höhere erwartete Auszahlung generiert als andere, obwohl nicht gegeben ist, dass es sich um die beste aller Strategien handelt, da Auszahlungen nur noch in Erwartungswerten existieren [7]. Eine Annahme im Modell besteht darin, dass die Spieler ihre erwarteten Auszahlungen korrekt schätzen. Das bedeutet, dass Spieler i seine Schätzung der Auszahlung aus Strategie a im Erwartungswert auch erhält unter Berücksichtigung der probabilistischen Gleichgewichtswahl der anderen Spieler. Die hinzugenommene probabilistische Variable im Einfluss auf die diskrete Wahl ist endogen im Modell [8].


Im Unterschied zum NGGW jedoch liefert das QRE die Möglichkeit statt deterministischen Aussagen, statistische Prognosen zu treffen. Die Güte dieser statistischen Aussagen hängt signifikant von der Präzision der Beliefs der Spieler über die erwarteten Auszahlungen der unterschiedlichen Strategien ab. Erfahrungen der Spieler und Lernfähigkeit spielen eine besondere Rolle, da diese Faktoren Einfluss auf die Fähigkeit präziser Einschätzungen erwarteter Auszahlungen aus bestimmten Strategien haben. Dieses Phänomen kann auch durch den Effekt steigender Beobachtungen in der Ökonometrie erklärt werden [9].

Die Normalform (Spieltheorie) eines Spiels mit den folgenden Elementen lautet:

  • Spieler


Es existieren Spieler, wobei


  • Im Strategieraum


existiert für jeden Spieler eine Strategie

bestehend aus reinen Strategien.


  • Auszahlungsfunktion


Für jeden Spieler gibt es eine Auszahlungsfunktion , wo



  • Wahrscheinlichkeit


und , wo


und für alle


Zur Vollständigkeit sei erwähnt, dass sich alle p in einem Raum von Wahrscheinlichkeiten befinden in dem gilt :

alle Anderen , wobei und , sodass

also


  • Wahrscheinlichkeit Spieler i wählt Strategie


Daher repräsentiert die Notation die Strategie, wo i die Strategie wählt und alle anderen Spieler deren Ausprägung von p adaptieren.


  • Nutzenfunktion



Wobei den deterministischen Teil und den probabilistischen Teil des Modells darstellt.

Weiterhin kann als Weißes Rauschen beschrieben werden und mit folgenden Annahmen versehen werden:



Sowohl die Verteilungsfunktion als auch die Dichtefunktion sind unbekannt. Der Erwartungswert existiert und ist 0.

Im Logit Modell jedoch ist der probabilistische Teil der Nutzenfunktion extremwertverteilt, welche Annahme zu nützlichen Effekten führt. Der extremwertverteilte Errorterm kann als Spieler i's Fehler-Vektor definiert werden.

Die Nutzenfunktion der Spieler

[Bearbeiten | Quelltext bearbeiten]
Nutzenfunktion


Abweichungen von optimalen Entscheidungen sind negativ korreliert mit verbundenen Kosten. In anderen Worten machen Spieler sehr ungern Fehler mit hohen Kosten. Formal bildet die Nutzenfunktion einen Vektor mit einem deterministischen Teil und einem probabilistischen Teil mit oben genannten Annahmen. Erwartete Auszahlungen

oder genauer

wiederum sind determiniert von Beliefs über die Aktionen anderer Spieler und bilden den deterministischen Teil der Nutzenfunktion. Die Auszahlungen der Spieler werden mit der Wahrscheinlichkeit, dass die Strategie gespielt wird, gewichtet.

Nash Gleichgewichte in reinen Strategien existieren unter oben genannten Annahmen nur noch in Erwartungswerten und mit Fehlerterm. Die Auszahlungen können durch den Vektor

wo,


verständlicher gemacht werden.


Der Spieler i wählt Strategie j, wenn und maximal wird. Zudem kommt der Errorterm , sodass für jedes u für jeden Spieler i eine {ij}-Antwort-Menge R existiert:

Eine Menge mit gegebenen p gibt die Region der Fehler an, die Spieler i zu Strategie j führt:

was der Wahrscheinlichkeit, dass Spieler i Strategie j gegeben wählt und dem QRE entspricht.[10]

Es entsteht eine mit Wahrscheinlichkeit gewichtete Auszahlung aller Strategien unter Berücksichtigung der Ausprägung des Residuums. Es existiert eine zufällige Beste-Antwort Funktion für alle Spiele in Normalform und somit auch ein QRE. Die Gleichgewichts-Wahlmöglichkeiten bilden das QRE. Im Gleichgewicht sind die Beliefs der Spieler richtig. Eine Modellierung ist durch das logit equilibrium möglich, da unbeobachtete Störterme Abweichungen des Nutzens der Spieler zur Folge haben und als Ziel der Modellierung so klein wie möglich gehalten werden sollen.

Die gängigste Angabe eines QREs ist das logit Gleichgewicht (engl. logit equilibrium) LQRE :

Gumbel-Verteilungsfunktion

Kerngedanke der Logit Modellierung der Wahl der Strategie von Spielern bildet ein Discret Choice Modell[11]. Somit ist es möglich Aussagen bezüglich der Auswahl von alternativen Strategie der Spieler zu treffen. Spieler wählt aus dem Strategienraum ohne Berücksichtigung der Zeit , da es sich um ein einmaliges Spiel handelt. Der Spieler präferiert Strategie vor , wenn gilt:

Gumbel-Dichtefunktion


Unter Logit Modellen versteht man eine Form der Discrete Choice Modelle in der der probabilistische Teil der Nutzenfunktion aus unabhängig identisch extremverteilten (iid) Variablen abhängt. Diese Zufallszahlen bestehen aus nicht beobachtbaren Störgrößen. Nach dem Fisher-Tippett Theorem (später Fisher-Tippett Gnedenko Theorem) nähern sich diese einer Extremwertverteilung an [12].

Gumbel-Realisationen (Standard)


Die Verteilungsfunktion (Über-Extremwertverteilung) erfüllt diese Annahmen und ist eine Klasse der Extremwertverteilung. Die Verteilungsfunktion (Graphik 1) zeigt an, wie wahrscheinlich ein Ergebnis ist, das höchstens der auf der x-Achse stehender Wert beobachtet wird. Die Realisationen (Graphik 3,4) dieser Verteilung zeigen die Beobachtungen im Zeitverlauf. Unter Standard ist hier die Gumbel-Verteilung (0,1) definiert und (mu,beta) gibt eine anders skalierte Ausprägung der Realisationen an. Der Flächeninhalt unter der Dichtefunktion (Graphik 2) bis zu einer Realisation korrespondiert zur Wahrscheinlichkeit, zu der höchstens dieser Wert eintritt.


Gumbel-Realisationen (mu,beta)

Daher sind probabilistische Störgrößen als Maximum der Zufallszahlen zu verstehen. Die Form des Logit Modells erlaubt Schätzungen mithilfe der Maximum Likelihood Methode über die Wahl der Spieler zu schätzen. Durch extremverteilte probabilistische Störterme ergibt sich die Auswahlwahrscheinlichkeit [13]:


kann in diesem Fall als Rationalitätsparameter identifiziert werden und gibt an, wie rational die Spieler entscheiden. Ein Spieler mit entscheidet perfekt rational und alle Vorhersagen konvergieren zum NGGW.


Problematisch allerdings ist die iid Annahme der Störterme. Die resultierende Korrelation von 0 zwischen den Störtermen hat ein Verhältnis der Auswahlwahrscheinlichkeiten zur Folge.

Für die Alternativen gilt das Verhältnis [13]:

Die Konstanz dieses Verhältnisses widerspricht der Unabhängigkeit von irrelevanten Alternativen (engl. Independent Of Irrelevant Alternatives (IIA)).

Das QRE findet in Spielen mit diskreten Strategien Anwendung. Im Traveler's Dilemma kann das QRE beobachtete Daten des Verhaltens der Spieler erklären. Wobei es möglich ist, bei bestimmter Wahl des Rationalitätsparameters, jegliches Verhalten von Spielern zu modellieren [1].

s_{i,j}
(-1,1) (1,-1)
(-1,1) (1,-1)

Spielermenge

Strategienmenge

Strategienmenge Spieler 1

Strategiemenge Spieler 2

Nullsummenspiel mit diskreten Strategien

Zeilenspielers erwartete Auszahlungsfunktion aus Strategie T () ist eine Funktion der Auswahlwahrscheinlichkeit von Spaltenspielers Strategie R (), welche durch Erwartungswerte gebildet werden kann:

Grafische Darstellung, Anwendung

Analog dazu bildet sich Zeilenspielers erwartete Auszahlungsfunktion aus Strategie B aus der Auswahlwahrscheinlichkeit von Spaltenspieler seiner Strategie R :

Falls Spaltenspieler lieber R spielt ( ) ist Zeilenspielers beste Antwort Strategie T .

Spaltenspielers erwartete Auszahlungen können analog errechnet werden.


Die Quantal Response Funktion glättet die unstetige errechnete Beste-Antwort Funktion und repräsentiert monotone und stochastische Wahl als eine Funktion von Auszahlungen [14]. In der Graphik schneiden sich Quantal Response Funktion und beste-Antwort Funktion im Nash Gleichgewicht. Bei einem anderen Rationalitätsparameter verschiebt sich die Quantal Response Funktion und es kommt zu anderen statistischen Vorhersagen bezüglich eines Gleichgewichts. Die Quantal Response Funktion des Gegenspielers errechnet sich analog.

Aufbau QRE in Extensivform

[Bearbeiten | Quelltext bearbeiten]

In extensiver Form des Spiels wird der Faktor Zeit in das Modell mit aufgenommen und es entsteht eine Art Stufenspiel. Im deterministischen Modell können auch im unendlich oft wiederholten Stufenspiel Aussagen über ein zeitresistentes Gleichgewicht getroffen werden, da ein NGGW immer ein Gleichgewicht bleiben muss. Der probabilistische Einfluss und der Störterm jedoch verhindern diese Fähigkeit durch die Abhängigkeit des Gleichgewichts von den Realisationen verschiedener Zufallsvariablen. Es können lediglich Erwartungswerte angegeben werden, die letztendlich keine sicheren Vorhersagen treffen können. Das Gesetz der großen Zahlen bewirkt, dass mit steigenden Beobachtungen konsistentere Aussagen über Gleichgewichte getroffen werden können. McKelvey und Palfrey definieren für das dynamische Spiel ein agent quantal response equilibrium (AQRE), welches mithilfe von Teilspielperfektheit ermittelt werden kann. In diesem Spiel determiniert jeder Spieler seine erwartete Auszahlung mithilfe einer Modellierung der Zukunft als einen eigenen Spieler mit Kenntnis über die Wahrscheinlichkeitsverteilung über die Strategien [15].



Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. a b Becker et. al: Experts Playing the Traveler’s Dilemma, Hohenheimer Diskussionsbeiträge, Nr. 252/2005, S. 13
  2. a b c Goeree, Holt, Palfrey: Quantal Response Equilibrium, Division of the Humanities and Social Sciences, S.1
  3. McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 7, Zeile 2, 1995
  4. McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 6-8, 1995
  5. a b Goeree, Holt, Palfrey: Quantal Response Equilibrium, Division of the Humanities and Social Sciences, S.2
  6. Economics 209B , Behavioral / Experimental Game Theory: Lecture 4: Quantal Response Equilibrium (QRE), Spring 2008
  7. McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 10, „better actions are more likely to be chosen than worse actions“, 1995
  8. McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 7, 1995
  9. McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 8 ff., 1995
  10. McKelvey, Palfrey : Quantal Response Equilibria for Normal Form Games, Games and Economic Behavior Vol. 10, Seite 10, 1995
  11. Train, K. E : Discrete Choice Methods with Simulation, Cambridge University Press, 2009
  12. Fisher, R. A., Tippett, L. H. C., 1928. Limiting forms of the frequency distribution of the largest or smallest member of a sample. In: Mathematical Proceedings of the Cambridge Philosophical Society. Vol. 24. Cambridge Univ Press, pp. 180–190
  13. a b McFadden, D., 1973. Conditional logit analysis of qualitative choice behavior.
  14. Goeree, Holt, Palfrey: Quantal Response Equilibrium, Division of the Humanities and Social Sciences, A Motivating Example: Generalized Matching Pennies, S.1 ff
  15. McKelvey, Richard; Palfrey, Thomas (1998), "Quantal Response Equilibria for Extensive Form Games", Experimental Economics Vol. 1, Seite 9-41
  • McFadden, D., 1973. Conditional logit analysis of qualitative choice behavior
  • Fisher, R. A., Tippett, L. H. C., 1928. Limiting forms of the frequency distribution of the largest or smallest member of a sample. In: Mathematical Proceedings of the Cambridge Philosophical Society. Vol. 24. Cambridge Univ Press
  • Train, K. E., 2009. Discrete Choice Methods with Simulation


Kategorie: Spieltheorie Kategorie: Ökonometrie