Diskussion:Bestimmtheitsmaß/Archiv/1

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 6 Jahren von JonskiC in Abschnitt Literaturstellen
Zur Navigation springen Zur Suche springen

Symbol B?

Ich hab in meinem Statistikunterricht gelernt, dass das Symbol des Bestimmtheitsmaßes B ist. B = r², wobei r der Regressionskoeffizient Korrelationskoeffizient. geändert --Widda 11:07, 25. Jan. 2007 (CET) ist. Was ist nun richtig? Oder ist beides korrekt? Sollte man das vielleicht mit erwähnen? --Widda 21:09, 24. Jan. 2007 (CET)

Hallo, das Symbol für Bestimmtheitsmaß habe ich hier zum erstenmal gesehen und ich habe eigentlich schon einige Bücher zu dem Thema gewälzt und meine, dass ich mich mit sowas auskenne. Ich denke, dass diese Bezeichnung eher unüblich ist, aber grundsätzlich denke ich, dass es nicht schadet, dass in dem Artikel erwähnt wird, dass in einigen Büchern verwendet wird, wobei ich denke, dass das dann wohl nur im Deutschen gebräuchlich sein dürfte, im Englischen heißt das Bestimmtheitsmaß nach meinem Wissen coefficient of determination. Gruß --Pi666 10:03, 25. Jan. 2007 (CET)
Also mir ist B auch nie untergekommen. r ist übrigens der Korrelationskoeffizient. Ich finde es eigentlich eher überflüssig, alle möglichen "wird auch gelegentlich so ... bezeichnet", aufzuführen. Es geht ja um den Inhalt, nicht die Verpackung. --Philipendula 10:11, 25. Jan. 2007 (CET)
Hoppla, natürlich meinte ich den Korrelationskoeffizienten, nicht den Regressionsk. - mein Fehler *g*. Ist es vielleicht möglich, dass das B in der Biostatistik / Biometrie häufiger verwendet wird? Meine Dozentin lehrt an der Uni Rostock und hat auch schon einige Bücher zur Biostatistik auf den Markt geworfen. In denen wird nur vom Bestimmtheitsmaß B geredet. --Widda 11:07, 25. Jan. 2007 (CET)

Das B wird häufig in der Biometrie verwendet. Statistikprogramme sind in der Regel in Englisch und benutzen diese Ausdrücke: Correlation Coefficient = r R-squared = B(nicht signierter Beitrag von 217.186.215.204 (Diskussion) 23:05, 8. Feb. 2007 (CET))

bereinigtes Bestimmtheitsmaß?

wie wäre es denn mit freiheitsgradbezogen - dann weiß man wenigstens gleich, woher die bereinigung kommt(nicht signierter Beitrag von 217.186.215.204 (Diskussion) 23:09, 8. Feb. 2007 (CET))

Korrigiertes ... wäre angemessen. --Philipendula 09:38, 9. Feb. 2007 (CET)
Ich habe mal meinen Senf dazugegeben, könnt ja mal schauen, ob es euch gefällt... Frank1101 09:56, 9. Feb. 2007 (CET)
Ich glaube die Formel ist nicht ganz korrekt. Die englische Version scheint da eher zu stimmen mit n-p-1 im Nenner. Kann das jemand bestätigen? SPSS scheint nach der Formel auf der englischen Seite zu rechnen. --Christian, 3. Mar. 2007
Ich glaube die Formel ist nicht ganz korrekt --> Dies ist m.E. nach auch so, ich habe die Formel auf der Seite geändert, ich habe ausreichend Quellen gefunden, die die Formel mit (n-p-1) verwenden. --Stm, 17. Juli 2007
Es heißt Zahl der unbekannten Parameter. Da zählt das Absolutglied mit. Das wurde in en extra gezählt. --Philipendula 21:53, 7. Mär. 2007 (CET)
Zugegeben, das hab ich überlesen. Aber da drängt sich die Frage auf, ob nicht die (n-p-1) Variante die logischere (und bei weitem häufiger zitierte) ist --Stm, 29. August 2007
Ich habe in der Praxis den Fall, dass das p so groß wird, dass p = n - 1. Dadurch ist der Nenner "0" und es kommt zu einer "Division durch 0". "n" habe ich dabei als Anzahl der Datensätze verstanden, d.h. die Anzahl der Yi. PS: ich rede von der Variante mit (n-p-1) im Nenner --SDwarfs, 30. Juli 2008
Und was möchte uns der Dichter damit sagen? -- Philipendula 14:52, 4. Aug. 2008 (CEST)

Sagt mal vielleich kann man die ganze Sache etwas allgemeiner formulieren ohne gleich das Bestimmtheitsmaß mit neuen Fremdwörtern zu erklären. Denn eines ist sicher: Wer hier nachließt und es nicht weiß, hat vorher kein Statistikbuch gelesen ! Was denkt ihr, kann man das einfach erklären oder schreiben wir rein damit es drin steht? (nicht signierter Beitrag von 193.129.163.212 (Diskussion) 20:54, 17. Okt. 2007 (CEST))

Gustu hier b:Statistik: Regressionsanalyse#Bestimmtheitsmaß. --Philipendula 11:26, 18. Okt. 2007 (CEST)

korrigiertes Bestimmheitsmaß

Woher kommt dort eigentlich die -1 im Nenner? Im Zähler ist es klar, da ist es die Mittelwertbildung. Die p sind auch klar, das ist die Verringerung der Freiheitsgrade durch die Koeffizienten der Anpassungsfunktion. Aber für die -1 habe ich keine Erklärung, ich kenne es eigentlich bislang auch als n - p und nicht als n - p - 1. --Jogy sprich mit mir 19:35, 9. Mär. 2009 (CET)

Das kommt von der Konstanten . Man zählt hier p Regressoren und die Konstante. -- Philipendula 23:30, 9. Mär. 2009 (CET)
Alles klar, dann ist nur die Zählweise anders. Es sollte allerdings aus dem Artikel klar werden, woher diese -1 kommt, im Moment ist das nicht der Fall. --Jogy sprich mit mir 03:38, 10. Mär. 2009 (CET)
Wieso? Die Definition der Regressionshyperebene steht doch oben in der Einleitung. -- Philipendula 08:46, 10. Mär. 2009 (CET)
Stimmt, hatte ich übersehen, habe gestern nur nach der Korrektur geschaut. Der Punkt ist doch aber, dass diese Definition dann auch nur für das obige lineare Regressionsmodell paßt. Wenn ich ein anderes, komplexeres Modell verwende (z.B. ein lineares Gleichungssystem, ein neuronales Netz etc.), dann wäre es doch allgemein n-k mit k als Anzahl der frei wählbaren Parameter des Modells. Oder habe ich jetzt hier einen schweren Denkfehler und die Formel R² = 1 - (Variation der Regresswerte / Variation von Y) darf hier gar nicht angewendet werden (wobei die Berechnung auf diese Art ja immer möglich ist) --Jogy sprich mit mir 10:23, 10. Mär. 2009 (CET)
Da legst du genau den Finger in die Wunde. Das Bestimmheitsmaß für lineare Regression ist ohnehin im Artikel Regressionsanalyse beschrieben. Jetzt musste aber irgendjemand unbedingt noch einen extra Artikel Bestimmtheitsmaß anlegen, der im Prinzip das Gleiche wiederkäut. Wenn du diesen Artikel hier auf eine allgemeinere Basis stellen willst, am besten gleich mit konkreten Ausführungen der anderen Verfahren, bist du herzlich dazu eingeladen. Viele Grüße -- Philipendula 11:45, 10. Mär. 2009 (CET)
Würde ich gerne machen, nur leider reichen dafür meine Kenntnisse nicht aus (da hätte ich mein Mathestudium nicht abbrechen dürfen ;)). --Jogy sprich mit mir 19:49, 10. Mär. 2009 (CET)

R2 kleiner 0

Zunächst mal: Lass das revertieren, bis das ausdiskutiert ist. Du willst eine Änderung, weil Du der Meinung bist, dass das nicht sein könnte und das ist nicht gerade die beste Basis. Hättest Du einen Beleg, dann sähe das anders aus. Ich frage mich gerade, was so unbegreiflich an einem R2 kleiner null sein soll. Wenn ich ein völlig untaugliches Modell wähle, dann kann die Variation der Residuen völlig problemlos größer als die Variation von y werden. Ganz einfaches Beispiel: Ich fitte Punkte auf f(x) = 1 durch g(x) = 2. Dass ein solcher Fit völlig schwachsinnig ist, ist absolut klar, nur darfst Du mir gerne aufzeigen, dass das Bestimmtheitsmaß nur für sinnvolle Fits genutzt werden darf. --Jogy sprich mit mir 12:41, 8. Apr. 2009 (CEST) Nebenbei: Wie soll es eigentlich größer 1 werden? Dann müßte der Qutient von zwei Summen von Quadraten kleiner Null werden. --Jogy sprich mit mir 12:45, 8. Apr. 2009 (CEST)

(BK) Was genau in deinem Beispiel würde an
negativ? Wer etwas behauptet, muss es belegen. --Erzbischof 12:48, 8. Apr. 2009 (CEST)
In meinem Beispiel würde
größer 1 und damit 1 minus diesen Bruch kleiner 0.
Genau, wer etwas im Artikel haben will, muss es belegen. Und Ihr wollt die Aussage (R2>=0) im Artikel. --Jogy sprich mit mir 12:53, 8. Apr. 2009 (CEST)
Nachtrag: Das Problem dürfte wohl sein, dass das Gleicheitszeichen zwischen den beiden Darstellungen in der Definition nur bei linearen Modellen zutreffend ist. Bei nicht-linearen Modellen bekommt kann man daher je nach verwendeter Formel sowohl Werte größer 1 (hintere Formel) als auch kleiner 0 bekommen (vordere Formel). --Jogy sprich mit mir 12:57, 8. Apr. 2009 (CEST)
Weil nichtlineare Modelle eine andere Baustelle sind und nicht klar ist, welche der beiden Seiten zur Definition herangezogen wird, habe ich den strittigen Satz entfernt. --Erzbischof 12:59, 8. Apr. 2009 (CEST)
Einverstanden, auf die Idee hätte ich eigentlich auch kommen können. Wobei ich im allgemeinen so meine Zweifel an der Korrektheit der Formel die Du herangezogen hast und im Speziellen an deren Gleichsetzung mit der anderen Formel habe. Wenn ich eine Gleichung der Form ax + b genau am Mittelwert punktspiegele, dann bekomme ich mit "Deiner" Formel ein Bestimmheitsmaß von 1, mit der anderen eher einen Wert nahe 0. Im Endeffekt kann man sogar unendlich viele Regressionsgeraden konstruieren, die ein Bestimmtheitsmaß von 1 ergäben. --Jogy sprich mit mir 13:08, 8. Apr. 2009 (CEST)
PS: Es geht im Artikel um das Bestimmtheitsmaß einer Regression, und nicht um das „Bestimmtheitsmaß“ (wie auch immer definiert) einer (willkürlichen) anderen Anpassung einer Funktion an Punktwerte.--Erzbischof 13:18, 8. Apr. 2009 (CEST)
So wie ich es sehe geht es zwar im Speziellen um das Bestimmtheitsmaß einer Regression, aber nicht ausschließlich (siehe Einleitung). Letztendlich wird das ja in der Praxis für alle möglichen Modelle angewendet und dort werden auch die Formeln verwendet, die unter der Definition angegeben sind (vor allem die erste ist ja prinzipiell allgemeingültig). Eigentlich ist eine klare Überarbeitung des Artikels fällig, aber das traue ich mir definitiv nicht zu. --Jogy sprich mit mir 13:37, 8. Apr. 2009 (CEST)
Es geht in dem Artikel zuerst um das Bestimmtheitsmaß einer linearen Regression; aber nicht ausschliesslich. Sondern würden die Pseudobestimmtheitsmaße am Ende keinen Sinn machen. Deswegen sollten die Effekte von nicht-linearen Regressionsverfahren auf das Bestimmtheitsmaß auch eine Rolle spielen. --Sigbert 19:41, 13. Apr. 2009 (CEST)
Zum Thema R^2<0 habe ich gerade mal nachgeforscht und erschreckend wenig Hinweise darauf in der Literatur gefunden. Falls es jmd. interessiert, hier zwei Links, in denen (ein wenig) erklärt wird, warum es kleiner Null werden kann:
Meine Vorlesungsfolien (Ökonometrie) sagen auch, dass bei fehlendem konstantem Glied im CLRM R^2 nicht länger zwischen den Grenzen 0 und 1 liegen muss. Grüße, -- MM-Stat 17:23, 19. Nov. 2009 (CET)

Hallo zusammen, ich hatte auch eine längere diskussion darüber, ob R2 kleiner null werden kann. Meiner Meinung nach schon:

kann beliebig groß werden, und zwar dann, wenn die Schätzungen sehr stark von den tatsächlichen Werten abweichen, also das Modell schlecht ist.

Die Schätzung kann natürlich auch beliebig schlecht, der Ausdruck im Zähler also auch beliebig groß, und zwar viel größer als der Nenner werden. 1- Zähler durch Nenner dann einen negativen Wert, wie man es in der Schule gelernt hat.

Ich spare mir hier, eine Tabelle mit konkreten Beispielwerten anzugeben.

In der englischen Wikipedia steht auch noch: „negative values of R2 may occur when fitting non-linear functions to data“. Auch die Implementierung bei Scikit-Learn kann negative Werte liefern: „Best possible score is 1.0 and it can be negative (because the model can be arbitrarily worse)“ -- Schnurber 19:10, 30. Nov. 2017 (CET)

Hallo Schnurber. Noch nie von einem negativen Bestimmtheitsmaß gehört, aber kannst ja einen belegten Abschnitt dazu formulieren;)--JonskiC (Diskussion) 19:16, 30. Nov. 2017 (CET)
Habe was dazu gefunden und es ergänzt. Grüße.--JonskiC (Diskussion) 12:40, 9. Dez. 2017 (CET)

Abschnitt: Konstruktion - Fehler in Formel

Zitat:

... Regressionsmodell ().

muss lauten

... Regressionsmodell ().

Es muss also heißen und nicht -- 88.67.129.243 16:12, 14. Feb. 2010 (CET)

Danke, korrigiert. -- Sigbert 19:32, 15. Feb. 2010 (CET)

Formeln im Abschnitt Konstruktion

Hallo,

ich habe eine weiter Frage zu den Formeln im Abschnitt Konstruktion. Betrachtet man die Gleichung

Variation von Y = Variation der Residuen + Variation der Regresswerte

und setzt beispielsweise für n=2 ergibt sich y_quer = (y1 + y2)/2.

Damit lässt sich die Gleichung meiner Meinung nach nicht lösen.

Außerdem wäre damit auch die zweite Gleichung

R^2 = 1 - Variation der Residuen / Variation von Y = Variation der Regresswerte / Variation von Y

nicht richtig.

Da ich kein Experte auf dem Gebiet bin, wäre es toll, wenn sich das jemand anschauen würde, der etwas davon versteht.

Danke!

--151.136.109.170 14:29, 11. Jun. 2010 (CEST)

Sorry, aber was willst Du da lösen? Die Aufteilung ergibt sich ja erst durch das Modell. --Jogy sprich mit mir 21:03, 11. Jun. 2010 (CEST)

Hallo,

danke für die schnelle Antwort. Betrachtet man die beiden Gleichungen zur Berechnung von R^2 als allgemeine Gleichung losgelöst von der Statistik und setzt n = 2 und damit allgemein y1 und y2 (und damit y_quer = (y1 + y2)/2 )und rechnet beide Seiten der Gleichung aus kommt am Ende nicht auf beiden Seiten das Gleiche raus. Deshalb stellt sich für mich die Frage, ob die beiden Berechnungsmöglichkeiten für R^2 wirklich zum selben Ergebnis führen. Meiner Meinung nach ist dies nicht der Fall. Habe ich da etwas falsch verstanden?

--Bibbi78 21:34, 13. Jun. 2010 (CEST)--Bibbi78 21:34, 13. Jun. 2010 (CEST)

Ich habe gerade nochmal den Beweis der Zerlegung eingefügt. Im einfachsten Fall mit einer Variablen und zwei Datenpunkten läuft die Regressionsgerade durch die beiden Datenpunkte, also (). Die Variation der Residuen ist Null und die Variation der Regresswerte ist gleich der Variation von Y, also . --Sigbert 12:42, 14. Jun. 2010 (CEST)
@IP: Genau darum ging es mir, was setzt Du als Modellgleichung ein? Ohne die kannst Du gar nichts rechnen und bei nur zwei Datenpunkten ist das Modell exakt.
@Sigbert: So würde ich das nicht drinlassen, da muss ich schon genauer hinschauen, um das nachzuvollziehen und eine Laie schaut sich das gar nicht mehr an. Ich würde das in einen eigenen Abschnitt packen, der das etwas vom Rest trennt. --Jogy sprich mit mir



Danke für die Beweisführung der Zerlegung. Mein Verständnisproblem war, dass ich nicht gesehen habe, dass

zu Null werden muss.

Das bringt mich auf eine weiter Frage:
Kann auch zur Bestimmung der Modellgüte verwendet werden, wenn untersucht werden, die nicht zur Modellbildung verwendet wurden? In diesem Fall muss

nicht zu Null werden, oder? (nicht signierter Beitrag von 151.136.109.170 (Diskussion 09:15, 15. Jun. 2010 (CEST)) bzw. --Bibbi78 12:36, 15. Jun. 2010 (CEST)

R²(prognostiziert)

Es wäre super, wenn jemand, der sich damit etwas besser auskennt einen Teil über das in einigen Statistikprogrammen (z.B. Minitab) verwendete R²(pedicted) /(prognostiziert) verfassen könnte. R²(prognostiziert) ist ein Wert, der die Unzulänglichkeit von R² und R² (korrigiert) beheben soll, eine Aussage über die Vorhersagekraft des Modells zu treffen, indem hier nacheinander Punkte bei der BErechnung ausgelassen werden und dann der vorhergesagte Wert mit dem wirklichen Wert verglichen wird. So würde dieser Wert z.B. für die lineare Approximation an die roten Daten in der Graphik deutlich niedriger sein. Die dahinterliegende genaue Mathematik kenne ich jedoch leider nicht... --84.143.120.144 11:19, 13. Okt. 2010 (CEST)

Das hört sich nach einem Kreuzvalidierungsverfahren an (Leave-One-Out). Ob sowas bei der linearen Regression Sinn macht, bin ich mir nicht sicher. --Sigbert 13:43, 13. Okt. 2010 (CEST)
Hab mal was dazu geschrieben, bin mir aber sehr unsicher über den Namen Prognose-Bestimmtheitsmaß. --Sigbert 18:55, 13. Okt. 2010 (CEST)

NSE und R²

Hi, kann mir hier vielleicht jemand erklären, worin der Unterschied zwischen dem en:Nash–Sutcliffe model efficiency coefficient (bisher nur im englischen Wiki) und dem R² besteht?! Im NSE Artikel steht, dass es eigentlich dasselbe ist wie R² (letzter Abschnitt). Wie kann das sein?! Und unter welchen Bedingungen kann man R² überhaupt zur Validierung von Modellen nutzen? Würd mich freuen, wenn jemand was weiß...Gruß--132.230.20.106 11:08, 7. Mär. 2011 (CET)

  • Die beiden sind identisch. Zum einen wird Statistik in vielen Disziplinen benutzt wird, d.h. es haben sich teilweise eigene Namen für statistische Begrifflichkeiten entwickelt. Zum anderen sind solche Koeffizienten in den Disziplinen auch selbstständig entwickelt, und dann auch benannt, worden.
  • In der Form wird es durchaus häufiger benutzt. Je näher der Wert an Eins ist, desto kleiner ist die Summe der quadrierten Abweichungen zwischen gemessenen und aus dem Modell geschätzten Werten. Bei welchem Modell gut ist, hängt jedoch stark vom Sachgebiet ab.
--Sigbert 20:30, 10. Mär. 2011 (CET)

Formel "Zusammenhang mit Korrelationskoeffizienten" vekehrt?

Die angegebene Formel : erscheint mir als nicht korrekt im Nenner.

Ich vermute, dass sie : lauten müsste. Dies würde sich auch besser mit dem Artikel Korrelationskoeffizient decken. Bitte überprüfen - Besten Dank. (nicht signierter Beitrag von 62.245.235.246 (Diskussion) 09:37, 29. Sep. 2011 (CEST))

Der Nenner ist korrekt! (nicht signierter Beitrag von 82.119.21.143 (Diskussion) 21:01, 7. Dez. 2015 (CET))

Sonderfall Modell = Mittelwert

Wenn mein Modell eine Konstante ist, lässt sich r nicht berechnen. ("Verläuft die Punktwolke beispielsweise exakt waagerecht (mittleres Bild), kann [...] gar kein Korrelationskoeffizient berechnet werden.", Artikel Korrelationskoeffizient, Bildunterschrift). R^2 lässt sich aber berechnen (und ist 0), Artikel Bestimmtheitsmaß. Demnach sollte r sich aus R^2 berechnen lassen... Wie kommt der Widerspruch zustande? --217.91.139.42 18:12, 20. Jul. 2017 (CEST)

zu "Beispiel", "Grenzen und Kritik"

  1. Warum berechnet man die Differenz zwischen Messwert (y) und Mittelwert (y Strich) und nicht vielmehr zwischen geschätztem Wert (y Dach) und Mittelwert (siehe: Weiß C. (2008), Basiswissen Medizinische Statistik, Heidelberg, S. 92)? Dies erschiene mir um einiges plausibler. Das Bestimmheitsmaß würde sich dann zu 0.9156 berechnen.
  2. "Das Bestimmtheitsmaß zeigt zwar die Qualität der linearen Approximation [...] Missverständnisse: [...] Ein hohes R2 gibt an, dass die geschätzte Regressionslinie eine gute Approximation an die Daten darstellt; die roten Daten legen auch hier etwas anderes nahe." Ist das nicht ein Widerspruch? --OnkelDagobert 00:05, 21. Dez. 2011 (CET)
zu 1.: Weil man in der Regel die Formel 1-... bevorzugt. Es ist sofort ersichtlich, dass kleiner als Eins ist.
zu 2.: Die Aussage, ein Ein hohes ... darstellt ist nur für lineare Zusammenhänge richtig, aber für nicht-lineare Zusammenhänge nicht notwendigerweise.
--Sigbert 09:59, 24. Dez. 2011 (CET)

Beispiel Breite / Länge

Dort heißt es: Die (geschätzte) Breite der Schiffe entspricht in etwa 1/6 der Länge. (Analog zu der genannten Formel). Aber: Keine der unten aufgeführten Breiten entspricht nur ansatzweise 1/6 der zugehörigen Schiffslänge. Verstehe ich das was falsch? --N.Disk 10:05, 24. Sep. 2014 (CEST)

Hallo N., du meinst die Formel 0,1612... x Länge - 8,6450...? Die sagt ja: ungefähr 1/6 und dann minus 8,6450. Geklärt? Zulu55 (Diskussion) Unwissen 13:34, 16. Okt. 2014 (CEST)

Nochmal zum korrigierten Bestimmtheitsmaß

Die Diskussion zu diesem Punkt ist seit 6 Jahren inaktiv, daher ein neuer Topic.
wird erklärt als "Anzahl der unabhängigen Variablen". Gemeint ist jedoch die "Anzahl der unabhängigen Modelparameter zusätzlich zum konstanten Term". Die Termini abhängige und unabhängige Variable sind am Beginn des Artikel schon vergeben für und . In meinem Umfeld (Physik an deutscher Uni) werden die Variablen des Models, die man anpassen will, Parameter genannt, ebenso im Artikel Lineare Regression. In der englischen Artikel zum Coefficient of determination heißen sie explanatory variables. Ich schlage vor, dass jemand, der den Artikel als Ganzes im Blick hat, die Bezeichnung von entsprechend ändert.
Die Zählweise von ist unklar, auch wenn in der alten Diskussion oben anders behauptet wird. Mit dem hier verwendeten Formalismus (der offenbar international weit verbreitet ist, mir aber bisher nicht geläufig war) ist z.B. bei der linearen Regression p = 1. (Test: Lineare Reg. mit beliebiger Statistiksoftware, z.B. mit n=9 Punkten. Dann ist ). Die Anzahl der unabhängigen Parameter bei der Linearen Regression ist aber 2. Die englische Fassung des Artikels ergänzt daher "(not including the constant term)". Diese Ergänzung füge ich jetzt der deutschen Fassung auch hinzu. Es wäre mir wesentlich sympatischer, wenn einfach die Anzahl aller unabhängigen Parameter wäre und die entfallen könnte, aber man kann sich nur schwer gegen die Mehrheit in der Welt stellen. (nicht signierter Beitrag von Mstoelzer (Diskussion | Beiträge) 17:19, 28. Nov. 2016 (CET))

@Mstoelzer: Hast recht. Man kann -1 auf jeden Fall weglassen, da die Matrix X bei obiger Notation die Dimension n-p hat.

Da es hier in der aktuellen Vergangenheit Änderungen gab: Die Definition des korrigierten Bestimmtheitsmaßes verwendet die Anzahl der Freiheitsgrade, am besten ist dies im englischsprachigen Wikipedia-Artikel erklärt. Ob dies (n-p) oder (n-p-1) ist, hängt einzig davon ab, ob die Konstante als "unabhängige Variable" mitgezählt wird oder eben nicht. Da aber der Artikel weiter oben (verwendet werden ) konform mit der gängigen Praxis in der Welt ist, die Konstante nicht als unabhängige Variable mitzuzählen, muss in der Definition zwingend die (n-p-1)-Notation verwendet werden. (nicht signierter Beitrag von 185.65.195.13 (Diskussion) 11:59, 23. Mär. 2017 (CET))

Das verwendete Modell ist aber im Artikel ziemlich gut versteckt. Ich habe das erst gar nicht gesehen und hätte nach der Einleitung vermutet, dass wie im Artikel Lineare Regression#Multiple lineare Regression die Gesamtzahl der zu schätzenden Parameter ist. -- HilberTraum (d, m) 12:53, 23. Mär. 2017 (CET)
Sicherlich steht das weiter oben im Artikel und nicht noch einmal bei der Definition des korrigierten Bestimmtheitsmaßes. Aus diesen Gründen ist der eingefügte Zusatz im Text 'ohne Konstante' eine sinnvolle Wiederholung, um hier keine Vermutungen notwendig zu machen (eine gute Erklärung sollte sich dadurch auszeichnen, dass gar keine Notwendigkeit für derartige Vermutungen besteht). Ferner ist es hier meiner Meinung nach gleichermaßen sinnvoll, konform mit der international üblichen Konvention mit expliziter -1 zu sein. Schließlich sorgt es andernfalls beim Anwender nur für unnötige Verwirrung, woraus sich letztendlich nur eine Fehleranfälligkeit ergibt. (nicht signierter Beitrag von 185.65.195.13 (Diskussion) 13:26, 23. Mär. 2017 (CET))

Bestimmung von Funktionstermen

Es wird festgelegt, dass in diesem Kapitel des Artikels nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) verfügbar sind. Das Einfügen von Funktionstermen erfolgt auf Basis der Analyse der Daten in der Abbildung, um einen konsistenten Artikel zu erzeugen. Die Erstellung der Abbildung erfolgte wahrscheinlich mit einer Tabellenkalkulation ohne den Funktionsterm anzugeben, der für die Generierung der Daten verwendet wurde.

Den Funktionsterm kann man sich mit mathematischen Grundkenntnissen selbst herleiten, bzw. diesen durch plotten der Datenpunkte verifizieren. Siehe Abschnitt "Grenzen und Kritik" für die beiden Abbildung f und g:

Habe für f mich selbst als Quelle angegeben und den Prozess der Herleitung des Funktionsterms dokumentiert (also aus der Abbildung). Reicht dieses als Quellennachweis, da hier kein Beispiel aus der Literatur verwendet wurde? --Bert Niehaus (Diskussion) 12:58, 16. Okt. 2017 (CEST)

Hi Bert Niehaus, ich denke dies reicht als Quellenangabe für die Abbildung. Es fehlen aber leider in diesem Abschnitt (und in anderen Abschnitten) zahlreiche weitere Referenzen. Grüße.--JonskiC (Diskussion) 23:33, 12. Dez. 2017 (CET)

Literaturstellen

Da steht, wurde von Rinne (2004) kritisiert. Es fehlt aber die Literaturstelle (so weit ich sehe). Auch bei Theil 1970 oder Anscombe 1973 wäre die Angabe der Originalliteratur gut.--Claude J (Diskussion) 17:11, 14. Mai 2018 (CEST)

Hallo Claude J. Ich habe mich bemüht die von dir kritisierten fehlenden Literaturstellen soweit nachzutragen. Beste Grüße.--Jonski (Diskussion) 18:56, 20. Mai 2018 (CEST)

Es sollte ein Lemma "R quadrat" geben, das hier her verlinkt

Es sollte ein Lemma "R quadrat" geben, das hier her verlinkt - viele Nicht-Statistiker wissen eher die Abkürzung als den Namen Bestimmtheitsmaß (siehe auch englische Wikipedia). Wäre nett wenn das jemand erledigen könnte! Gruß, Simon (Der vorstehende, nicht signierte Beitrag – siehe dazu Hilfe:Signatur – stammt von 84.56.136.101 (DiskussionBeiträge) 01:06, 2. Sep. 2006 (CEST))

R quadrat ist eine Falschschreibung, da Substantive im deutschen großgeschrieben werden. R-Quadrat ist richtig und reicht. Ich lasse R quadrat löschen. --Fomafix 13:02, 21. Jan. 2009 (CET)

Unklarheiten

Hi,

habe ein, zwei Unklarheiten beim Artikel.

"wobei die Summe der quadrierten Regressionswerte darstellt. Diese wird als die durch die Regression erklärte Variabilität interpretiert." Was wird hier als Regressionswert bezeichnet? Stellt SS_Reg nicht vielmehr die Summe der quadrierten Differenz der Regressionswerte und des Stichprobenmittels dar?


" stellt die Summe der quadrierten Beobachtungen (total sum of squares) dar. Diese wird als die totale Variabilität interpretiert."

ähnliches Problem - die Summe der quadrierten (r² = rein,raus) Beobachtungen wäre für mich und nicht

Was meint Ihr?

--Xxmchxx 20:34, 3. Feb. 2008 (CET)

Vollständige Überarbeitung

Hi, ich habe mal eine vollständige Überarbeitung eingestellt und versucht alle Kommentare zu berücksichtigen. Evtl. sollte der Einführungstext nochmal anders formuliert werden, damit es auch für die Oma verständlich ist. --Sigbert 15:18, 8. Dez. 2008 (CET)

Pseudo-bestimmtheitsmaß für Latente-Variablen-Modelle

Hi, das Mc-Kelvey-Zavoina-bestimmtheitsmaß könnte man der Vollständigkeit halber einfügen. Sixstringsdown 16:32, 27. Jan. 2009 (CET)

Residualvarianz

verweist als Redirect hierher. Der Begriff wird aber nicht explizit im Artikel erläutert und definiert. --source 13:05, 7. Feb. 2009 (CET)

Bild

Beispiele für Daten mit einem hohen (pink) und einem niedrigen (blau) Bestimmtheitsmaß bei einem zugrundegelegten linearen Modell

Das Bild illustriert meiner meinung nach recht wenig, weil nicht klar wird welches Modell denn zugrunde liegt, bzw. welche Regressionsgrade/kurve. --source 23:53, 8. Feb. 2009 (CET)

Beispiele

Ich als ehemaliger Schüler und nun als Student, würde ich mich sehr freuen wenn es auch immer wieder mal anschauliche Beispiele gäbe. Manchmal habe ich den Eindruck, wenn die Literatur hier für Wissenschaftler zu anspruchslos ist und für die einfachen Schüler und Studenten zu anspruchsvoll, wem hilfst dann?

Ich meine mich an Beispiele erinnern zu können bei einigen Themen, die ich aber nicht mehr genauer benennen kann. Das hat dann auch immer wahnsinnig geholfen und Lichts ins Dunkel gebracht. (nicht signierter Beitrag von 88.153.133.194 (Diskussion) 19:17, 20. Aug. 2010 (CEST))

Frage bezüglich Des Bestimmheitsmaßes

Bei dem Wert 1 bedeutet es, dass bei der Betrachtung des Streudiagramms alle Werte auf der bspw. Regressionsgeraden liegen. Wie sieht es beim Wert 0 aus? (nicht signierter Beitrag von 141.90.2.111 (Diskussion) 11:50, 30. Aug. 2006 (CEST))

Bei einem Wert von Null liegen die Messwerte des Streudiagramms überall verstreut und sie bilden nicht mal ansatzweise eine (Regressions-)Gerade.
Ich würde es andersherum formulieren: Die Regressionsgerade zeigt einen linearen Zusammenhang an. Bei einem R²-Wert von 1 werden die Messwerte vollständig (= zu 100%) durch die Regressionsgerade erklärt. Das heißt, es gibt einen perfekten linearen Zusammenhang zwischen den Messwerten und der Regressionsgeraden. Bei einem R²-Wert von 0 werden die Messwerte überhaupt nicht (= zu 0%) durch die Regressionsgerade erklärt. Das heißt, es gibt überhaupt keinen linearen Zusammenhang. Und bei einem R²-Wert von 0,8 werden die Messwerte zu 80% durch die Regressionsgerade erklärt.
Am Ende der folgenden Homepage gibt es eine schöne grafische Übersicht, was man sich unter verschiedenen R²-Werten vorstellen kann: https://www.inwt-statistics.de/blog-artikel-lesen/Bestimmtheitsmass_R2-Teil2.html
Umgangssprachlich könnte man eine Regressionsgerade vielleicht auch Trendgerade nennen. (nicht signierter Beitrag von Mustermannmax (Diskussion | Beiträge) 22:50, 13. Apr. 2017 (CEST))

Hallo, uns erreichte per mail (ticket 2012052510011105) der Hinweis, das die Verlinkung auf den englischen Artikel nicht korrekt ist : "...Summe der quadrierten Residuen (Residual Sum of Squares oder auch Sum of squared residuals (SSR) genannt)...

Dabei habe ich festgestellt, dass der englische Artikel korrekt ist, man aber sofern man in der Leiste links auf deutsch klickt zu einem Artikel weitergeleitet wird, der das Bestimmtheitsmaß beschreibt. Das Bestimmtheitsmaß R^2 ist aber nicht gleich dem SSR. Die Beziehung dieser beiden Variablen ist nämlich R^2=1-SSR/TSS. ..." Ich denke eine Prüfung des Interwikilinks durch die Autoren des Artikels wäre gut.

Groetjes --Neozoon (Diskussion) 01:51, 26. Mai 2012 (CEST)

Verständnis: Kritik: Verwendete Symbole werden nicht definiert.

Die Symbole vor Verwendung bitte definieren! Gerade im Fall von so ähnlichen Symbolen wie .(nicht signierter Beitrag von 178.6.111.192 (Diskussion) 19:19, 12. Dez. 2013 (CET))

Linearer Zusammenhang/Interpretation

Ich glaube nicht dass man sagen sollte das ein Bestimmtheitsmaß von 1 gleichzusetzen mit 100% linearen Zusammenhang ist. Ich bin der Meinung das dies eher zu einer Fehlinterpretation von r^2 führen kann. Zumal man sich immer Konstrukte bauen kann, bei denen man ein hohes r^2 ohne jeglichen linearen Zusammenhang erzeugen kann. Ggf. sollte man hier sauberer oder genauer darauf eingehen, dass das Regressionsmodell die Daten besser beschreiben kann bei hohen r^2. (nicht signierter Beitrag von 193.254.108.90 (Diskussion) 11:31, 27. Mai 2014 (CEST))