Diskussion:Logistische Regression/Archiv
Darstellung der Funktion
Kann jemand vielleicht die Skalierung der ersten Abbildung verändern. Da ja nur Werte zwischen 0 und 1 möglich sind, sollten auch in der Abbildung nur diese Werte dargestellt werden, könnte sonst etwas verwirrend sein.
- So besser? Die Marker -0.2 und 1.2 sind weg, ein wenig Sicherheitsabstand zu den Rändern ist dennoch da. (Die Marker hatte ich nur übernommen aus der schlecht aufgelösten alten PNG-Version) --Hagman 13:30, 27. Apr. 2007 (CEST)
- Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 18:46, 21. Aug. 2023 (CEST)
Lizenz
ElRakı fragte auf meiner Diskussionsseite nach: "Ich hoffe du hast für oben genannten Artikel eine Erlaubnis um ihn unter der GNU-FDL einstellen zu dürfen. Anstonsten muss er als URV gekennzeichnet werden. Kansnt du die Erlaubnis (falls du sie besitzt) auf der dortigen Diskussionsseite nachtragen? Und am Besten eine E-Mail-Adresse, die auf der dortigen HP zu finden ist, bei der man nachfragen kann, ob das korrekt ist."
- Ja, ich habe vorher per e-Mail bei Prof. Dr. Wolfgang Ludwig-Mayerhofer (ludwig-mayerhofer@soziologie.uni-siegen.de) nachgefragt. Zitat: "Dann machen Sie sich also an die Arbeit." Der Mailverkehr fand am 24.05.2005 statt. --Andre M. 02:14, 19. Dez 2005 (CET)
- Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 18:47, 21. Aug. 2023 (CEST)
Aufbau und Inhalt des Artikels
Ich habe die ursprüngliche Version mit Teilen aus meiner Dissertation ergänzt. Allerdings ist das Ergebnis etwas unübersichtlich. Ich wollte auch nicht zuviel vom ursprünglichen Text ändern/löschen.
Die Darstellung und die Gliederung sind daher noch verbesserungswürdig.
- Ja, verbessern sollte man den Artikel auf jedenfall, ich habe schon mal einen Anfang gemacht. Allerdings sollte man meiner Meinung nach erstmal einen Artikel zu Generalisierte lineare Modelle verfassen, von dem aus kann man nämlich meiner Meinung nach den Artikel zur logistischen Regression sehr viel effizienter und verständlicher gestalten, ich werde versuchen in nächster Zeit hierzu einen Artikel zu verfassen. --Pi666 13:35, 5. Aug 2006 (CEST)
- Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 18:56, 21. Aug. 2023 (CEST)
Löschung von wichtigen Textteilen
Der Beitrag ist in seiner jetzigen Form unbrauchbar!
Wichtige Abschnitten wurden gelöscht. Maßgebliche Literatur ist ebenfalls *nicht mehr* erwähnt.
Wer macht so einen Mist? Ich bin in der epidemiologischen Forschung tätig und arbeite routinemäßig mit logistischer Regression und finde das Murks (verkürzt, unvollstängig), was da steht.
- Archivierung dieses Abschnittes wurde gewünscht von --Sigma^2 (Diskussion) 18:57, 21. Aug. 2023 (CEST), Unsigniert. Kein Vorschlag zur Verbesserung des Artikels
Unverständlich
- Die Formel ist unverständlich bzw. entspricht nicht mathematischen Gepflogenheiten.
- Die Variablen G und k, die in der Bildunterschrift verwendet werden, werden im Text nicht erklärt.
- Der Ausdruck angegebenen Form darstellen lässt ist unklar: Was bedeutet das T?
--<|> Pygmalion <|> 20:53, 21. Jun. 2007 (CEST)
- 1.* Halte ich für verständlich, zumal und auch im Folgetext erklärt werden.
- 2.* Bezieht sich wohl auf die in Logistische Funktion genannte Funktion. In diesem Artikel könnte man den Zusatz "für den Fall G=1, k=1, f(0)=1/2" meiner Meinung nach auch weglassen. Oder eben zu Logistische Funktion verlinken.
- 3.* bezeichnet den transponierten Vektor . Muss meiner Meinung nach in diesem Artikel auch nicht weiter erklärt werden.
- 1.* und 3.* würden vielleicht verständlicher wenn statt geschrieben würde.
- Der Hinweis auf Unverständlichkeit kann meiner Meinung nach aber weg.Mfg Nils --87.78.82.121 20:18, 26. Jun. 2007 (CEST)
- Der Artikel ist wesentlich besser und verständlicher als andere statistische Beiträge im deutschen Wikipedia. Bitte weg mit dem Hinweis auf Unverständlichkeit! [Dieser Eintrag war nicht signiert, Sigma^2 (Diskussion) 00:02, 12. Jun. 2013 (CEST).]
- Es ist noch sehr viel Unverständliches in diesem Artikel. Z. B.:
- Warum sollte die Anzahl n der Beobachtungen genauso groß sein wie die Anzahl der Variablen? Wie soll dann irgendeine statistische Methodik funktionieren?
- Der Vektor ist als Zeilenvektor definiert, dann ist das Produkt entweder nicht definiert, wenn ein Spaltenvektor ist, oder es ist ein Matrix, wenn ein Zeilenvektor und damit ein Spaltenvektor ist. Beides ist nicht gemeint, sondern das Skalarprodukt.
- Was soll die Bedingung bei der Logit-Definition bedeuten?
- Es heißt , kurz danach . Es geht mir um den Index i an Y, der mal da ist, mal nicht.
- Wird in diesem Artikel ein Notation angestrebt, bei der Zufallsvariablen mit Großbuchstaben und deren Realisationen mit Kleinbuchstaben bezeichnet werden? Falls ja, ist schon der Einstieg mit und unverständlich; falls nein, was ist mit der Unterscheidung gemeint?
- Usw. Sigma^2 (Diskussion) 00:04, 12. Jun. 2013 (CEST)
- Es ist noch sehr viel Unverständliches in diesem Artikel. Z. B.:
- Archivierung dieses Abschnittes wurde gewünscht von --Sigma^2 (Diskussion) 21:23, 21. Aug. 2023 (CEST), Überholt durch Überarbeitung
Anwendungsvoraussetungen
Hallo, in dem genannten Abschnitt wird zuerst davon gesprochen, dass es eine "Reihe" von Anwendungsvoraussetzungen gibt und direkt danach wir nur eine einzige genannt, nämlich eine nicht zu hohe Multikollinearität. Was ist mit den anderen? --Jazzman 12:42, 13. Mai 2016 (CEST)
- Inhaltsleerer Satz gestrichen. Multikollinearität zur Schätzung verschoben.--Sigma^2 (Diskussion) 19:18, 21. Aug. 2023 (CEST)
- Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 19:18, 21. Aug. 2023 (CEST)
Anwendungsvoraussetzungen der linearen Regressionsanalyse
Im Artikel steht:
- Die Einflüsse auf diskrete Variablen können nicht mit dem Verfahren der klassischen linearen Regressionsanalyse untersucht werden, da wesentliche Anwendungsvoraussetzungen, insbesondere eine Normalverteilung der Residuen und Homoskedastizität, nicht gegeben sind.
Das ist zwar grundsätzlich richtig, aber irreführend, denn normalverteilte Störgrößen und Homoskedastizitität werden i. A. für die üblichen Verfahren (Kleinste-Quadrate etc.) schon seit langer Zeit gar nicht mehr angenommen. Das Problem liegt stattdessen darin, dass für den Fall eines Dummies als endogener Variable dessen Verteilung auf die Störgrößen ,,durschschlägt`` und deren Verteilung in einer Art und Weise festlegt, die mit der tatsächlichen Verteilung typischerweise nicht vereinbar ist --- selbst, wenn es sich bei dieser nicht um eine Normalverteilung handelt. 88.71.15.182 10:26, 7. Jan. 2020 (CET)
- Archivierung dieses Abschnittes wurde gewünscht von --Sigma^2 (Diskussion) 19:11, 21. Aug. 2023 (CEST), So nicht mehr im Artikel
Beta-Regression
Was soll das sein? Wer verwendet diesen Begriff und wofür?--Sigma^2 (Diskussion) 23:41, 1. Feb. 2023 (CET)
- @Sigma^2: Die Beta-Regression ist auf en:wiki beschrieben : https://en.wikipedia.org/wiki/Beta_regression biggerj1 (Diskussion) 12:07, 21. Aug. 2023 (CEST)
- In der Einleitung steht der Satz: "Alternativ zur logistischen Regression ist die Beta-Regression". Bei der logistischen Regression ist die erklärte Variable (y) eine diskrete Variable, die entweder den Wert 0 oder den Wert 1 annimmt. Bei der Beta-Regression, so wie sie hier en:Beta_regression beschrieben ist, ist die erklärte Variable eine stetige Variable, die Werte im Einheitsintervall (0,1) annimmt. Ich glaube nicht, dass es irgendwelche Datensätze gibt, wo diese Verfahren 'alternativ' verwendet werden können.--Sigma^2 (Diskussion) 12:39, 21. Aug. 2023 (CEST)
- Ich denke du hast Recht! Besten Dank für den Hinweis. Ich lösche den Verweis, dein Hinweis ist offensichtlich wahr, wenn man an die Likelihood-Funktion der logistischen Regression denkt :) Hier trotzdem noch ein Link, wann Beta-Regression benutzt werden kann: https://stats.stackexchange.com/questions/29038/regression-for-an-outcome-ratio-or-fraction-between-0-and-1 biggerj1 (Diskussion) 12:59, 21. Aug. 2023 (CEST)
- In der Einleitung steht der Satz: "Alternativ zur logistischen Regression ist die Beta-Regression". Bei der logistischen Regression ist die erklärte Variable (y) eine diskrete Variable, die entweder den Wert 0 oder den Wert 1 annimmt. Bei der Beta-Regression, so wie sie hier en:Beta_regression beschrieben ist, ist die erklärte Variable eine stetige Variable, die Werte im Einheitsintervall (0,1) annimmt. Ich glaube nicht, dass es irgendwelche Datensätze gibt, wo diese Verfahren 'alternativ' verwendet werden können.--Sigma^2 (Diskussion) 12:39, 21. Aug. 2023 (CEST)
- Archivierung dieses Abschnittes wurde gewünscht von: biggerj1 (Diskussion) 16:42, 21. Aug. 2023 (CEST)
die Definition der zugrundeliegenden Likelihood fehlt, vgl en:wiki
biggerj1 (Diskussion) 12:06, 21. Aug. 2023 (CEST)
- Danke @Sigma^2 :Archivierung dieses Abschnittes wurde gewünscht von: biggerj1 (Diskussion) 16:42, 21. Aug. 2023 (CEST)
Fehlerhaft
Der Artikel enthält mehrere Fehler. Der schwerwiegendste ist, dass die Formel für die Hosmer-Lemeshow-Statistik H falsch ist. Die richtige Formel für H enthält 2g Summanden. Sigma^2 (Diskussion) 19:50, 11. Jun. 2013 (CEST)
- Hab jetzt ein paar mal mit http://www.biostat.wisc.edu/~cook/642.tex/notes0412.pdf (ganz oben) verglichen und finde den Fehler nicht. Warum korrigierst Du die Formel nicht selbst? fossa net ?! 20:04, 11. Jun. 2013 (CEST)
- Auch wenn man mathematisch nicht geschult ist, sieht man, dass erstens der Summationsindex einmal bis 10 geht (in der Quelle) und einmal bis n geht (im Artikel) und dass zweitens die Nenner der Brüche völlig verschieden sind. An dieser Formel ist nicht einfach irgendetwas zu korrigieren. Es handelt sich im Artikel um eine falsch abgeschriebene Chiquadrat-Statistik, die nichts mit der HL-Statistik zu tun hat. Inzwischen ist diese falsche Formel für die HL-Statistik schon mehrfach im Internet zu finden, vermutlich von Wikipedia-Abschreibern. Der ganze Artikel ist statistisch-mathematisch sehr fehlerhaft, da alles viel komplexer ist. Im Artikel wird z. B. der Index i=1,...n verwendet für die Beobachtungen, die Variablen und für die Anzahl der Klassen der HL-Statistik. Das ist so daneben, dass es nur mit sehr großem Aufwand korrigiert werden kann. Das Minimum ist zu unterscheiden zwischen der Anzahl der Beobachtungen, der Anzahl der erklärenden Variablen und der Anzahl der Klassen. Das lässt sich nur mit drei verschiedenen Indizes verstehbar aufschreiben. Hier http://www.oliverkuss.de/science/publications/Kuss_Dissertation.pdf steht auf S. 25 Formel (45) eine richtige Formel für die HL-Statistik. Auf S. 12 Formel (7) findet sich eine Formel der Chiquadrat-Statistik, die im Artikel nachempfunden ist. Sigma^2 (Diskussion) 20:57, 11. Jun. 2013 (CEST)
- Mal aus dem Kopf zitiert, ich guck später nach, ob's falsch ist: Hosmer und Lemeshow diskutieren zunächst den allgemeinen Fall (1...n) und empfehlen danach n=10. Die Nenner der Brüche sind in der Tat verschieden, aber nach endlichen Umformungen (endlich=ca. 2) kommt das aufs Gleiche raus. Die Kuss-Dissertation schaue ich mir gleich mal an. fossa net ?! 21:02, 11. Jun. 2013 (CEST)
- Aus n Beobachtungen n Gruppen zu bilden ist sinnlos, denn dann gibt es keine vernünftige Asymptotik und keine asymptotische Chiquadratverteilung der Teststatistik. Deswegen wird bei HL eine endliche, fixierte Anzahl von Gruppen (z. B. g = 10) mit n \to \infty betrachtet. D. h. die Asymptotik erfolgt über die Anzahl der Beobachtungen, nicht über die Anzahl der Gruppen. Nach endlichen Umformungen (endlich = 2, einverstanden) kommt nicht etwa das Gleiche heraus, sondern nur etwas formal Ähnliches, wenn man n_gE_g = \pi_g setzt. Aber bei HL gibt es keine Wahrscheinlichkeit \pi_g, wie beim Chiquadrat-Test, sondern nur geschätzte (!) Zell-Wahrscheinlichkeiten \hat\pi_g, die nur asymptotisch (für n \to \infty) die Wahrscheinlichkeiten \pi_g approximieren. Zusätzlich sind die Klassengrenzen datenabhängig und damit zufällig. Die von mir zunächst reklamierte Tatsache, dass die HL-Statistik 2g Summanden hat, ist nicht der springende Punkt, da sich die HL-Statistik auch mit g Summanden darstellen lässt, vgl. Formel (2.11) in HL (1980). Noch einmal: solange nicht zwischen der Anzahl der Beobachtungen (z. B. n), der Anzahl der erklärenden Variablen (z. B. p, wie bei HL) und der Anzahl der Klassen (z. B. g, wie bei HL) unterschieden wird, bleibt es nebulös. Das ist HL im Original: Hosmer, David W. and Lemeshow, Stanley (1980) 'Goodness of fit tests for the multiple logistic regression model', Communications in Statistics - Theory and Methods, 9:10, 1043 - 1069. Sigma^2 (Diskussion) 23:26, 11. Jun. 2013 (CEST)
- Wie in vielen Statistikartikeln fühlen sich die ursprünglichen Autoren leider nicht angesprochen. --Sigma^2 (Diskussion) 19:26, 21. Aug. 2023 (CEST)
- Zunächst Anzahl der Klassen von n nach G geändert.--Sigma^2 (Diskussion) 19:34, 21. Aug. 2023 (CEST)
- Eigener Abschnitt für HL-Statistik, überarbeitet, mit Quellen versehen.--Sigma^2 (Diskussion) 12:56, 22. Aug. 2023 (CEST)
- Aus n Beobachtungen n Gruppen zu bilden ist sinnlos, denn dann gibt es keine vernünftige Asymptotik und keine asymptotische Chiquadratverteilung der Teststatistik. Deswegen wird bei HL eine endliche, fixierte Anzahl von Gruppen (z. B. g = 10) mit n \to \infty betrachtet. D. h. die Asymptotik erfolgt über die Anzahl der Beobachtungen, nicht über die Anzahl der Gruppen. Nach endlichen Umformungen (endlich = 2, einverstanden) kommt nicht etwa das Gleiche heraus, sondern nur etwas formal Ähnliches, wenn man n_gE_g = \pi_g setzt. Aber bei HL gibt es keine Wahrscheinlichkeit \pi_g, wie beim Chiquadrat-Test, sondern nur geschätzte (!) Zell-Wahrscheinlichkeiten \hat\pi_g, die nur asymptotisch (für n \to \infty) die Wahrscheinlichkeiten \pi_g approximieren. Zusätzlich sind die Klassengrenzen datenabhängig und damit zufällig. Die von mir zunächst reklamierte Tatsache, dass die HL-Statistik 2g Summanden hat, ist nicht der springende Punkt, da sich die HL-Statistik auch mit g Summanden darstellen lässt, vgl. Formel (2.11) in HL (1980). Noch einmal: solange nicht zwischen der Anzahl der Beobachtungen (z. B. n), der Anzahl der erklärenden Variablen (z. B. p, wie bei HL) und der Anzahl der Klassen (z. B. g, wie bei HL) unterschieden wird, bleibt es nebulös. Das ist HL im Original: Hosmer, David W. and Lemeshow, Stanley (1980) 'Goodness of fit tests for the multiple logistic regression model', Communications in Statistics - Theory and Methods, 9:10, 1043 - 1069. Sigma^2 (Diskussion) 23:26, 11. Jun. 2013 (CEST)
- Mal aus dem Kopf zitiert, ich guck später nach, ob's falsch ist: Hosmer und Lemeshow diskutieren zunächst den allgemeinen Fall (1...n) und empfehlen danach n=10. Die Nenner der Brüche sind in der Tat verschieden, aber nach endlichen Umformungen (endlich=ca. 2) kommt das aufs Gleiche raus. Die Kuss-Dissertation schaue ich mir gleich mal an. fossa net ?! 21:02, 11. Jun. 2013 (CEST)
- Auch wenn man mathematisch nicht geschult ist, sieht man, dass erstens der Summationsindex einmal bis 10 geht (in der Quelle) und einmal bis n geht (im Artikel) und dass zweitens die Nenner der Brüche völlig verschieden sind. An dieser Formel ist nicht einfach irgendetwas zu korrigieren. Es handelt sich im Artikel um eine falsch abgeschriebene Chiquadrat-Statistik, die nichts mit der HL-Statistik zu tun hat. Inzwischen ist diese falsche Formel für die HL-Statistik schon mehrfach im Internet zu finden, vermutlich von Wikipedia-Abschreibern. Der ganze Artikel ist statistisch-mathematisch sehr fehlerhaft, da alles viel komplexer ist. Im Artikel wird z. B. der Index i=1,...n verwendet für die Beobachtungen, die Variablen und für die Anzahl der Klassen der HL-Statistik. Das ist so daneben, dass es nur mit sehr großem Aufwand korrigiert werden kann. Das Minimum ist zu unterscheiden zwischen der Anzahl der Beobachtungen, der Anzahl der erklärenden Variablen und der Anzahl der Klassen. Das lässt sich nur mit drei verschiedenen Indizes verstehbar aufschreiben. Hier http://www.oliverkuss.de/science/publications/Kuss_Dissertation.pdf steht auf S. 25 Formel (45) eine richtige Formel für die HL-Statistik. Auf S. 12 Formel (7) findet sich eine Formel der Chiquadrat-Statistik, die im Artikel nachempfunden ist. Sigma^2 (Diskussion) 20:57, 11. Jun. 2013 (CEST)
Vielen Dank, mittlerweile ausgelagert :Archivierung dieses Abschnittes wurde gewünscht von: biggerj1 (Diskussion) 13:54, 30. Aug. 2023 (CEST)
Bildbeschreibung fehlt bei [[Bild:Logitkurve.jpg]]
Der Artikel enthält ein Bild, dem eine Bildbeschreibung fehlt, überprüfe bitte, ob es sinnvoll ist, diese zu ergänzen. Gerade für blinde Benutzer ist diese Information sehr wichtig. Wenn du dich auskennst, dann statte bitte das Bild mit einer aussagekräftigen Bildbeschreibung aus. Suche dazu nach der Textstelle [[Bild:Logitkurve.jpg]] und ergänze sie.
- Wenn du eine fehlende Bildbeschreibung ergänzen willst, kannst du im Zuge der Bearbeitung folgende Punkte prüfen:
- Namensraum Datei: Bilder sollte im Namensraum Datei liegen. Bitte ändere die alten Bezeichnungen
Bild:
undImage:
inDatei:
. - Skalierung: Außerhalb von Infoboxen sollten keine festen Bildbreiten (zum Beispiel 100px) verwendet werden. Für den Fließtext im Artikelnamensraum gibt es Thumbnails in Verbindung mit der automatischen Skalierung. Um ein Bild/eine Grafik in besonderen Fällen dennoch größer oder kleiner darzustellen, kann der „upright“-Parameter verwendet werden. Damit erfolgt eine prozentuale Skalierung, die sich an den Benutzereinstellungen orientiert. --SpBot 23:23, 1. Mär. 2009 (CET)
- Namensraum Datei: Bilder sollte im Namensraum Datei liegen. Bitte ändere die alten Bezeichnungen
- Archivierung dieses Abschnittes wurde gewünscht von --Sigma^2 (Diskussion) 10:55, 6. Okt. 2023 (CEST), Beschriftung ist erfolgt
Der Response?
Im Einleitungssatz: "...wobei Yi einen binären Response bezeichnet, das heißt, Yi nimmt nur die Werte 0 oder 1 an." Ist "Response" in diesem Kontext wirklich männlich? Der Response-Link führt zu Abhängige und unabhängige Variable, wo Response ebenfalls männlich ist, als Synonyme allerdings "interessierende Variable, endogene Variable oder Zielvariable" genannt werden. Könnte man nicht der besseren Verständlichkeit wegen "Response" in beiden Artikeln durch "die Zielvariable" ersetzen? "Der Response" verwirrt garantiert jeden Laien. Oder verändert das die Aussage? Viele Grüße, --Biologos 13:43, 11. Dez. 2009 (CET)
- Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 10:56, 6. Okt. 2023 (CEST)
Graphik entfernt
Ich habe die Graphik entfernt und hierhin kopiert, da sie nichts mit logistischer Regression zu tun hat. Bei der logistischen Regression gilt für . --Sigma^2 (Diskussion) 18:56, 29. Jan. 2024 (CET)
- +1 danke biggerj1 (Diskussion) 19:28, 29. Jan. 2024 (CET)
- Das Bild auf der englischen Wikipedia wäre passender. biggerj1 (Diskussion) 19:50, 29. Jan. 2024 (CET)
- Archivierung dieses Abschnittes wurde gewünscht von: biggerj1 (Diskussion) 20:30, 29. Jan. 2024 (CET) --biggerj1 (Diskussion) 20:30, 29. Jan. 2024 (CET)
- Das Bild auf der englischen Wikipedia wäre passender. biggerj1 (Diskussion) 19:50, 29. Jan. 2024 (CET)