Diskussion:Kolmogorow-Smirnow-Test

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 1 Jahr von Sigma^2 in Abschnitt Teilungsvorschlag
Zur Navigation springen Zur Suche springen
Zum Archiv
Wie wird ein Archiv angelegt?
Auf dieser Seite werden Abschnitte ab Überschriftenebene 2 automatisch archiviert, die seit 7 Tagen mit dem Baustein {{Erledigt|1=--~~~~}} versehen sind.

Kritische Werte

[Quelltext bearbeiten]

Hallo Leute - ich habe versucht eine Tabelle mit kritischen Werten für die Teststatistik Dn zu bekommen - so gut wie unmöglich - und wenn dann nur für zu kleine Stichprobenumfänge - hat jemand von euch eine? - könnte er die reinstellen? - Murmillo

Beispielsweise im Jochen Schwarze, Grundlagen der Statistik II. Gruß --Philipendula 23:38, 24. Mär 2005 (CET)


Hallo zu den kritischen Werten hab ich ne Fragen, sind die nicht abhängig von der Verteilung die man testet? Also unterschiedliche kritische Werte wenn man Normalverteilung testet oder Exponentialverteilung. Leider finde ich keinerlei kritische Werte für die Exponentialverteilung --Florsch 11:15, 17. Nov 2005 (CET)

Die kritischen Werte sind nicht verteilungsgebunden, siehe auch [1]. Gruß --Philipendula 13:21, 17. Nov 2005 (CET)


Ich habe auch eine Frage zu den Werten: Kann mir jemand erklären, warum bei einem kleineren Konfidenzintervall - es ist also wahrscheinlicher, dass die untersuchten Verteilungen gleich sind - eine größere Differenz der Punkte erlaubt ist? Danke! --oasis 05:02, 14. Aug 2006 (CEST)


Ach ja, noch eine Frage: Die Berechnung mit S(x-1) habe ich so nirgendwo anders gefunden... Welchen Sinn hat es, ein nicht zusammengehörendes Wetepaar miteinander zu vergleichen? Oder sehe ich hier schon wieder was falsch? Danke nochmal! --oasis 05:07, 14. Aug 2006 (CEST)


Für diskrete Verteilungen ergibt die Berechnung mit doch gar keinen Sinn. Wenn ich die Dirac-Verteilung nehme, dann erhalte ich ja immer durch eine Differenz von 1, zumindest wenn ich mich an dem Zahlenbeispiel orientiere und offenbar setzen muss. Dann würde ich ja immer die Hypothese ablehnen. Hab ich was übersehen? Mich würde sowieso interessieren , wieso man die Berechnung mit einbezieht. (nicht signierter Beitrag von Wotan.Odin (Diskussion | Beiträge) 15:35, 27. Nov. 2012 (CET))Beantworten

Aber bei stetigem sollte es schon so stimmen. Setzt man im Allgemeinen für einen Kolmogorov-Smirnow-Test nicht sowieso eine stetige Verteilung voraus? -- HilberTraum (Diskussion) 21:05, 27. Nov. 2012 (CET)Beantworten
In den Eigenschaften wird aber gesagt, dass dieser auch bei diskreten Verteilungen anwendbar ist. Dies wäre meiner Meinung nach auch korrekt, wenn man weglässt. Dies dürfte man aus der Dvoretzky–Kiefer–Wolfowitz Ungleichung schlussfolgern können. (nicht signierter Beitrag von Wotan.Odin (Diskussion | Beiträge) 21:14, 27. Nov. 2012 (CET))Beantworten
Im stetigen Fall braucht man aber die schon, sonst stimmt's nicht, wie ja auch das ausgeführte Rechenbeispiel zeigt. Im diskreten Fall müsste man zusätzlich zu denn Stellen wohl auch noch die Unstetigkeitsstellen von prüfen, denn dort könnte doch das Maximum ebenfalls auftreten. -- HilberTraum (Diskussion) 21:22, 27. Nov. 2012 (CET)Beantworten
Aber nach der Dvoretzky–Kiefer–Wolfowitz Ungleichung sieht man ja, dass die empirische Verteilung gegen die "richtige" Verteilung in Wahrscheinlihckeit gleichmäßig konvergiert. Und dafür brauche ich keine Stetigkeit und auch nicht . (nicht signierter Beitrag von Wotan.Odin (Diskussion | Beiträge) 21:29, 27. Nov. 2012 (CET))Beantworten
Aber die Konvergenz bringt doch nichts für den Test. Da geht es doch um die Abweichung zwischen den beiden Funktionen bei festem endlichen n (also dem Stichprobenumfang, z.B. n=8, wie im Beispiel). -- HilberTraum (Diskussion) 21:38, 27. Nov. 2012 (CET)Beantworten
Mithilfe der Ungleichung kann ich ja das berechnen. Bei dem Test möchte ich ja sagen können, dass wenn die Verteilungsannahme richtig ist, dass nach n Beobachtungen die Empirische Verteilungsfunktion mit einer Wahrscheinlichkeit von nicht mehr als abweicht. Sonst lehne ich die Hypothese ab. Und genau das sagt die Ungleichung ja aus. Wenn man sich den Wikipediaartikel von der Ungleichung anschaut, entspricht genau dem . (nicht signierter Beitrag von Wotan.Odin (Diskussion | Beiträge) 21:47, 27. Nov. 2012 (CET))Beantworten
Ja, für den kritischen Wert stimmt das ja, aber in dem Textabschnitt geht es doch um die Berechnung der Teststatistik , die mit verglichen wird. Ich habe jetzt übrigens mal in der Statistik-Software R (Programmiersprache) geschaut: Dort wird z.B. für den KS-Test vorausgesetzt, dass die zu prüfende Verteilung stetig ist. -- HilberTraum (Diskussion) 22:08, 27. Nov. 2012 (CET)Beantworten
Vllt sollte man die Bemerkung ändern, dass dies auch für diskrete Verteilungen korrekt ist. (nicht signierter Beitrag von Wotan.Odin (Diskussion | Beiträge) 22:11, 27. Nov. 2012 (CET))Beantworten
Hab mal einen Satz dazu geschrieben. Für den diskreten Fall müsste man mal in die Literatur schauen, was das genau gemacht wird. -- HilberTraum (Diskussion) 22:23, 27. Nov. 2012 (CET)Beantworten
Dieses Nachschauen ist wohl nicht passiert. --Sigma^2 (Diskussion) 12:04, 26. Jul. 2023 (CEST)Beantworten
Hier wird eine wichtiges Problem (Voraussetzung einer stetigen Verteilungsfunktion) angesprochen, aber dann nicht weiterverfolgt. --Sigma^2 (Diskussion) 12:03, 26. Jul. 2023 (CEST)Beantworten

Hallo, der angegebene Werte für für ist nach Sachs. L.: "Angewandte Statistik. Methodensammlung mit R", Springer 2009 nicht sondern . Außerdem wird die Berechnungsformel ab , wie auch in der verlinkten Tabelle angegeben, verwendet.--Rufus Fledermaus (Diskussion) 14:59, 29. Jul. 2014 (CEST)Beantworten

Das stimmt, ich habe die Werte jetzt mal an die Quelle Sachs angepasst. Danke! -- HilberTraumd, m21:02, 29. Jul. 2014 (CEST)Beantworten
Wenn mann allerdings die Formel zur Berechnung benutzt, war wohl eher der korrekte Wert und im Sachs ein Zahlendreher.--141.30.157.154 15:20, 31. Jul. 2014 (CEST)Beantworten
Das ist ja fies … ich habe jetzt mal auf 1,073 geändert, aber ich werde dazu morgen auch nochmal die Literatur checken. Danke nochmal für dein Engagement. -- HilberTraumd, m20:18, 31. Jul. 2014 (CEST)Beantworten

Offengeblieben ist die Problematik der Anwendung bei einer Verteilungsfunktion mit Sprungstellen.--Sigma^2 (Diskussion) 12:08, 26. Jul. 2023 (CEST)Beantworten

Zahlenbeispiel

[Quelltext bearbeiten]

Beim kurzen Überfliegen fand ich die Tabelle im Zahlenbeispiel sehr verwirrend. Mir erscheinen die meisten der Werte in der fünften Spalte falsch.

Hier die Tabelle mit den Werten meiner Rechnung in der 6. Spalte:

i xi S(xi) Fo(xi) S(xi)-Fo(xi)   
1 9,41 0,125 0,044 0,080 0,081
2 9,92 0,250 0,103 -0,147 0,147
3 11,55 0,375 0,546 0,172 0,171
4 11,60 0,500 0,563 0,064 0,063
5 11,73 0,625 0,606 -0,018 0,019
6 12,00 0,750 0,691 -0,059 0,059
7 12,06 0,875 0,708 -0,166 0,167
8 13,02 1,000 0,914 -0,086 0,086

Es scheint kein gravierender Fehler zu sein, da ja letztendlich die absolut-Werte benutzt werden und Abweichungen in der letzten Stelle sind vermutlich einfach Rundungsfehler. Es verwirrt beim ersten Lesen und Überfliegen jedoch ganz gewaltig. -- Harald 217.13.79.130 15:15, 6. Feb 2006 (CET)

Das Problem ist, dass irgendjemand in dem Artikel mehrfach rumgepfuscht hat. Ich stelle mal "meine" Version wieder her und hoffe, alle später erfolgten Ergänzungen einpflegen zu können. --Philipendula 23:22, 6. Feb 2006 (CET)
Bitte das Zahlenbeispiel so belassen. Es ist ein Test, bei dem die Parameter der Verteilung gegeben sind und nicht geschätzt werden. --Philipendula 23:46, 6. Feb 2006 (CET)


Welchen Wert soll denn x0 haben? Sonst wäre ein Eintrag in der Tabelle nicht definiert. (nicht signierter Beitrag von Wotan.Odin (Diskussion | Beiträge) 15:15, 26. Nov. 2012 (CET))Beantworten

Wieso schauen sich die Autoren nicht die Diskussion an? Im aktuellen Zahlenbeispiel wird immer noch (seit über 10 Jahren) auf einen nicht erklärten Wert für Bezug genommen. --Sigma^2 (Diskussion) 12:15, 26. Jul. 2023 (CEST)Beantworten

Sup

[Quelltext bearbeiten]

Warum die Bedeutung von sup erwähnt und nicht von und |. Usw. Nijdam 15:53, 31. Dez. 2009 (CET)Beantworten

Hallo, weil und | in der Regel für die meisten, die sich für den K-S-Test interessieren, aus der Schulmathematik bekannt sind, während "sup" keinem meiner "Testleser" geläufig war. Ich erkläre "sup" ja auch nicht, sondern gebe nur eine Hilfe für weitere Recherchen, falls der Operator nicht geläufig ist. Ich fände es aber auch nicht gänzlich verkehrt, wenn und | in einem kurzen Nebensatz namentlich genannt und auf die entsprechenden Wikipedia-Artikel verlinkt würde. Grüße, -- MM-Stat 23:22, 1. Jan. 2010 (CET)Beantworten
als Norm auf einem Funktionenraum ist aus der Schulmathematik bekannt? Das ist doch wohl ein Märchen. Die Statistik auf zwei Arten aufzuschreiben ist völlig überflüssig. Wenn sich keiner wehrt, werde ich es entfernen und vielleicht eine Anmerkung zur Supremums-Norm ergänzen.--Sigma^2 (Diskussion) 14:03, 26. Jul. 2023 (CEST)Beantworten
Wie soll den jemand die Supremumsnorm kennen, der nicht weiß, was ein Supremum ist? --Sigma^2 (Diskussion) 15:40, 27. Jul. 2023 (CEST)Beantworten

Ziel

[Quelltext bearbeiten]

Was im Artikel geschrieben ist:

Mit seiner Hilfe kann anhand von Zufallsstichproben geprüft werden, ob

  • zwei Zufallsvariablen die gleiche Verteilung besitzen oder
  • eine Zufallsvariable einer zuvor angenommenen Wahrscheinlichkeitsverteilung folgt.

stimmt nicht, nur die alternative Hypothese kann statistisch geprüft werden. Ich schlage also etwas vor wie:

Mit seiner Hilfe kann anhand von Zufallsstichproben geprüft werden, ob

  • die Verteilungen zweier Zufallsvariablen sich unterscheiden
  • die Verteilung einer Zufallsvariable abweichend ist von einer zuvor angenommenen Wahrscheinlichkeitsverteilung.

Nijdam (Diskussion) 00:02, 26. Nov. 2012 (CET)Beantworten

Nun, es kann geprüft und falsifiziert, aber nicht verifiziert werden. Ist aber richtig, dass die Beschreibung leicht in die Irre führen kann. Deine hat allerdings das gleiche Problem - es kann geprüft werden ob sie sich unterschieden, aber das Testergebnis kann nur sein "ja, unterscheiden sich" oder "kann nicht festgestellt werden". Vielleicht etwas in Richtung "kann eine Abweichung zwischen [...] ermittelt werden"? --mfb (Diskussion) 00:18, 26. Nov. 2012 (CET)Beantworten

Vielleicht mit Hinzufuegung von 'statistisch':

Mit seiner Hilfe kann anhand von Zufallsstichproben statistisch geprüft werden, ob

  • die Verteilungen zweier Zufallsvariablen sich unterscheiden
  • die Verteilung einer Zufallsvariable abweichend ist von einer zuvor angenommenen Wahrscheinlichkeitsverteilung.

Nijdam (Diskussion) 14:29, 29. Nov. 2012 (CET)Beantworten

Vorgehensweise

[Quelltext bearbeiten]

Warum müssen die Daten sortiert sein!? Nijdam (Diskussion) 14:26, 29. Nov. 2012 (CET)Beantworten

Sonst funktioniert das mit doch nicht. Dazu müssen und unmittelbar aufeinanderfolgen. -- HilberTraum (Diskussion) 15:56, 29. Nov. 2012 (CET)Beantworten

Warnung

[Quelltext bearbeiten]

Der Artikel ist fehlerhaft und enthält WP:TF. Er nennt wichtige Voraussetzungen für die Anwendung des Tests nicht. Er enthält die unbelegte und falsche Aussage: „Die Teststatistik ist unabhängig von der hypothetischen Verteilung .“ Verteilungsfreiheit der Teststatistik gilt nur 1. für stetige Verteilungsfunktionen und 2. bei Richtigkeit der Nullhypothese. Gemeint sein kann außerdem nur „Die Verteilung der Teststatistik [...]“--Sigma^2 (Diskussion) 11:24, 26. Jul. 2023 (CEST)Beantworten

Ich habe den Artikel stark überarbeitet, damit klar wird, dass die Verteilungsfreiheit und die angegebenen Tabellenwerte auf der Annahme einerstetigen Verteilungsfunktion beruhen. Die Testdurchführung für beliebige Verteilungsfunktionen müsste noch erläutert werden. Zielrichtung: konservativer Test bei Verwendung der Tabellen für stetige Verteilung oder numerische Bestimmung der exakten Verteilung der Teststatistik.--Sigma^2 (Diskussion) 09:12, 28. Jul. 2023 (CEST)Beantworten

Teilungsvorschlag

[Quelltext bearbeiten]

Momentan werden im Artikel zwei verschiedene Test behandelt.

  • Der erste Test vergleicht Daten mit einer hypothetischen Verteilungsfunktion. Dieser Test heißt Kolmogorow-Test[1] oder Kolmogorow-Smirnow-Anpassungstest[2] , wird manchmal aber einfach als Kolmogorow-Smirnow-Test bezeichnet,
  • Der zweite vergleicht die Verteilungen zweier unabhängiger Stichproben und ist der eigentliche Kolmogorow-Smirnow-Test[3]. Er heißt auch Kolmogorow-Smirnow-Homogenitätstest oder Kolmogorow-Smirnow-Zweistichprobentest.[4]

Ich schlage vor, den ersten Test in einen Artikel mit dem Namen Kolmogorow-Test (zusätzlich eine WL von Kolmogorow-Smirnow-Anpassungstest auf Kolmogorow-Test) zu behandeln und im verbliebenen Artikel nur den eigentlichen Kolmogorow-Smirnow-Test zu behandeln.

  1. P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Kolmogorow-Test, S. 187–188.
  2. Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, 3.4.5.2 Kolmogorov-Smirnov-Anpassungstest, S. 577–579.
  3. P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Kolmogorow-Smirnow-Test, S. 185–186.
  4. Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, 3.4.4.2 Kolmogorov-Smirnov-Homogenitätstest, S. 573–575.

--Sigma^2 (Diskussion) 09:42, 28. Jul. 2023 (CEST)Beantworten