Diskussion:Ausreißer

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 1 Monat von 2A02:3100:3A68:E00:84FE:329E:61:D63C in Abschnitt Einleitung
Zur Navigation springen Zur Suche springen
Diese Diskussionsseite dient dazu, Verbesserungen am Artikel „Ausreißer“ zu besprechen. Persönliche Betrachtungen zum Thema gehören nicht hierher. Für allgemeine Wissensfragen gibt es die Auskunft.

Füge neue Diskussionsthemen unten an:

Klicke auf Abschnitt hinzufügen, um ein neues Diskussionsthema zu beginnen.
Auf dieser Seite werden Abschnitte ab Überschriftenebene 2 automatisch archiviert, die seit 7 Tagen mit dem Baustein {{Erledigt|1=--~~~~}} versehen sind. Das aktuelle Archiv befindet sich unter /Archiv.

Streichungsvorschlag

[Quelltext bearbeiten]

"z.B. der Quartilsabstand" sollte gestrichen werden. Wenn man den als Richtschnur sind, sind per definitionem die Hälfte aller Messwerte Ausreißer! --Johannes Hüsing 10:38, 15. Feb. 2008 (CET)Beantworten

Mittelwert und Median als quick'n'dirty-Lösung

[Quelltext bearbeiten]

Danke für den schönen Artikel! Bin auf der Suche nach Methoden zur Reduzierung von Messfehler - etwa bei Sensordaten - hier gelandet. Dabei ist mir aufgefallen, dass ganz einfache (vielleicht auch nicht ganz akademische) Verfahren fehlen. Eine Mittelwertberechnung z.B. oder robuster gegen Ausreißer, der Median bzw. Modus. Vielleicht wäre das als "hands-on-Lösung" noch eine Erwähnung wert. Beide Maße identifizieren zwar keine Ausreißer, beschränken den Einfluß von Ausreißern aber. (nicht signierter Beitrag von 77.8.117.51 (Diskussion) 02:21, 21. Dez. 2011 (CET)) Beantworten

Das setzt doch aber die Möglichkeit der Meßwiederholung voraus? --Sigbert 09:51, 24. Dez. 2011 (CET)Beantworten

Ozonloch?

[Quelltext bearbeiten]

"Beispiel: So wurde das Ozonloch über der Antarktis einige Jahre zwar bereits gemessen, die Messwerte aber als offensichtlich falsch gemessen bewertet und in ihrer Tragweite nicht erkannt."

Jahrelang systematisch falsch gemessene Werte sind wohl kaum als "Ausreisser" zu bezeichnen. --217.229.37.55 23:24, 7. Mär. 2009 (CET)Beantworten

Die Werte wurden nicht falsch gemessen, sondern es wurden robuste Verfahren in weiteren Analysen benutzt. Robuste Verfahren prüfen, ob gemessene Werte Ausreisser sein könnten. Falls ja, fliessen diese nur zum Teil oder gar nicht in die weiteren Analysen ein. --Sigbert 17:01, 2. Apr. 2009 (CEST)Beantworten

schlechte Beispiele (Bilder)

[Quelltext bearbeiten]

Spezialfälle (hier: Aussreisser nur am Ende) zur Erläuterung einer Sache im allgemeinen heranzuziehen ist didaktischer Unfug. Möchte das mal jemand verbessern? --Itu 17:43, 16. Jan. 2010 (CET)Beantworten

Ich hab es korrigiert. Ein auffälliger Wert am Ende einer Messreihe ist genau genommen gar kein Ausreißer, weil der gemessene Zusammenhang könnte ja eine extrem steil ansteigende Funktion (z. B. ) sein. Solange man keine Werte hinter dem vermeindlichen Ausreißer kennt, kann man gar nichts beurteilen. -- Indoor-Fanatiker 08:48, 3. Jun. 2011 (CEST)Beantworten
Ein paar Vorschläge zu dem neuen Bild: 1. Dateinamen korrigieren (Outliner?). 2. Regressionsgerade "mit Outlier" und "ohne Outlier" (oder auch: realer Trend) anzeigen. 3. Evtl. den Outlier nicht ganz so extrem, so dass das nicht ganz so trivial aussieht? --Chire 14:52, 3. Jun. 2011 (CEST)Beantworten
Danke für den Hinweis! Dass der Dateiname falsch ist, habe ich jetzt erst gesehen. Ich dachte wirklich, es hieße Outliner. Würde ja auch besser passen, weil der einzelne Punkt in der Tat "out of the line" liegt.
Ob ich zu den vorgeschlagenen Änderungen kommen, muss ich mal sehen, weil ich jetzt erstmal ins Bett gehe und für morgen habe ich bereits die Neuerstellung einer Kategorie geplant – also keine leichte Angelegenheit! Wenn ich nicht dazu kommen sollte, kannst du die Verbesserungen auch selbst machen und eine neue Datei hochladen. Aber sag mir vorher bescheid, nicht dass ich mir die Arbeit umsonst mache und dann vor vollendeten Tatsachen stehe. Gruß, --Indoor-Fanatiker 22:41, 3. Jun. 2011 (CEST)Beantworten
"Außerhalb der Linie" stimmt nur bei Outliern bezüglich einer Regressionsgeraden; es gibt aber viel komplexere Modelle, beispielsweise dichtebasierte Outlier: Local Outlier Factor. Zudem klingt "Outliner" so, als ob es etwas mit Outline zu tun hätte, dt. "Umriss". --Chire 18:34, 4. Jun. 2011 (CEST)Beantworten

Außreißer nach unten

[Quelltext bearbeiten]

Im Text heißt es: "Werte, die weiter als das 1,5-fache des Quartilabstandes außerhalb dieses Intervalls liegen, werden (meist willkürlich) als Ausreißer bezeichnet.[1]"

Mit liegen nun vor: 1. Mittelwert: 1607,3333 Fälle pro Jahr _ 2. Standardabweichung (n): 1.797,1912 _ 3. Standardabweichung (n-1): 1.877,1050 _ 4. Unteres Quartil: 569,5 _ 5. Oberes Quartil: 1.783 _ 6. Quartilsabstand: 1.213,5 _ 7. das 1,5-fache des Quartilabstandes außerhalb dieses Intervalls: 3603,25

Wie ermittle ich jetzt die Außreißer nach unten, die ebenfalls die Stichprobe verzerren? (nicht signierter Beitrag von 85.179.190.73 (Diskussion) 12:18, 25. Feb. 2015 (CET))Beantworten

Andrews und seine Kurven

[Quelltext bearbeiten]

Es muss im Deutschen entweder "Andrews' Kurven" oder "Andrews-Kurven" heißen. "Andrews Kurven" geht nicht. --Jazzman (Diskussion) 17:54, 26. Jun. 2015 (CEST)Beantworten

Einleitung

[Quelltext bearbeiten]

Eine Beobachtung aus einer Verteilung ist kein Ausreißer deswegen, weil diese aus den Verteilungsrändern kommt. Ausreißer sind Werte in einer Beobachtungsreihe, die nicht aus der Verteilung kommen, aus der die übrigen Beobachtungen entstammen, sondern z. B. durch Messfehler, durch Verschreiben, durch Übertragungsfehler oder Geräteausfall fälschlich in einen Datensatz geraten sind. Ausreißer können eventuell dadurch auffallen, dass ein extrem großer oder kleiner Wert vorliegt, der nicht zur Verteilung passt, welche die übrigen Daten beschreibt.
Ritualisiert einen Teil großer und kleiner Beobachtungen in einem Datensatz zu Ausreißern zu erklären, ist statistisch gesehen völliger Unsinn, auch wenn es in manchen Anwendungsbereichen üblich ist (z. B. bei kommerziellen Mietspiegel-Erstellern) und sogar in Lehrbüchern propagiert wird. Für diesen Zweck gibt es in der Statistik Ausreißertests.

Der Artikel transportiert diesen Unsinn leider teilweise in der Einleitung. Man sollte sich hier nicht auf einen 'Grundkurs Statistik für Sozialwissenschaftler' stützen, sondern auf statistische Fachliteratur. Dies ist ein Standardwerk zu Ausreißern in statistischen Daten:

  • Vic Barnett, Toby Lewis: Outliers in Statistical Data. 3. Auflage. Wiley, Chichester 1995 (584 Seiten).

Hier gibt es dazu eine Buchbesprechung.--Sigma^2 (Diskussion) 00:39, 12. Mär. 2023 (CET)Beantworten

Nachdem es inzwischen halbwegs richtig gestellt war, wurde am 7. Juli 2024 wieder der Unsinn von den Ausreißern als große oder kleine Werte in einer Beobachtungsreihe in die Einleitung geschrieben. Ich habe es revertiert und hoffe, dass die Diskussion gelesen wird.--Sigma^2 (Diskussion) 19:06, 8. Jul. 2024 (CEST)Beantworten
Hmm, aber stimmt es, dass "ein Messwert [...] aus einer [...] Zufallsgröße stammt"? So steht es seit dem Revert wieder da. Ich verstehe den Satz als Laie jedenfalls nicht und stimme dem "schlechter lesbar" des Bearbeitungskommentars vom 7. Juli 2024 insofern zu. --Biologos (Diskussion) 16:46, 30. Okt. 2024 (CET)Beantworten
Das liegt vielleicht auch an dem suboptimalen deutschen Begriff. Während das englische "Outlier" eben mit "außerhalb liegend" mehr die fehlende Passung zu den Mustern wiederspiegelt, legt das deutsche "Ausreißer" doch irgendwie eine extreme Beobachtung der Verteilung nahe. "Anomalien" ist vielleicht besser. (nicht signierter Beitrag von 2A02:3100:3A68:E00:84FE:329E:61:D63C (Diskussion) 19:41, 30. Okt. 2024 (CET))Beantworten

Boxplot

[Quelltext bearbeiten]

Ich halte die zweite Abbildung (Boxplot) für ungeeignet. In der Standardform des Boxplot sind die Whisker-Enden der kleinste und größter Wert der daten. Dann gibt es keine Werte außerhalb. So sind vermutlich auch die Boxplots in der dritten Abbildung konstruiert. Bei einer modifizierten Form der Whisker sollte diese angegeben werden. Werte außerhalb sind keine Ausreißer, sondern als Ausreißer verdächtige Werte. Sie könnten Ausreißer sein. Die Abbildung sollte modifiziert oder entfernt werden.--Sigma^2 (Diskussion) 23:32, 23. Okt. 2023 (CEST)Beantworten

Überprüfung auf Messfehler

[Quelltext bearbeiten]

Die Perspektive auf Messfehler ist zu eng. Das ist nur eine mögliche Ursache für Ausreißer in einem Datensatz.--Sigma^2 (Diskussion) 17:11, 24. Okt. 2023 (CEST)Beantworten