Diskussion:Clusteranalyse
Auf dieser Seite werden Abschnitte ab Überschriftenebene 2 automatisch archiviert, die seit 45 Tagen mit dem Baustein {{Erledigt|1=--~~~~}} versehen sind. Das aktuelle Archiv befindet sich unter Archiv. |
Bezug auf den Gesamtartikel
[Quelltext bearbeiten]Validierung der Analyseergebnisse - KORRIGIERT
[Quelltext bearbeiten]Meiner Meinung nach fehlt hier die Validierung der Analyseergebnisse. Eine solche ist meistens ja durchaus angebracht, nachdem v.a. bei den hierarchischen Verfahren die Entscheidung über die Anzahl der Cluster sehr subjektiv ausfällt. (nicht signierter Beitrag von 77.1.4.12 (Diskussion) 14:19, 24. Jul 2010 (CEST))
- Mal abgesehen davon, dass die Aussage falsch ist (die Anzahl der Cluster wird bei den hierarchischen Verfahren durch den Algorithmus selbst ermittelt), habe ich diesen Aspekt bei der Funktionsweise angesprochen, zumindest beschreibend (nicht erklärend). --Albing 21:04, 27. Sep. 2010 (CEST)
Zusammenhang/Integrität des Artikels (Flickenteppich) - KORRIGIERT
[Quelltext bearbeiten]Der Artikel ist total durcheinander und schwer verständlich. Nach 1 Stunde Korrektur hab ich keine Lust mehr, man müsste den ganzen Kram nochmal neu und aus einem Guss schreiben! -- Albing 23:29, 23. Sep. 2010 (CEST)
- Danke für dein Engagement. Ich denke um den Artikel lesbarer zu bekommen wäre es sinnvoll, ihn in mehrere Artikel zu zerlegen. Er ist momentan eine ziemlich trockene Auflistung von verschiedenen Verfahren, die allesamt besser in eigenen Artikeln beschrieben werden/würden. z.B. könnte man single-link/average-link/maximal-link auslagern. Auch die "Klassifizierung" der Algorithmen ist irgendwo beliebig, finde ich. Ist nicht "partitionierend" und "divisiv" (unter "hierarchisch") irgendwo das gleiche? Ich weiß dass gerne so Klassifiziert wird, aber es wäre vielleicht sinnvoller unabhängig zu unterscheiden nach:
- Clustermodell (z.B. Dichte-Verbunden bei DBSCAN, centroid-Modell von kmeans, Covarianzmatrix bei EM)
- Hierarchisch (z.B. ERiC, OPTICS) / Flach (z.B. DBSCAN)
- Algorithmisches Vorgehen: greeedy-sequentiell (z.B. DBSCAN, OPTICS) / agglomerativ (single-link) / divisiv / optimierend (z.B. k-Means, EM)
- Unsupervised / Supervised (wobei das ja eher ein Spezialfall ist)
- vielleicht wird das dann auch klarer. --Chire 00:34, 24. Sep. 2010 (CEST)
- > ihn in mehrere Artikel zu zerlegen
- Sofern man die ausgelagerten Elemente im Hauptartikel verständlich beschreibt sehe ich kein Problem darin. Der konkrete/detaillierte Algorithmus kann dann auch an anderer Stelle beschrieben werden. Irgendjemand muss sich die Mühe machen und die Referenzen einfügen.
- > Auch die "Klassifizierung" der Algorithmen ist irgendwo beliebig, finde ich
- Die Klassifizierung habe ich aus der wissenschaftlichen Literatur übernommen, und sie ist auch richtig und definitiv nicht gleich (auch wenn der unterschied hier nicht detailliert erklärt wurde). Um die inhaltliche Überarbeitung sollte sich aber sinnvoller Weise ein Mathematiker oder zumindest ein Akademiker aus dem Anwendungsbereich kümmern (BWL/VWL) der mathematischen Aspekte beherrscht. Ich befürworte zwar verständliche Beschreibungen, allerdings möchte ich ungern falsche/fehlende Fakten in diesem Artikel sehen (verursacht durch falsches Transferwissen), dazu hab ich zuviel Zeit reingesteckt ;) Dann lieber noch warten, bis jemand den Unterschied zw. der Kategorien genau erklären oder ergänzen kann. -- Albing 12:24, 24. Sep. 2010 (CEST)
- Dass das in der Literatur oft so Pi-mal-Daumen klassifiziert wird bedeutet nicht, dass es hilfreich ist. Und findest du da irgendwo eine Definition dieser Begriffe? OPTICS z.B. ist ein eng mit DBSCAN verwandtes (also graphentheoretisches) Verfahren, dass aber ein hierarchisches Ergebnis liefert. Also doch "Hierarchisch"?!? --Chire 11:59, 26. Sep. 2010 (CEST)
- Ja, die Begriffe werden durch Erklärungen in der Fachliteratur deutlich, von daher sollte sie auch beibehalten werden (sie wird zudem in wirklich jeder Fachliteratur verwendet, ich würde sie daher trotzdem stehen lassen und wenn sie tatsächlich unsinnig ist, begründet auf diesen Umstand hinweisen - was ich aber nicht glaube). Ich hatte noch keine Möglichkeit mich da intensiv genug einzuarbeiten. Mal gucken wann ich's nachholen kann, vielleicht ist ja jemand anderes schneller. (mit OPTICS habe ich mich noch nicht beschäftigt, kann daher zu diesem Punkt leider nichts sagen) PS. Hab grad gesehen, Du *bist* Mathematiker LOL, sorry, wollte mit meinem Beitrag oben nicht Deine fachliche Kompetenz angreifen! --Albing 14:52, 26. Sep. 2010 (CEST)
- Dass das in der Literatur oft so Pi-mal-Daumen klassifiziert wird bedeutet nicht, dass es hilfreich ist. Und findest du da irgendwo eine Definition dieser Begriffe? OPTICS z.B. ist ein eng mit DBSCAN verwandtes (also graphentheoretisches) Verfahren, dass aber ein hierarchisches Ergebnis liefert. Also doch "Hierarchisch"?!? --Chire 11:59, 26. Sep. 2010 (CEST)
- Nun hab ichs doch noch auf mich genommen... Artikel ist, wenn auch lang, endlich halbwegs zusammenhängend, falls es noch weiteren Nachholbedarf gibt, bitte konkret angeben (die Redundanz ist ja auch schon nochmal separat angesprochen und noch offen zur Erledigung). Ich werde sonst sicher noch die ein oder andere Sache überarbeiten. --Albing 21:09, 27. Sep. 2010 (CEST)
mögliche Fehler / Unterständliches / Fehlendes (in spezifischen Abschnitten im Artikel)
[Quelltext bearbeiten]Einleitung
[Quelltext bearbeiten]Einleitung wurde wieder auf einen alten fehlerhaften Stand zurückgesetzt. Siehe letzter Abschnitt: Durchgeführte Änderungen / Gelöschte Info (die vielleicht doch noch brauchbar sein könnten). --Albing 18:49, 25. Sep. 2010 (CEST)
- Ist jetzt zwar korrigiert, aber wirklich verständlich/Fehlerfrei finde ich sie jedoch nicht (Klassifizierung kann meiner Meinung nach sehr wohl zur Gewinnung von Klassen verwendet werden, und ob ich Clusternanalyse als Methode "aus dem Bereich des Datamining" beschreiben würde, weiss ich auch nicht. Würde eher mathematische Methode sagen) --Albing 19:06, 2. Okt. 2010 (CEST)
- Klassifikation ist Definiert als das Zuordnen neuer Objekte zu bekannten Klassen. Also etwas essentiell anderes, geradezu orthogonales Konzept! Was man aber gerne macht, ist eine Clusteranalyse verwenden um Klassen zu erhalten, anschließend mit diesen Klassen eine Klassifikation neuer Daten. Und Clusteranalyse ist geradezu eine Hauptdisziplin des en:Data mining! Viele der modernen Methoden haben auch kein wirklich mathematisches Modell mehr dahinter, das lässt sich nur bei k-Means, EM und ähnlichem noch erstellen, leider. --Chire 11:31, 3. Okt. 2010 (CEST)
- Wenn Du Dir sicher bist, dass Klassifikation nur eine Zuordnung von Objekten zu bekannten Klassen ist (meiner Meinung sagt der Artikel Klassifikation aber etwas andere aus), wie nennt man das Erstellen von Klassen, wenn man nicht die Methoden der Clusteranalyse verwendet?--Albing 16:26, 16. Okt. 2010 (CEST)
- Das die Clusteranalyse eine der Hauptmethoden beim Datamining ist will ich gar nicht bezweifeln, aber aus/in welcher wissenschaftlichen Disziplin wurde sie entwickelt?--Albing 16:26, 16. Okt. 2010 (CEST)
- Korrektur: "Klassifizierung" wird zumindest hier in Wikipedia auch für die 'händische' Klassenbildung entsprechend einer Fachsystematik; entspricht also nicht dem was man im Englischen als en:Classification (machine learning) bezeichnet. Wovon ich es abgrenzen will ist eben die Automatische Klassifizierung (der Artikel ist leider nicht gerade gut) bzw. Klassifikationsverfahren, da es ein 'erheblicher' Unterschied ist, ob man Vorwissen über die Klassen hat oder nicht (und sich das auch deutlich in den Methoden zeigt, so würde niemand eine Support Vector Machine als Clusteringalgorithmus bezeichnen, sondern als Klassifikator). In wie weit die historische Herkunft von "Clusteranalyse" als Begriff für uns nachvollziehbar ist kann ich nicht beurteilen - für die Einleitung ist eigentlich nur relevant, dass es eben zum Data Mining gehört. Historische Aspekte passen in den entsprechenden Absatz, der ist eh zu kurz. --Chire 16:30, 17. Okt. 2010 (CEST)
- Klassifikation ist Definiert als das Zuordnen neuer Objekte zu bekannten Klassen. Also etwas essentiell anderes, geradezu orthogonales Konzept! Was man aber gerne macht, ist eine Clusteranalyse verwenden um Klassen zu erhalten, anschließend mit diesen Klassen eine Klassifikation neuer Daten. Und Clusteranalyse ist geradezu eine Hauptdisziplin des en:Data mining! Viele der modernen Methoden haben auch kein wirklich mathematisches Modell mehr dahinter, das lässt sich nur bei k-Means, EM und ähnlichem noch erstellen, leider. --Chire 11:31, 3. Okt. 2010 (CEST)
Mathematische Beschreibung der agglomerativen Verfahren - KORRIGIERT
[Quelltext bearbeiten]Die Erklärung schein falsch zu sein / bzw. der Author scheint das Thema nicht verstanden zu haben. Beispielsweise ist das Single-Linkage-Verfahren nicht die "Küzeste"-Strecke zw. zwei Clustern sondern Verwendet die kleinste Variable aus dem Cluster zur Neuberechnung der Distanzmatrix. Entsprechend ist das complete linkage Verfahren etc. auch falsch! Möglich das sich die Mathematische Beschreibung aber auch auf etwas anderes Bezieht, daher lasse ich es im Artikel erstmal stehen und füge (sofern ich Zeit hab) die korrekte Beschreibung des Algorithmus im vorhergehenden Abschnitt ein. --Albing 16:46, 25. Sep. 2010 (CEST)
- Nein, was da steht ist schon korrekt. Evtl. verstehst du die mathematische Notation falsch? Der Abstand zweier Cluster ist hier durchaus definiert als das Minimum über allen paarweisen Abständen, wo ein Element aus dem einen, das andere aus dem anderen Cluster stammt. --Chire 11:02, 26. Sep. 2010 (CEST)
- Ja, Du hast recht, das operative Wort war "aus den beiden Cluster" (und nicht ausserhalb der Cluster). Ich werd das {{Bearbeiten}} folglich entfernen. --Albing 15:08, 26. Sep. 2010 (CEST)
Abschnitt Geschichte: "automatisches Berechnungsverfahren" - KORRIGIERT
[Quelltext bearbeiten]Im Abschnitt Geschichte (hier) wird vom automatischen Berechnungsverfahren gesprochen, ist damit ein formalisiertes Berechnungsverfahren gemeint, das automatisch ausgeführt werden kann? --Albing 11:48, 25. Sep. 2010 (CEST)
- Naja, es steht da, dass eben keines vorhanden war. Wenn ich dem Verweis Kladistik folge, komme ich zu anscheinend manuell erstellten Dendogrammen ("Kladogramm"). Die wurden vermutlich nicht berechnet, sondern von Domänenexperten manuell entworfen. In wie weit sich der "Geschichte"-Paragraph auf Clustering oder Dendrogramme bezieht kann ich nicht beurteilen. --Chire 13:44, 25. Sep. 2010 (CEST)
- dann werd ich's mal in formal/automatisch ändern. Bearbeitungs-Baustein wird entfernt. --Albing 15:13, 26. Sep. 2010 (CEST)
- Eine "formalität" würde ich ihnen mal nicht absprechen. Aber sie haben es halt von Hand gemacht, nicht automatisch. --Chire 21:19, 26. Sep. 2010 (CEST)
average linkage clustering
[Quelltext bearbeiten]Beim average linkage clustering passt das Bild nicht dazu. Bei Betrachtung des Bildes geht man davon aus, dass die Distanz zwischen zwei Clustern die Distanz zwischen dessen Mittelpunkten ist. Dies ist aber nicht der Fall. Beim average linkage wird der Durchschnitt zwischen allen Distanzen zwischen allen Objekten der beiden Cluster gebildet. Es gibt durchaus Fälle in denen es da einen Unterschied gibt. -- 141.52.46.250 11:20, 27. Mai 2011 (CEST)
average group linkage - KORRIGIERT
[Quelltext bearbeiten]Könnte es sein, dass der Normierungsfaktor 1/|C| falsch ist (hier) und eher 1/|C|^2 lauten müsste?
- Ich kenne zwar die "average group linkage" nicht, mathematisch gesehen ist das aber in der Tat so, dass man für den Mittelwert hier |C|^2 verwenden muss. Wobei x!=y noch ganz sinnvoll wäre, dann ändert sich der Faktor nochmals. Im Endeffekt spielt heutzutage aber wohl nur single-link eine ernstzunehmende Rolle, für den es wenigstens ein effizientes Verfahren gibt. Complete Linkage/Average Linkage kenne ich vor allem als "historisch". --Chire 13:49, 25. Sep. 2010 (CEST)
EM-Algorithmus - KORRIGIERT
[Quelltext bearbeiten]"Die Idee des EM-Algorithmus basiert auf dem Clustern nach k-means." Ich denke das ist nicht ganz richtig. Sowohl der einfache k-means, als auch der hier beschriebene Algorithmus basieren auf dem EM-Algorithmus. So verstehe ich auch die Aussage in "Neural Networks for Pattern Recognition; Christopher M. Bishop" (bei Google books "bishop em k-means" momentan erster Link). --Wumpus3000 01:32, 5. Dez. 2006 (CET)
- Historisch gesehen wird es anders rum sein. EM ist i.d.R. auf 1977 datiert, der Algorithmus k-Means auf 1956. Man muss hier aber unterscheiden zwischen "dem" EM-Algorithmus, und dem allgemeinen Expect-Maximize-Prinzip. k-means ist faktisch ein auf dem expect-maximize-Prinzip basierender Algorithmus. Diese Abstraktion hat man aber wohl erst später gefunden. "Der" EM-Algorithmus selbst ist auch nur eine inkarnation des Expect-Maximize-Prinzips, und zwar mit Gaussverteilungen als Modell (statt nearest-cluster-center). Man kann ihn sehr gut als "Weiterentwicklung" von k-Means auf ein komplexeres Modell verstehen. --Chire 13:38, 25. Sep. 2010 (CEST)
EM-Algorithmus - Satzkorrektur zu Iteration
[Quelltext bearbeiten]siehe EM-Algorithmus
"Die Iteration wird abgebrochen, wenn entweder die Änderung der Likelihood der Daten gegeben die Clustern unter einen vorgegebenen Schwellenwert sinkt, oder die ebenfalls vorgegebene maximale Anzahl von Iterationen erreicht ist."
Dieser Satz ist etwas entstellt. Ich würde ihn forlgendermaßen ändern:
"Die Iteration wird abgebrochen, wenn entweder die Änderungen der Zuordnungswahrscheinlichkeiten unter einen vorgegebenen Schwellenwert sinkt, oder die ebenfalls vorgegebene maximale Anzahl von Iterationen erreicht ist."
Da ich jedoch keine Clustering-Experte bin, bin ich nicht sicher, ob das so korrekt ist .. !? Masala 13:16, 2. Apr. 2008 (CEST)
Nach dem Hinweis auf die zwei Schritte heißt es:
Die Iteration wird abgebrochen, wenn entweder die Änderung der Likelihood der Daten gegeben die Clustern unter einen vorgegebenen Schwellenwert sinkt, oder die ebenfalls vorgegebene maximale Anzahl von Iterationen erreicht ist.
Was ist hier gemeint?
Hans Dunkelberg 18:20, 6. Nov. 2009 (CET)
Maximum Margin Clustering
[Quelltext bearbeiten]siehe Maximum_Margin_Clustering
Der Artikel sollte bitte überarbeitet werden. Wenn man nicht tief in der Materie ist, weiß niemand, was hier mit labeln gemeint sein soll. Doch dazu kenne ich mich gerade mit dem Verfahren zu wenig aus.
Fehlende Algorithmen:
[Quelltext bearbeiten]BIRCH-Algorithmus
[Quelltext bearbeiten]Der BIRCH-Algorithmus fehlt hier ("Balanced Iterative Reducing and Clustering using Hirarchies"). Vielleicht kann ja jemand was dazu schreiben? Der Artikel wirkt irgendwie zusammengewürfelt. Kann es sein, dass die Partitionierenden Clustering-Verfahren eigentlich auch zu den Hierarchischen Verfahren gehören? Zumindest werden dort auch teilende Verfahren benannt. --Lusile 10:43, 01. Apr. 2008 (MEZ).
dichtebasierte verfahren
[Quelltext bearbeiten]es gibt neben hierarchischen und partitionierenden noch dichtebasierte verfahren quelle zb: http://www.diplomarbeit.biz/diplomarbeiten.php/733 ok kostet was aber hab jetzt nicht genauer gesucht --Lusile 10:43, 01. Apr. 2008 (MEZ).
Unknown-k Algorithmus
[Quelltext bearbeiten]Es gibt noch einen Algorithmus (Unknown-k Algorithmus), der ohne die Vorgabe von als Anzahl der zu suchenden Cluster im auskommt. Der findet die Anzahl der Cluster und modelliert die Cluster als Hyperkugeln (also Kugelzentrum und Radius im . Außerdem kann man diesen als Voranalyse zur Bestimmung des für den k-means Algorithmus nutzen. Gibt es sowas schon bei den anderen hier beschriebenen Algorithmen (Wenn ja, sollte man das noch herausstellen). Falls nein und Interesse besteht, könnte ich dazu etwas schreiben und mit einer Literaturreferenz belegen. Meinungen? --Lusile 10:43, 01. Apr. 2008 (MEZ).
HDP
[Quelltext bearbeiten]Vielleicht könnte man auch was über nicht-parametrische Cluster Algorithmen wie Hierarchical Dirichlet Processes oder Latent Dirichlet Allocation schreiben? -- RichardSocher
MeanShift
[Quelltext bearbeiten]Ich finde der MeanShift Algorithmus sollte noch erklärt werden. In der englischen WP ist er ja auch da. (nicht signierter Beitrag von 131.173.115.186 (Diskussion) 14:09, 2. Feb. 2011 (CET))
Redundanz mit anderen Wikipediaartikeln
[Quelltext bearbeiten]K-means-Algorithmus
[Quelltext bearbeiten]EM-Algorithmus und sicher noch manch anderes hier hat eigene Wikipedia-Seiten. Ich denke wir sollten ihre Diskussion auf dieser Seite entfernen, und nur auf den jeweiligen Hauptartikel verweisen. Natürlich sind k-means und EM essentielle Algorithmen für das Verständnis von Clusteranalyse, aber muss man sie hier wirklich wiederholen? --Chire 12:07, 21. Mär. 2010 (CET)
GDBSCAN-Beschreibung
[Quelltext bearbeiten]Die GDBSCAN-Beschreibung beschreibt eigentlich DBSCAN. Der Algorithmus könnte eigentlich auch eine eigene Seite bekommen ... --Chire 12:37, 21. Mär. 2010 (CET)
Beispiel am Anfang falsch?
[Quelltext bearbeiten]Das Beispiel ist meiner Meinung nach ein Beispiel für die Interpretation einer Clusteranalyse und nicht für die Clusteranalyse selbst, sagt der Autor ja sogar selber. --Albing 15:33, 27. Sep. 2010 (CEST)
- Als "falsch" würde ich es nicht bezeichnen; auf jeden Fall nicht "falscher" als das Beispiel Jazz/Pop/usw. - das am einfachsten Verständliche Ziel einer Clusteranalyse ist es eben, derartig interpretierbare Cluster zu erhalten. Besser wäre aber ein Beispiel wo keine reinen Cluster herauskommen, evtl. eine Klasse in zwei "unintuitive" Cluster zerteilt wurde, dafür zwei andere Klassen nicht. Evtl. mal en:Iris_flower_data_set durch ein Clustering-Verfahren laufen lassen; der Datensatz sollte i.d.R. nur in in zwei Cluster zerfallen, obwohl es drei Klassen gibt. Aber ohne das Vorwissen der Labels kann man die lineare Trennung eben nicht finden.
- Jedenfalls gehört der Punkt "Interpretation" schon angesprochen, auch wenn er für die meisten Algorithmen leider keine Rolle spielt - für die Anwender um so mehr! Das Ziel einer Clusteranalyse ist eben all zu oft das Finden von "interpretierbaren" relevanten Gruppen. Dann kann man (wie in dem eingefügten Abschnitt) auch auf die Interpretationsprobleme eingehen. --Chire 15:50, 27. Sep. 2010 (CEST)
- da ich ja inzw. ein anderes Beispiel mit konkreten Daten (wenn auch fiktiv) eingefügt hab, habe ich den Absatz rausgenommen. Das die Cluster interpretiert werden müssen, steht ja inzwischen auch bei den Schritten der Clusteranalyse. --Albing 19:00, 2. Okt. 2010 (CEST)
- Sorry, ich finde dein Beispiel ist kein adäquater Ersatz. Es ist viel zu sehr auf ein konkretes Verfahren (in dem agglomerativ) bezogen, zu lang/ausführlich und m.E. zu sehr auf Marktsegmentierung bezogen. Ein kompaktes Beispiel dass erklären soll was man sich durch eine Clusteranalyse erhofft und wo die Probleme liegen (Erklärbarkeit) halte ich für wichtig. Ich habe gerade eine Idee, wie man das erste Beispiel da etwas modifizieren könnte. Mal sehen. --Chire 11:40, 3. Okt. 2010 (CEST)
- Das ist mir nicht ganz klar, wie soll man ein konkretes Beispiel für eine Clusteranalyse machen, ohne einen konkreten Algorithmus bzw. ein konkretes Szenario zu verwenden?--Albing 17:24, 16. Okt. 2010 (CEST)
- Die Clusteranalyse als das nehmen, was sie meistens ist: eine "Black Box", in die ich die Daten reinpacke und Gruppen (genannt "Cluster") herausbekomme. Konkrete Algorithmen werden in separaten Artikeln beschrieben, das ist das abstrakte Modell einer Clusteranalyse. --Chire 16:18, 17. Okt. 2010 (CEST)
- Das ist mir nicht ganz klar, wie soll man ein konkretes Beispiel für eine Clusteranalyse machen, ohne einen konkreten Algorithmus bzw. ein konkretes Szenario zu verwenden?--Albing 17:24, 16. Okt. 2010 (CEST)
- Sorry, ich finde dein Beispiel ist kein adäquater Ersatz. Es ist viel zu sehr auf ein konkretes Verfahren (in dem agglomerativ) bezogen, zu lang/ausführlich und m.E. zu sehr auf Marktsegmentierung bezogen. Ein kompaktes Beispiel dass erklären soll was man sich durch eine Clusteranalyse erhofft und wo die Probleme liegen (Erklärbarkeit) halte ich für wichtig. Ich habe gerade eine Idee, wie man das erste Beispiel da etwas modifizieren könnte. Mal sehen. --Chire 11:40, 3. Okt. 2010 (CEST)
- Ich habe ein Beispiel mit dem angesprochenen Datensatz erstellt. Mit diesen Startwerten hat k-Means trotz richtigem k prompt inkorrekte Cluster erzeugt. Vielleicht können wir das irgendwo einbauen? Das hier wäre ja sogar ein echtes Beispiel, kein synthetisches. --Chire 09:26, 7. Okt. 2010 (CEST)
- Das Beispiel sieht gut aus. Würde ich so beim k-Means Alg. zur Visualisierung verwenden. Man sollte aber Iris-Spezies erklären, sofern es im Artikel noch nicht erwähnt wird (Dein Link in der Bildbeschreibung, verweist nur auf eine Begriffsklärung)--Albing 17:24, 16. Okt. 2010 (CEST)
- Ich habe ein Beispiel mit dem angesprochenen Datensatz erstellt. Mit diesen Startwerten hat k-Means trotz richtigem k prompt inkorrekte Cluster erzeugt. Vielleicht können wir das irgendwo einbauen? Das hier wäre ja sogar ein echtes Beispiel, kein synthetisches. --Chire 09:26, 7. Okt. 2010 (CEST)
Fehler im Abschnitt Unterscheidung der Clusterverfahren?
[Quelltext bearbeiten]Im Abschnitt zur Unterscheidung der Clusterverfahren ist die Zuorndung von agglomerativ und divisiv bei den hierarchischen Verhafren meiner Meinung nach genau falsch herum. Dort heißt es, dass agglomerativ die gröbste und divisiv die feinste anfängliche Partition beschreiben. Aber es ist doch so, dass das agglomerative Verfahren jedes Objekt als ein Cluster sieht und dann CLuster zusammenfasst und divisiv mit einem großen Cluster anfängt und dieses dann immer weiter aufteilt. Müssten dann also in der Beschreibung die Wörter "grob" und "fein" nicht genau vertauscht werden? -- Ois cool 13:21, 12. Dez. 2011 (CET)
- Da hast du m.E. recht. --Chire 17:38, 12. Dez. 2011 (CET)
- Korrekt, habe es korrigiert. Bezog sich der Baustein nur darauf? --Sigbert 19:00, 12. Dez. 2011 (CET)
unvollständige Zusatzinformationen / unbegründete Behauptungen (wurden aus dem Artikel entfernt)
[Quelltext bearbeiten]Präsentierungsmöglichket
[Quelltext bearbeiten]Ein besonderer Vorteil der Clusteranalysen ist die gute visuelle Präsentierungsmöglichket.
Durchgeführte Änderungen / Gelöschte Info (die vielleicht doch noch brauchbar sein könnten)
[Quelltext bearbeiten]Einleitung - KORRIGIERT
[Quelltext bearbeiten]Bei der Einleitung fehlt mir ganz eindeutig die Abgrenzung zum Classification-Ansatz! Clusteranalyse ist konzeptionell etwas völlig anderes als Klassifikation.
Der Kommentar über Marketing gehört nicht in die Einleitung, das ist ein Anwendungsbeispiel. Außerdem ist "weil es visuell präsentiert werden kann" keine sinnvolle Aussage. Alles kann visuell präsentiert werden, in welcher Form auch immer.
Ich schlage folgende Sätze direkt im Anschluss an den ersten Absatz vor:
- Clusteranalyse dient der automatischen Aufteilung von Daten in gleichartige Gruppen. Im Unterschied zur Klassifikation wird jedoch kein Gruppierungsschema (Klassen) vorgegeben, stattdessen erfolgt die Gruppierung automatisch mittels eines Optimierungsschemas das von der konkreten Wahl des Clusteralgorithmus abhängt. Die Clusteranalyse ist somit ein objektiverer und abstrakterer Ansatz als Klassifikation und ist insbesondere dann sinnvoll, wenn ein neuer oder unbekannter Datensatz vorliegt.
Ich bitte um Meinungen.
Gruß, Benutzer:Rene.andrae, 10. März 2009, 21:11
:: Natürlich werden bei der Klassifikation in ein *vorhandenes* Schema keine neuen Klassen gebildet. Das Ziel der Clusteranalyse ist es, die Objekte in ein noch nicht vorhandenes Schema einzuordnen bzw. dieses Schema zu erstellen. Also konzeptionell nicht etwas völlig anderes sondern inkl. der Vorstufe der Klassenbildung! Den Kommentar habe ich entfernt. --Albing 17:20, 25. Sep. 2010 (CEST)
- In der Tat ist eine Abgrenzung zur Klassifikation sinnvoll. Jedoch ist es durchaus denkbar auf bestehenden Klassendaten mit Hilfe der agglomerativen Verfahren eine Hierarchie zu konstruieren. Außer der Verwendung von Klassen-Vorwissen hat es aber nicht viel mit Klassifikation zu tun. --Chire 10:59, 26. Sep. 2010 (CEST)
Selbstorganisierden Karten? - KORRIGIERT
[Quelltext bearbeiten]"Eine andere Möglichkeit unüberwachten Lernens bieten Self-Organizing Maps." <- Was soll das bedeuten? geht es hier um Lernverfahren? SOMs, als Verfahren die unüberwachtes Lernen praktizieren, können auch zur Klassifizierung und somit zum Clustering eingesetzt werden. - Aber was soll dieser seltsame Satz da????
- wahrscheinlich eine Einsatzmöglichkeit der SOMs, würde ich vermuten. Na, wer nimmt die Aufgabe auf sich und geht "googlen", um das genau rauszufinden? --Albing 13:55, 24. Sep. 2010 (CEST)
Nicht fuzzy - KORRIGIERT
[Quelltext bearbeiten]Im Text steht, dass es sich um eine "weiche" Zuordnung handelt. Also jedes Objekt allen Klassen mit einer gewissen W'keit zugeordnet ist. Handelt es sich dann nicht um Fuzzy Clustering Verfahren? 84.163.197.169 16:03, 4. Sep. 2008 (CEST)
- Richtig! --Albing 12:36, 24. Sep. 2010 (CEST)
Hard and soft clustering - KORRIGIERT =
[Quelltext bearbeiten]Ich habe in der Einleitung des Abschnitts "Algorithmen" einen Absatz über harte und weiche Algorithmen ergänzt. Ich habe das aufgrund meiner praktischen Erfahrung mit diesen Algorithmen geschrieben. Es sollte aber noch einmal jemand mit mehr theoretischem Hintergrundwissen drüber lesen.
Gruß, Benutzer:Rene.andrae, 28. Juli 2008, 17:08
Weblinks - KORRIGIERT
[Quelltext bearbeiten]ist Schrott - enthält alten C-Code, der nicht mehr richtig compiliert. Von den Büchern darf man sich die Cover angucken - toll.
- anschauliche Einführung in die graphentheoretische Clusteranalyse
http://www-users.rwth-aachen.de/Sven.Dieckert/wp-content/uploads/Clustering.pdf
ist eine bestenfalls sehr mäßige Ausarbeitung.
-> beides entfernt.
- Danke für's Aufräumen! -- Nichtich 23:50, 13. Jun 2006 (CEST)
Wenn Euch meine Ausarbeitung nicht gefällt, ok, bin ja kein Mathematiker. Wie wäre es dann aber mit der Originalquelle? Marco Gaertler - Clustering (eng.) Da sind dann auch Beweise dabei. Außerdem ist keine der Methoden im Artikel aufgeführt. --80.138.119.77 08:11, 14. Jun 2006 (CEST) Sven Dieckert
- Proseminar- und Seminararbeiten erreichen meist nicht den gewünschten Standard. Generell deswegen lieber weiterführende Quellen. "Originalquelle" ist sehr ausführlich. --chrislb 问题 10:46, 14. Jun 2006 (CEST)
Stimmt das? k-means-Algorithmus - KORRIGIERT
[Quelltext bearbeiten]"Der k-means-Algorithmus muss nicht notwendigerweise konvergieren." Der konvergiert doch immer, er liefert nur nicht notwendigerweise die optimale Lösung?
-- Mhm, wenn er in leere Cluster läuft, konvergiert er nicht mehr, sondern bricht ab - oder sehe ich das falsch?
-- Es kann wohl auch Faelle geben in denen er eine Reihe von moeglichen Loesungen zyklisch durchlaeuft. Dann konvergiert er nicht. Wie das Auftreten leerer Cluster behandelt wird ist Implementierungsabhaengig. Ausser abbrechen kommen z.B. auch noch das zuweisen (eines nach irgendeinem Verfahren ausgewaehlten) Objektes an den leeren Cluster oder das berechnen einer Loesung mit weniger Clustern in frage. Letzteres kann vorallem Sinnvoll sein wenn die tatsaechliche Anzahl der Cluster nicht bekannt ist.
-- Aus dem Paper "On the Worst-Case Complexity of the k-means Method" von Arthur und Vassilvitki geht eindeutig hervor, dass k-means a) keine Lösung mehrmals durchläuft und daurch b) garantiert terminiert.
-- Und das stimmt auch. K-Means terminiert garantiert, da durch das stetige Neuberechnen der "Centroides" grenzwertige Punkte nach Zuweisung "gesichert" werden!
- K-Means konvergiert, solange man ihn nicht zu doof implementiert (und wenn man das "verlieren" eines Clusters akzeptiert; das passiert aber normalerweise nur am Anfang). Nur die Begründung hier stimmt nicht. Durch das Neuberechnen des Centroides kann ein Cluster ja sehr wohl auch einen Punkt verlieren. Die Frage ist nur, ob die Lösung am Ende brauchbar ist, oder nicht ein Zwischenergebnis sogar besser gewesen wäre. k-Means hat ganz andere Probleme, er ist eigentlich nur für recht gutartige Daten brauchbar, man braucht eine gute Heuristik um k zu wählen und die initialen Clusterzentren. Unter diesen Voraussetzungen ist es aber meistens sinnvoller gleich DBSCAN oder OPTICS zu verwenden. Die sind nicht komplizierter, aber doch deutlich einfacher zu verwenden. Das attraktivste an k-Means ist, dass man daraus trivial einen extrem billigen Klassifikator bekommt. Nach DBSCAN/OPTICS müsste man erst zusätzlich einen Klassifikator trainieren (kann dann aber auch gleich einen etwas mächtigeren verwenden) --Chire 17:34, 8. Mai 2010 (CEST)
k-means und EM
[Quelltext bearbeiten]Dieses Bild habe ich eben beim EM-Algorithmus eingebaut, um Vorteile des EM gegenüber k-means zu erklären. Evtl. könnte man dies als Beispiel schon hier bringen, da m.E. k-Means hier etwas überrepräsentiert ist. In den k-Means-Artikel könnte es aber genauso rein... --Chire 17:48, 12. Okt. 2010 (CEST)
Klumpenverfahren
[Quelltext bearbeiten]Der eingedeutschte begriff ist Klumpenverfahren [hier]. --Harald321 (Diskussion) 17:15, 7. Aug. 2014 (CEST)
- Da geht es um Stichprobenziehung, siehe Klumpenstichprobe. Das ist ein anderes Thema. --Zulu55 (Diskussion) Unwissen 11:48, 10. Aug. 2014 (CEST)
Geschichte
[Quelltext bearbeiten]Danke für den revert. In https://en.wikipedia.org/wiki/Cluster_analysis sind die tatsächlichen Anfänge gut bequellt genannt. --Zulu55 (Diskussion) Unwissen 09:21, 4. Okt. 2014 (CEST)
Algorithmen/Verfahren
[Quelltext bearbeiten]Dieser Abschnitt sollte gestrafft werden. Da gibt es viel redundante und unnötige Information, die man auch in Einzelartikeln findet. --Sigbert (Diskussion) 20:31, 5. Okt. 2014 (CEST)
- Im großen und ganzen geb' ich dir recht. Gleichzeitig sollten halt die wichtigen Algorithmen dennoch nicht nur in einem Satz abgetan werden, und in der Praxis eher selten genutzte Verfahren (selbst maximum-margin scheint primär in der SVM-Forschungs-Community bekannt zu sein, aber gibt es irgend eine gängige Implementierung? selbst libSVM scheint das nicht zu enthalten!) dafür dann lang diskutiert werden. Da es aber natürlich viele, viele weitere Verfahren gibt, könnte ich mir vorstellen das einfach in einen eigenen Artikel "Algorithmen zur Clusteranalyse" auszulagern. --Chire (Diskussion) 23:33, 5. Okt. 2014 (CEST)
- Was sind denn "wichtige" Algorithmen? Ich traue mir nicht zu, das zu entscheiden. Deswegen würde ich es besser finden, wenn pro Algorithmus ein (sehr) kurzer Text mit der Idee steht und man dann auf die Einzelartikel verweist (als Überblick). Bei "wichtigen" Verfahren würde ich dann entsprechende lange Einzelartikel erwarten.
- Bei der Strukturierung der Algorithmen würde ich mich an dem Buch "Cluster Analysis and Data Mining: An Introduction" von King orientieren. --Sigbert (Diskussion) 11:57, 6. Okt. 2014 (CEST)
- Habe es mal überarbeitet, wie ich es mir vorstelle. Die noch fehlenden Verfahren will ich demnächst noch ergänzen; Antrag auf Auslagerung ist gestellt --Sigbert (Diskussion) 20:18, 9. Okt. 2014 (CEST)
- Das Buch kenne ich nicht, und auch den Autor habe ich noch nie gehört. (der hier? http://dblp.uni-trier.de/pers/hd/k/King:Ronald_S= ) Von der Bekanntheit des Autors her wäre "Charu C. Aggarwal, Chandan K. Reddy: Data Clustering: Algorithms and Applications. CRC Press 2014, ISBN 978-1-46-655821-2" vielleicht die bessere Wahl als ein aktuelles Buch? Sind wesentlich bekanntere Autoren, die an dem Buch beteiligt sind.
- Als Referenz ist auch das Buch "Guojun Gan, Chaoqun Ma, Jianhong Wu: Data Clustering: Theory, Algorithms, and Applications, ASA-SIAM Series on Statistics and Applied Probability, 2007, ISBN 9780898716238" eine gute Wahl, aber es artet bisweilen in ein Aufzählen von publizierten aber nie wirklich genutzten Algorithmen aus. --Chire (Diskussion) 13:08, 10. Okt. 2014 (CEST)
- Das Buch von King erscheint ja auch erst am 30.10.14. Ich habe das Buch inzwischen rausgenommen. Die Version, die ich hatte doch nicht so toll, wie es zuerst aussah. Vielleicht kann man es unter Literatur aufnehmen. --Sigbert (Diskussion) 17:09, 10. Okt. 2014 (CEST)