Schwertlilien-Datensatz
Der Schwertlilien-Datensatz (engl. Iris flower data set) ist ein multivariater Datensatz, welcher vom britischen Statistiker und Biologen Ronald Fisher erstellt wurde.[1] Der Datensatz wird auch Anderson's Iris data set genannt, da der amerikanische Botaniker Edgar Anderson die Daten sammelte, um die morphologischen Abweichungen von Schwertlilien (Gattung Iris) dreier miteinander verwandter Spezies zu quantifizieren.[2] Zwei der drei Arten wurden in der Gaspésie, „alle von der gleichen Weide, am selben Tag“ gesammelt und „zum gleichen Zeitpunkt, von der gleichen Person, mit dem gleichen Apparat gemessen“.[3]
Der Datensatz besteht aus je 50 Proben von jeder der drei Schwertlilienarten (Iris setosa, Iris virginica und Iris versicolor). Bei jeder der Proben wurden vier Merkmale gemessen: Die Länge und Breite von Kelchblatt und Kronblatt in Zentimetern. Anhand dieser vier Merkmale entwickelte Fisher ein lineares Modell, um die Arten voneinander zu unterscheiden. Fishers wissenschaftliche Abhandlung hierzu wurde in der wissenschaftlichen Fachzeitschrift Annals of Eugenics (heute Annals of Human Genetics) veröffentlicht.
Nutzung des Datensatzes
[Bearbeiten | Quelltext bearbeiten]Der ursprüngliche Zweck der Werte war es, als Beispieldatensatz für Diskriminanzanalyse zu dienen. Mit der Zeit wurden sie aber immer mehr als Testdatensatz für verschiedene statistische Klassifikationsverfahren, zum Beispiel mittels Support Vector Machine, und für maschinelles Lernen verwendet.[4]
In der Cluster-Analyse wird der Datensatz allerdings relativ selten verwendet, da die Daten nur zwei Cluster enthalten, welche klar getrennt liegen. Einer der beiden Cluster enthält die Messungen der Borsten-Schwertlilie und der andere sowohl die Messungen der Virginischen Schwertlilie als auch die der Verschiedenfarbigen Schwertlilie, welche anhand der gemessenen Eigenschaften nicht auseinandergehalten werden können. Aufgrund dessen ist der Datensatz ein Beispiel für den Unterschied zwischen überwachtem und unüberwachtem Lernen.[5]
Daten
[Bearbeiten | Quelltext bearbeiten]Der Datensatz enthält 150 Messungen von fünf Attributen: Länge des Kelchblatts, Breite des Kelchblatts, Länge des Kronblatts, Breite des Kronblatts sowie Spezies
Nummer der Messung | Länge des Kelchblatts in cm | Breite des Kelchblatts in cm | Länge des Kronblatts in cm | Breite des Kronblatts in cm | Spezies |
---|---|---|---|---|---|
1 | 5.1 | 3.5 | 1.4 | 0.2 | I. setosa |
2 | 4.9 | 3.0 | 1.4 | 0.2 | I. setosa |
3 | 4.7 | 3.2 | 1.3 | 0.2 | I. setosa |
4 | 4.6 | 3.1 | 1.5 | 0.2 | I. setosa |
5 | 5.0 | 3.6 | 1.4 | 0.3 | I. setosa |
6 | 5.4 | 3.9 | 1.7 | 0.4 | I. setosa |
7 | 4.6 | 3.4 | 1.4 | 0.3 | I. setosa |
8 | 5.0 | 3.4 | 1.5 | 0.2 | I. setosa |
9 | 4.4 | 2.9 | 1.4 | 0.2 | I. setosa |
10 | 4.9 | 3.1 | 1.5 | 0.1 | I. setosa |
11 | 5.4 | 3.7 | 1.5 | 0.2 | I. setosa |
12 | 4.8 | 3.4 | 1.6 | 0.2 | I. setosa |
13 | 4.8 | 3.0 | 1.4 | 0.1 | I. setosa |
14 | 4.3 | 3.0 | 1.1 | 0.1 | I. setosa |
15 | 5.8 | 4.0 | 1.2 | 0.2 | I. setosa |
16 | 5.7 | 4.4 | 1.5 | 0.4 | I. setosa |
17 | 5.4 | 3.9 | 1.3 | 0.4 | I. setosa |
18 | 5.1 | 3.5 | 1.4 | 0.3 | I. setosa |
19 | 5.7 | 3.8 | 1.7 | 0.3 | I. setosa |
20 | 5.1 | 3.8 | 1.5 | 0.3 | I. setosa |
21 | 5.4 | 3.4 | 1.7 | 0.2 | I. setosa |
22 | 5.1 | 3.7 | 1.5 | 0.4 | I. setosa |
23 | 4.6 | 3.6 | 1.0 | 0.2 | I. setosa |
24 | 5.1 | 3.3 | 1.7 | 0.5 | I. setosa |
25 | 4.8 | 3.4 | 1.9 | 0.2 | I. setosa |
26 | 5.0 | 3.0 | 1.6 | 0.2 | I. setosa |
27 | 5.0 | 3.4 | 1.6 | 0.4 | I. setosa |
28 | 5.2 | 3.5 | 1.5 | 0.2 | I. setosa |
29 | 5.2 | 3.4 | 1.4 | 0.2 | I. setosa |
30 | 4.7 | 3.2 | 1.6 | 0.2 | I. setosa |
31 | 4.8 | 3.1 | 1.6 | 0.2 | I. setosa |
32 | 5.4 | 3.4 | 1.5 | 0.4 | I. setosa |
33 | 5.2 | 4.1 | 1.5 | 0.1 | I. setosa |
34 | 5.5 | 4.2 | 1.4 | 0.2 | I. setosa |
35 | 4.9 | 3.1 | 1.5 | 0.2 | I. setosa |
36 | 5.0 | 3.2 | 1.2 | 0.2 | I. setosa |
37 | 5.5 | 3.5 | 1.3 | 0.2 | I. setosa |
38 | 4.9 | 3.6 | 1.4 | 0.1 | I. setosa |
39 | 4.4 | 3.0 | 1.3 | 0.2 | I. setosa |
40 | 5.1 | 3.4 | 1.5 | 0.2 | I. setosa |
41 | 5.0 | 3.5 | 1.3 | 0.3 | I. setosa |
42 | 4.5 | 2.3 | 1.3 | 0.3 | I. setosa |
43 | 4.4 | 3.2 | 1.3 | 0.2 | I. setosa |
44 | 5.0 | 3.5 | 1.6 | 0.6 | I. setosa |
45 | 5.1 | 3.8 | 1.9 | 0.4 | I. setosa |
46 | 4.8 | 3.0 | 1.4 | 0.3 | I. setosa |
47 | 5.1 | 3.8 | 1.6 | 0.2 | I. setosa |
48 | 4.6 | 3.2 | 1.4 | 0.2 | I. setosa |
49 | 5.3 | 3.7 | 1.5 | 0.2 | I. setosa |
50 | 5.0 | 3.3 | 1.4 | 0.2 | I. setosa |
51 | 7.0 | 3.2 | 4.7 | 1.4 | I. versicolor |
52 | 6.4 | 3.2 | 4.5 | 1.5 | I. versicolor |
53 | 6.9 | 3.1 | 4.9 | 1.5 | I. versicolor |
54 | 5.5 | 2.3 | 4.0 | 1.3 | I. versicolor |
55 | 6.5 | 2.8 | 4.6 | 1.5 | I. versicolor |
56 | 5.7 | 2.8 | 4.5 | 1.3 | I. versicolor |
57 | 6.3 | 3.3 | 4.7 | 1.6 | I. versicolor |
58 | 4.9 | 2.4 | 3.3 | 1.0 | I. versicolor |
59 | 6.6 | 2.9 | 4.6 | 1.3 | I. versicolor |
60 | 5.2 | 2.7 | 3.9 | 1.4 | I. versicolor |
61 | 5.0 | 2.0 | 3.5 | 1.0 | I. versicolor |
62 | 5.9 | 3.0 | 4.2 | 1.5 | I. versicolor |
63 | 6.0 | 2.2 | 4.0 | 1.0 | I. versicolor |
64 | 6.1 | 2.9 | 4.7 | 1.4 | I. versicolor |
65 | 5.6 | 2.9 | 3.6 | 1.3 | I. versicolor |
66 | 6.7 | 3.1 | 4.4 | 1.4 | I. versicolor |
67 | 5.6 | 3.0 | 4.5 | 1.5 | I. versicolor |
68 | 5.8 | 2.7 | 4.1 | 1.0 | I. versicolor |
69 | 6.2 | 2.2 | 4.5 | 1.5 | I. versicolor |
70 | 5.6 | 2.5 | 3.9 | 1.1 | I. versicolor |
71 | 5.9 | 3.2 | 4.8 | 1.8 | I. versicolor |
72 | 6.1 | 2.8 | 4.0 | 1.3 | I. versicolor |
73 | 6.3 | 2.5 | 4.9 | 1.5 | I. versicolor |
74 | 6.1 | 2.8 | 4.7 | 1.2 | I. versicolor |
75 | 6.4 | 2.9 | 4.3 | 1.3 | I. versicolor |
76 | 6.6 | 3.0 | 4.4 | 1.4 | I. versicolor |
77 | 6.8 | 2.8 | 4.8 | 1.4 | I. versicolor |
78 | 6.7 | 3.0 | 5.0 | 1.7 | I. versicolor |
79 | 6.0 | 2.9 | 4.5 | 1.5 | I. versicolor |
80 | 5.7 | 2.6 | 3.5 | 1.0 | I. versicolor |
81 | 5.5 | 2.4 | 3.8 | 1.1 | I. versicolor |
82 | 5.5 | 2.4 | 3.7 | 1.0 | I. versicolor |
83 | 5.8 | 2.7 | 3.9 | 1.2 | I. versicolor |
84 | 6.0 | 2.7 | 5.1 | 1.6 | I. versicolor |
85 | 5.4 | 3.0 | 4.5 | 1.5 | I. versicolor |
86 | 6.0 | 3.4 | 4.5 | 1.6 | I. versicolor |
87 | 6.7 | 3.1 | 4.7 | 1.5 | I. versicolor |
88 | 6.3 | 2.3 | 4.4 | 1.3 | I. versicolor |
89 | 5.6 | 3.0 | 4.1 | 1.3 | I. versicolor |
90 | 5.5 | 2.5 | 4.0 | 1.3 | I. versicolor |
91 | 5.5 | 2.6 | 4.4 | 1.2 | I. versicolor |
92 | 6.1 | 3.0 | 4.6 | 1.4 | I. versicolor |
93 | 5.8 | 2.6 | 4.0 | 1.2 | I. versicolor |
94 | 5.0 | 2.3 | 3.3 | 1.0 | I. versicolor |
95 | 5.6 | 2.7 | 4.2 | 1.3 | I. versicolor |
96 | 5.7 | 3.0 | 4.2 | 1.2 | I. versicolor |
97 | 5.7 | 2.9 | 4.2 | 1.3 | I. versicolor |
98 | 6.2 | 2.9 | 4.3 | 1.3 | I. versicolor |
99 | 5.1 | 2.5 | 3.0 | 1.1 | I. versicolor |
100 | 5.7 | 2.8 | 4.1 | 1.3 | I. versicolor |
101 | 6.3 | 3.3 | 6.0 | 2.5 | I. virginica |
102 | 5.8 | 2.7 | 5.1 | 1.9 | I. virginica |
103 | 7.1 | 3.0 | 5.9 | 2.1 | I. virginica |
104 | 6.3 | 2.9 | 5.6 | 1.8 | I. virginica |
105 | 6.5 | 3.0 | 5.8 | 2.2 | I. virginica |
106 | 7.6 | 3.0 | 6.6 | 2.1 | I. virginica |
107 | 4.9 | 2.5 | 4.5 | 1.7 | I. virginica |
108 | 7.3 | 2.9 | 6.3 | 1.8 | I. virginica |
109 | 6.7 | 2.5 | 5.8 | 1.8 | I. virginica |
110 | 7.2 | 3.6 | 6.1 | 2.5 | I. virginica |
111 | 6.5 | 3.2 | 5.1 | 2.0 | I. virginica |
112 | 6.4 | 2.7 | 5.3 | 1.9 | I. virginica |
113 | 6.8 | 3.0 | 5.5 | 2.1 | I. virginica |
114 | 5.7 | 2.5 | 5.0 | 2.0 | I. virginica |
115 | 5.8 | 2.8 | 5.1 | 2.4 | I. virginica |
116 | 6.4 | 3.2 | 5.3 | 2.3 | I. virginica |
117 | 6.5 | 3.0 | 5.5 | 1.8 | I. virginica |
118 | 7.7 | 3.8 | 6.7 | 2.2 | I. virginica |
119 | 7.7 | 2.6 | 6.9 | 2.3 | I. virginica |
120 | 6.0 | 2.2 | 5.0 | 1.5 | I. virginica |
121 | 6.9 | 3.2 | 5.7 | 2.3 | I. virginica |
122 | 5.6 | 2.8 | 4.9 | 2.0 | I. virginica |
123 | 7.7 | 2.8 | 6.7 | 2.0 | I. virginica |
124 | 6.3 | 2.7 | 4.9 | 1.8 | I. virginica |
125 | 6.7 | 3.3 | 5.7 | 2.1 | I. virginica |
126 | 7.2 | 3.2 | 6.0 | 1.8 | I. virginica |
127 | 6.2 | 2.8 | 4.8 | 1.8 | I. virginica |
128 | 6.1 | 3.0 | 4.9 | 1.8 | I. virginica |
129 | 6.4 | 2.8 | 5.6 | 2.1 | I. virginica |
130 | 7.2 | 3.0 | 5.8 | 1.6 | I. virginica |
131 | 7.4 | 2.8 | 6.1 | 1.9 | I. virginica |
132 | 7.9 | 3.8 | 6.4 | 2.0 | I. virginica |
133 | 6.4 | 2.8 | 5.6 | 2.2 | I. virginica |
134 | 6.3 | 2.8 | 5.1 | 1.5 | I. virginica |
135 | 6.1 | 2.6 | 5.6 | 1.4 | I. virginica |
136 | 7.7 | 3.0 | 6.1 | 2.3 | I. virginica |
137 | 6.3 | 3.4 | 5.6 | 2.4 | I. virginica |
138 | 6.4 | 3.1 | 5.5 | 1.8 | I. virginica |
139 | 6.0 | 3.0 | 4.8 | 1.8 | I. virginica |
140 | 6.9 | 3.1 | 5.4 | 2.1 | I. virginica |
141 | 6.7 | 3.1 | 5.6 | 2.4 | I. virginica |
142 | 6.9 | 3.1 | 5.1 | 2.3 | I. virginica |
143 | 5.8 | 2.7 | 5.1 | 1.9 | I. virginica |
144 | 6.8 | 3.2 | 5.9 | 2.3 | I. virginica |
145 | 6.7 | 3.3 | 5.7 | 2.5 | I. virginica |
146 | 6.7 | 3.0 | 5.2 | 2.3 | I. virginica |
147 | 6.3 | 2.5 | 5.0 | 1.9 | I. virginica |
148 | 6.5 | 3.0 | 5.2 | 2.0 | I. virginica |
149 | 6.2 | 3.4 | 5.4 | 2.3 | I. virginica |
150 | 5.9 | 3.0 | 5.1 | 1.8 | I. virginica |
Der Datensatz wird häufig als anfängerfreundlicher Datensatz für Maschinelles Lernen und statistische Verfahren genutzt. Er ist in R, Python und der Software-Bibliothek scikit-learn enthalten.
R-Code zum Erstellen des Streudiagramms
[Bearbeiten | Quelltext bearbeiten]Der untenstehende Code erzeugt in R das Streudiagramm, das am Anfang dieses Artikels steht.
# Anzeigen des Datensatzes
iris
# Anzeigen der Hilfeseite, welche Informationen über den Datensatz enthält
?iris
# Erstellen eines Streudiagramms, welches alle paarweise Kombinationen der 4
# enthaltenen Attribute anzeigt.
pairs(iris[1:4], main="Iris Data (red=setosa,green=versicolor,blue=virginica)",
pch=21, bg=c("red","green3","blue")[unclass(iris$Species)])
Python-Code zum Erstellen des Streudiagramms
[Bearbeiten | Quelltext bearbeiten]from sklearn.datasets import load_iris
iris = load_iris()
iris
Es wird zurückgegeben:
{'data': array([[5.1, 3.5, 1.4, 0.2],
[4.9, 3. , 1.4, 0.2],
[4.7, 3.2, 1.3, 0.2],
[4.6, 3.1, 1.5, 0.2],...
'target': array([0, 0, 0, ... 1, 1, 1, ... 2, 2, 2, ...
'target_names': array(['setosa', 'versicolor', 'virginica'], dtype='<U10'),
...}
Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ R.A. Fisher: The use of multiple measurements in taxonomic problems. In: Annals of Eugenics. 7. Jahrgang, Nr. 2, 1936, S. 179–188, doi:10.1111/j.1469-1809.1936.tb02137.x (englisch).
- ↑ Edgar Anderson: The species problem in Iris. In: Annals of the Missouri Botanical Garden. 23. Jahrgang, Nr. 3, 1936, S. 457–509, doi:10.2307/2394164, JSTOR:2394164 (englisch, biostor.org).
- ↑ Edgar Anderson: The irises of the Gaspé Peninsula. In: Bulletin of the American Iris Society. 59. Jahrgang, 1935, S. 2–5 (englisch).
- ↑ UCI Machine Learning Repository: Iris Data Set. In: archive.ics.uci.edu. Abgerufen am 1. Dezember 2017 (englisch).
- ↑ Ines Färber, Stephan Günnemann, Hans-Peter Kriegel: On Using Class-Labels in Evaluation of Clusterings. International Workshop on Discovering, Summarizing and Using Multiple Clusterings (MultiClust 2010). In: Xiaoli Z. Fern, Ian Davidson, Jennifer Dy (Hrsg.): MultiClust: Discovering, Summarizing, and Using Multiple Clusterings. ACM SIGKDD, 2010 (englisch, sdu.dk [PDF]).