notebook.community

Edit and run

This is one of the more oiular sites for online datasets http://archive.ics.uci.edu/ml/machine-learning-databases/ We are pulling in the iris datasets



In [1]:

    
flowers <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data")
flowers









    



Warning message:
In `[<-.factor`(`*tmp*`, ri, value = "<e2><8b><ae>"): invalid factor level, NA generatedWarning message:
In `[<-.factor`(`*tmp*`, ri, value = "<e2><8b><ae>"): invalid factor level, NA generated





    





X5.1 X3.5 X1.4 X0.2 Iris.setosa

	1 4.9 3 1.4 0.2 Iris-setosa
	2 4.7 3.2 1.3 0.2 Iris-setosa
	3 4.6 3.1 1.5 0.2 Iris-setosa
	4 5 3.6 1.4 0.2 Iris-setosa
	5 5.4 3.9 1.7 0.4 Iris-setosa
	6 4.6 3.4 1.4 0.3 Iris-setosa
	7 5 3.4 1.5 0.2 Iris-setosa
	8 4.4 2.9 1.4 0.2 Iris-setosa
	9 4.9 3.1 1.5 0.1 Iris-setosa
	10 5.4 3.7 1.5 0.2 Iris-setosa
	11 4.8 3.4 1.6 0.2 Iris-setosa
	12 4.8 3 1.4 0.1 Iris-setosa
	13 4.3 3 1.1 0.1 Iris-setosa
	14 5.8 4 1.2 0.2 Iris-setosa
	15 5.7 4.4 1.5 0.4 Iris-setosa
	16 5.4 3.9 1.3 0.4 Iris-setosa
	17 5.1 3.5 1.4 0.3 Iris-setosa
	18 5.7 3.8 1.7 0.3 Iris-setosa
	19 5.1 3.8 1.5 0.3 Iris-setosa
	20 5.4 3.4 1.7 0.2 Iris-setosa
	21 5.1 3.7 1.5 0.4 Iris-setosa
	22 4.6 3.6 1 0.2 Iris-setosa
	23 5.1 3.3 1.7 0.5 Iris-setosa
	24 4.8 3.4 1.9 0.2 Iris-setosa
	25 5 3 1.6 0.2 Iris-setosa
	26 5 3.4 1.6 0.4 Iris-setosa
	27 5.2 3.5 1.5 0.2 Iris-setosa
	28 5.2 3.4 1.4 0.2 Iris-setosa
	29 4.7 3.2 1.6 0.2 Iris-setosa
	30 4.8 3.1 1.6 0.2 Iris-setosa
	31 <8b> <8b> <8b> <8b> NA
	120 6.9 3.2 5.7 2.3 Iris-virginica
	121 5.6 2.8 4.9 2 Iris-virginica
	122 7.7 2.8 6.7 2 Iris-virginica
	123 6.3 2.7 4.9 1.8 Iris-virginica
	124 6.7 3.3 5.7 2.1 Iris-virginica
	125 7.2 3.2 6 1.8 Iris-virginica
	126 6.2 2.8 4.8 1.8 Iris-virginica
	127 6.1 3 4.9 1.8 Iris-virginica
	128 6.4 2.8 5.6 2.1 Iris-virginica
	129 7.2 3 5.8 1.6 Iris-virginica
	130 7.4 2.8 6.1 1.9 Iris-virginica
	131 7.9 3.8 6.4 2 Iris-virginica
	132 6.4 2.8 5.6 2.2 Iris-virginica
	133 6.3 2.8 5.1 1.5 Iris-virginica
	134 6.1 2.6 5.6 1.4 Iris-virginica
	135 7.7 3 6.1 2.3 Iris-virginica
	136 6.3 3.4 5.6 2.4 Iris-virginica
	137 6.4 3.1 5.5 1.8 Iris-virginica
	138 6 3 4.8 1.8 Iris-virginica
	139 6.9 3.1 5.4 2.1 Iris-virginica
	140 6.7 3.1 5.6 2.4 Iris-virginica
	141 6.9 3.1 5.1 2.3 Iris-virginica
	142 5.8 2.7 5.1 1.9 Iris-virginica
	143 6.8 3.2 5.9 2.3 Iris-virginica
	144 6.7 3.3 5.7 2.5 Iris-virginica
	145 6.7 3 5.2 2.3 Iris-virginica
	146 6.3 2.5 5 1.9 Iris-virginica
	147 6.5 3 5.2 2 Iris-virginica
	148 6.2 3.4 5.4 2.3 Iris-virginica
	149 5.9 3 5.1 1.8 Iris-virginica

By default, read skips a row with a blank element this adds it back in. Notice that the there are now 150 rows...



In [2]:

    
flowers <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data",blank.lines.skip=FALSE)
flowers









    



Warning message:
In `[<-.factor`(`*tmp*`, ri, value = "<e2><8b><ae>"): invalid factor level, NA generatedWarning message:
In `[<-.factor`(`*tmp*`, ri, value = "<e2><8b><ae>"): invalid factor level, NA generated





    





X5.1 X3.5 X1.4 X0.2 Iris.setosa

	1 4.9 3 1.4 0.2 Iris-setosa
	2 4.7 3.2 1.3 0.2 Iris-setosa
	3 4.6 3.1 1.5 0.2 Iris-setosa
	4 5 3.6 1.4 0.2 Iris-setosa
	5 5.4 3.9 1.7 0.4 Iris-setosa
	6 4.6 3.4 1.4 0.3 Iris-setosa
	7 5 3.4 1.5 0.2 Iris-setosa
	8 4.4 2.9 1.4 0.2 Iris-setosa
	9 4.9 3.1 1.5 0.1 Iris-setosa
	10 5.4 3.7 1.5 0.2 Iris-setosa
	11 4.8 3.4 1.6 0.2 Iris-setosa
	12 4.8 3 1.4 0.1 Iris-setosa
	13 4.3 3 1.1 0.1 Iris-setosa
	14 5.8 4 1.2 0.2 Iris-setosa
	15 5.7 4.4 1.5 0.4 Iris-setosa
	16 5.4 3.9 1.3 0.4 Iris-setosa
	17 5.1 3.5 1.4 0.3 Iris-setosa
	18 5.7 3.8 1.7 0.3 Iris-setosa
	19 5.1 3.8 1.5 0.3 Iris-setosa
	20 5.4 3.4 1.7 0.2 Iris-setosa
	21 5.1 3.7 1.5 0.4 Iris-setosa
	22 4.6 3.6 1 0.2 Iris-setosa
	23 5.1 3.3 1.7 0.5 Iris-setosa
	24 4.8 3.4 1.9 0.2 Iris-setosa
	25 5 3 1.6 0.2 Iris-setosa
	26 5 3.4 1.6 0.4 Iris-setosa
	27 5.2 3.5 1.5 0.2 Iris-setosa
	28 5.2 3.4 1.4 0.2 Iris-setosa
	29 4.7 3.2 1.6 0.2 Iris-setosa
	30 4.8 3.1 1.6 0.2 Iris-setosa
	31 <8b> <8b> <8b> <8b> NA
	121 5.6 2.8 4.9 2 Iris-virginica
	122 7.7 2.8 6.7 2 Iris-virginica
	123 6.3 2.7 4.9 1.8 Iris-virginica
	124 6.7 3.3 5.7 2.1 Iris-virginica
	125 7.2 3.2 6 1.8 Iris-virginica
	126 6.2 2.8 4.8 1.8 Iris-virginica
	127 6.1 3 4.9 1.8 Iris-virginica
	128 6.4 2.8 5.6 2.1 Iris-virginica
	129 7.2 3 5.8 1.6 Iris-virginica
	130 7.4 2.8 6.1 1.9 Iris-virginica
	131 7.9 3.8 6.4 2 Iris-virginica
	132 6.4 2.8 5.6 2.2 Iris-virginica
	133 6.3 2.8 5.1 1.5 Iris-virginica
	134 6.1 2.6 5.6 1.4 Iris-virginica
	135 7.7 3 6.1 2.3 Iris-virginica
	136 6.3 3.4 5.6 2.4 Iris-virginica
	137 6.4 3.1 5.5 1.8 Iris-virginica
	138 6 3 4.8 1.8 Iris-virginica
	139 6.9 3.1 5.4 2.1 Iris-virginica
	140 6.7 3.1 5.6 2.4 Iris-virginica
	141 6.9 3.1 5.1 2.3 Iris-virginica
	142 5.8 2.7 5.1 1.9 Iris-virginica
	143 6.8 3.2 5.9 2.3 Iris-virginica
	144 6.7 3.3 5.7 2.5 Iris-virginica
	145 6.7 3 5.2 2.3 Iris-virginica
	146 6.3 2.5 5 1.9 Iris-virginica
	147 6.5 3 5.2 2 Iris-virginica
	148 6.2 3.4 5.4 2.3 Iris-virginica
	149 5.9 3 5.1 1.8 Iris-virginica
	150 NA NA NA NA

so let's remove it explicitly



In [3]:

    
flowers <- na.omit(flowers)
flowers









    



Warning message:
In `[<-.factor`(`*tmp*`, ri, value = "<e2><8b><ae>"): invalid factor level, NA generatedWarning message:
In `[<-.factor`(`*tmp*`, ri, value = "<e2><8b><ae>"): invalid factor level, NA generated





    





X5.1 X3.5 X1.4 X0.2 Iris.setosa

	1 4.9 3 1.4 0.2 Iris-setosa
	2 4.7 3.2 1.3 0.2 Iris-setosa
	3 4.6 3.1 1.5 0.2 Iris-setosa
	4 5 3.6 1.4 0.2 Iris-setosa
	5 5.4 3.9 1.7 0.4 Iris-setosa
	6 4.6 3.4 1.4 0.3 Iris-setosa
	7 5 3.4 1.5 0.2 Iris-setosa
	8 4.4 2.9 1.4 0.2 Iris-setosa
	9 4.9 3.1 1.5 0.1 Iris-setosa
	10 5.4 3.7 1.5 0.2 Iris-setosa
	11 4.8 3.4 1.6 0.2 Iris-setosa
	12 4.8 3 1.4 0.1 Iris-setosa
	13 4.3 3 1.1 0.1 Iris-setosa
	14 5.8 4 1.2 0.2 Iris-setosa
	15 5.7 4.4 1.5 0.4 Iris-setosa
	16 5.4 3.9 1.3 0.4 Iris-setosa
	17 5.1 3.5 1.4 0.3 Iris-setosa
	18 5.7 3.8 1.7 0.3 Iris-setosa
	19 5.1 3.8 1.5 0.3 Iris-setosa
	20 5.4 3.4 1.7 0.2 Iris-setosa
	21 5.1 3.7 1.5 0.4 Iris-setosa
	22 4.6 3.6 1 0.2 Iris-setosa
	23 5.1 3.3 1.7 0.5 Iris-setosa
	24 4.8 3.4 1.9 0.2 Iris-setosa
	25 5 3 1.6 0.2 Iris-setosa
	26 5 3.4 1.6 0.4 Iris-setosa
	27 5.2 3.5 1.5 0.2 Iris-setosa
	28 5.2 3.4 1.4 0.2 Iris-setosa
	29 4.7 3.2 1.6 0.2 Iris-setosa
	30 4.8 3.1 1.6 0.2 Iris-setosa
	31 <8b> <8b> <8b> <8b> NA
	120 6.9 3.2 5.7 2.3 Iris-virginica
	121 5.6 2.8 4.9 2 Iris-virginica
	122 7.7 2.8 6.7 2 Iris-virginica
	123 6.3 2.7 4.9 1.8 Iris-virginica
	124 6.7 3.3 5.7 2.1 Iris-virginica
	125 7.2 3.2 6 1.8 Iris-virginica
	126 6.2 2.8 4.8 1.8 Iris-virginica
	127 6.1 3 4.9 1.8 Iris-virginica
	128 6.4 2.8 5.6 2.1 Iris-virginica
	129 7.2 3 5.8 1.6 Iris-virginica
	130 7.4 2.8 6.1 1.9 Iris-virginica
	131 7.9 3.8 6.4 2 Iris-virginica
	132 6.4 2.8 5.6 2.2 Iris-virginica
	133 6.3 2.8 5.1 1.5 Iris-virginica
	134 6.1 2.6 5.6 1.4 Iris-virginica
	135 7.7 3 6.1 2.3 Iris-virginica
	136 6.3 3.4 5.6 2.4 Iris-virginica
	137 6.4 3.1 5.5 1.8 Iris-virginica
	138 6 3 4.8 1.8 Iris-virginica
	139 6.9 3.1 5.4 2.1 Iris-virginica
	140 6.7 3.1 5.6 2.4 Iris-virginica
	141 6.9 3.1 5.1 2.3 Iris-virginica
	142 5.8 2.7 5.1 1.9 Iris-virginica
	143 6.8 3.2 5.9 2.3 Iris-virginica
	144 6.7 3.3 5.7 2.5 Iris-virginica
	145 6.7 3 5.2 2.3 Iris-virginica
	146 6.3 2.5 5 1.9 Iris-virginica
	147 6.5 3 5.2 2 Iris-virginica
	148 6.2 3.4 5.4 2.3 Iris-virginica
	149 5.9 3 5.1 1.8 Iris-virginica

let's rename the columns



In [4]:

    
colnames(flowers) <- c("F1", "F2", "F3", "F4", "Label")
summary(flowers)









    





       F1              F2              F3              F4       
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.400   Median :1.300  
 Mean   :5.848   Mean   :3.051   Mean   :3.774   Mean   :1.205  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
             Label   
                : 0  
 Iris-setosa    :49  
 Iris-versicolor:50  
 Iris-virginica :50

we don't know anything about this dataset so let's do a kmeans (like a scatterplot)



In [5]:

    
indexes = sample(1:nrow(flowers), size=0.6*nrow(flowers))
flowers.train <- flowers[-indexes,]
flowers.test <- flowers[indexes,]
fit <- kmeans(flowers.train[,1:4],5)
fit









    





K-means clustering with 5 clusters of sizes 4, 11, 20, 14, 11

Cluster means:
        F1       F2       F3        F4
1 7.700000 3.050000 6.600000 2.2000000
2 4.790909 3.127273 1.390909 0.2181818
3 6.485000 2.940000 5.285000 1.8900000
4 5.578571 2.700000 4.050000 1.2642857
5 5.272727 3.690909 1.527273 0.3181818

Clustering vector:
  1   3   4   5   6  10  11  14  16  21  22  23  25  27  31  35  37  41  44  45 
  2   2   5   5   2   5   2   5   5   5   2   5   2   5   5   2   2   2   5   2 
 46  49  50  53  54  58  59  61  66  73  77  79  81  82  83  84  89  90  94  95 
  5   2   3   4   3   3   4   4   4   4   3   4   4   4   3   4   4   4   4   4 
 98 108 111 112 113 116 117 118 120 122 123 124 126 132 134 135 136 139 143 148 
  4   3   3   3   3   3   1   1   3   1   3   3   3   3   3   1   3   3   3   3 

Within cluster sum of squares by cluster:
[1] 1.250000 1.836364 9.137000 4.570714 1.549091
 (between_SS / total_SS =  93.7 %)

Available components:

[1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
[6] "betweenss"    "size"         "iter"         "ifault"

lets see what it looks like in a graphical format



In [6]:

    
plot(flowers.train[c("F1", "F2")], col=fit$cluster)
points(fit$centers[,c("F1", "F2")], col=1:3, pch=8, cex=2)



In [ ]:

	X5.1	X3.5	X1.4	X0.2	Iris.setosa
1	4.9	3	1.4	0.2	Iris-setosa
2	4.7	3.2	1.3	0.2	Iris-setosa
3	4.6	3.1	1.5	0.2	Iris-setosa
4	5	3.6	1.4	0.2	Iris-setosa
5	5.4	3.9	1.7	0.4	Iris-setosa
6	4.6	3.4	1.4	0.3	Iris-setosa
7	5	3.4	1.5	0.2	Iris-setosa
8	4.4	2.9	1.4	0.2	Iris-setosa
9	4.9	3.1	1.5	0.1	Iris-setosa
10	5.4	3.7	1.5	0.2	Iris-setosa
11	4.8	3.4	1.6	0.2	Iris-setosa
12	4.8	3	1.4	0.1	Iris-setosa
13	4.3	3	1.1	0.1	Iris-setosa
14	5.8	4	1.2	0.2	Iris-setosa
15	5.7	4.4	1.5	0.4	Iris-setosa
16	5.4	3.9	1.3	0.4	Iris-setosa
17	5.1	3.5	1.4	0.3	Iris-setosa
18	5.7	3.8	1.7	0.3	Iris-setosa
19	5.1	3.8	1.5	0.3	Iris-setosa
20	5.4	3.4	1.7	0.2	Iris-setosa
21	5.1	3.7	1.5	0.4	Iris-setosa
22	4.6	3.6	1	0.2	Iris-setosa
23	5.1	3.3	1.7	0.5	Iris-setosa
24	4.8	3.4	1.9	0.2	Iris-setosa
25	5	3	1.6	0.2	Iris-setosa
26	5	3.4	1.6	0.4	Iris-setosa
27	5.2	3.5	1.5	0.2	Iris-setosa
28	5.2	3.4	1.4	0.2	Iris-setosa
29	4.7	3.2	1.6	0.2	Iris-setosa
30	4.8	3.1	1.6	0.2	Iris-setosa
31	<8b>	<8b>	<8b>	<8b>	NA
120	6.9	3.2	5.7	2.3	Iris-virginica
121	5.6	2.8	4.9	2	Iris-virginica
122	7.7	2.8	6.7	2	Iris-virginica
123	6.3	2.7	4.9	1.8	Iris-virginica
124	6.7	3.3	5.7	2.1	Iris-virginica
125	7.2	3.2	6	1.8	Iris-virginica
126	6.2	2.8	4.8	1.8	Iris-virginica
127	6.1	3	4.9	1.8	Iris-virginica
128	6.4	2.8	5.6	2.1	Iris-virginica
129	7.2	3	5.8	1.6	Iris-virginica
130	7.4	2.8	6.1	1.9	Iris-virginica
131	7.9	3.8	6.4	2	Iris-virginica
132	6.4	2.8	5.6	2.2	Iris-virginica
133	6.3	2.8	5.1	1.5	Iris-virginica
134	6.1	2.6	5.6	1.4	Iris-virginica
135	7.7	3	6.1	2.3	Iris-virginica
136	6.3	3.4	5.6	2.4	Iris-virginica
137	6.4	3.1	5.5	1.8	Iris-virginica
138	6	3	4.8	1.8	Iris-virginica
139	6.9	3.1	5.4	2.1	Iris-virginica
140	6.7	3.1	5.6	2.4	Iris-virginica
141	6.9	3.1	5.1	2.3	Iris-virginica
142	5.8	2.7	5.1	1.9	Iris-virginica
143	6.8	3.2	5.9	2.3	Iris-virginica
144	6.7	3.3	5.7	2.5	Iris-virginica
145	6.7	3	5.2	2.3	Iris-virginica
146	6.3	2.5	5	1.9	Iris-virginica
147	6.5	3	5.2	2	Iris-virginica
148	6.2	3.4	5.4	2.3	Iris-virginica
149	5.9	3	5.1	1.8	Iris-virginica