Clustering

KMeans

Primeiro, geramos alguns centroides e uns pontos aos seus redores:



In [15]:

    
set.seed(42)
somex <- rnorm(4) # Abscissas dos centroides
somey <- rnorm(4)
X <- numeric(104) # 4 para os centroides e 100 para as amostras
Y <- numeric(104) # 4 para os centroides e 100 para as amostras
j <- 1
for (i in 1:4) { # Para cada centroide, vamos gerar alguns pontos
    X[j] <- somex[i]
    Y[j] <- somey[i]
    j = j + 1
    for (z in 1:25) {
        xz <- 0.12 * rnorm(1) + somex[i]
        yz <- 0.12 * rnorm(1) + somey[i]
        X[j] <- xz
        Y[j] <- yz
        j = j + 1
    }
}

Agora, vamos plotar esses pontos gerados:



In [23]:

    
plot(X,Y)
points(somex,somey, pch = 8, col = 2, cex = 9)

No gráfico, você vê os centroides marcados como o centro dos cruzamentos de linhas, e os outros pontos em volta.



In [34]:

    
df <- data.frame(x = X, y = Y)
modelo <- kmeans(df,4)



In [29]:

    
modelo









    





K-means clustering with 4 clusters of sizes 15, 52, 11, 26

Cluster means:
           x           y
1 -0.6624353 -0.09825517
2  0.9937956  0.15575292
3 -0.4665211 -0.03672141
4  0.3367062  1.47904936

Clustering vector:
  [1] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 3 1 3 3 1 3 1 3
 [38] 1 3 1 1 1 3 3 3 1 1 3 3 1 1 1 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
 [75] 4 4 4 4 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

Within cluster sum of squares by cluster:
[1]  0.2520460 11.9370096  0.1052387  0.5583075
 (between_SS / total_SS =  86.5 %)

Available components:

[1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
[6] "betweenss"    "size"         "iter"         "ifault"



In [31]:

    
modelo$cluster



In [32]:

    
modelo$centers









    





x y

	1 -0.6624353 -0.09825517
	2  0.9937956  0.15575292
	3 -0.4665211 -0.03672141
	4  0.3367062  1.47904936

Agora, vamos plotar os grupos que o KMeans encontrou, com seus centros



In [36]:

    
plot(X,Y,col = modelo$cluster, pch = modelo$cluster)
points(somex,somey, pch = 8, col = 2, cex = 9)



In [ ]:

	x	y
1	-0.6624353	-0.09825517
2	0.9937956	0.15575292
3	-0.4665211	-0.03672141
4	0.3367062	1.47904936