Analiza danych i uczenie maszynowe w Python

Autor notebooka: Jakub Nowacki.

Metody bez nadzoru

Uczenie maszynowe ma wiele algorytmów działających bez nadzoru, czyli bez sklasyfikowanych danych. Służą one do odkrywania różnych wzorców i prawidłowości w danych, lub zmniejszania liczby stopni swobody.

Klastrowanie

Jest wiele metod klastrowania i mają one różne właściwości, w zależności od problemu. Poniżej ogólna charakterystyka dostępnych algorytmów.

Wygenerujmy najpierw dane do klastrowania.



In [1]:

    
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

plt.rcParams['figure.figsize'] = (10, 8)

np.random.seed(4711) 
a = np.random.multivariate_normal([10, 0], [[3, 1], [1, 4]], size=[100,])
b = np.random.multivariate_normal([0, 20], [[3, 1], [1, 4]], size=[50,])
A = pd.DataFrame({
    'x': a[:, 0],
    'y': a[:, 1],
    'label': 0,
})
B = pd.DataFrame({
    'x': b[:, 0],
    'y': b[:, 1],
    'label': 1,
})
X = pd.concat([A, B])

X.head()



In [2]:

    
X.describe()



In [3]:

    
X.plot.scatter(x='x', y='y', c='label', cmap=plt.cm.Set2);

K-means

Algorytm centroidów (K-means) jest jednym z prostszych algorytmów klastrowania, który opiera się na odległościach punktów od centrów klastrów.

O ile zbieżność klastrów odbywa się automatycznie, to sam wybór ilości klastrów jest zdefiniowany przez użytkownika.



In [4]:

    
from sklearn.cluster import KMeans

features = ['x', 'y']

km = KMeans(n_clusters=2)
km.fit(X[features])

X['predict'] = km.predict(X[features])

X.head()



In [5]:

    
ax = X.plot.scatter(x='x', y='y', c='predict', cmap=plt.cm.Set2)

for i, (cx, cy) in enumerate(km.cluster_centers_):
    ax.plot(cx, cy, 'X', markersize=20)

Zadanie

Zmień ilość klastrów n_clusters; co się zmieniło?
Zmień algorytm na MiniBatchKMeans; co się zmieniło?
★ Wygeneruj nowe dane, gdzie klastry są bliżej siebie; co się zmieniło?

Klastrowanie hierarchiczne

Klastrowanie hierarchiczne (Hierarchical clustering) jest metodą klastrowania, która buduję sieć połączeń pomiędzy najbliższymi siebie elementami na podstawie miary odległości.

Klastry	Budowa połączeń

Klastrowanie metodami hierarchicznymi (aglomeracylnymi) jest dostępne jako jedna z metod klastrowania w scikit-learn. Można ją użyć podobnie jak K-means.



In [6]:

    
from sklearn.cluster import AgglomerativeClustering

cls = AgglomerativeClustering(linkage='ward', n_clusters=2)

cls.fit(X[features])

X['predict'] = cls.labels_

X.head()



In [7]:

    
ax = X.plot.scatter(x='x', y='y', c='predict', cmap=plt.cm.Set2)

Zadanie

Zmień ilość klastrów n_clusters; co się zmieniło?
Zmień algorytm w parametrze linkage; zobacz dokumentację; co się zmieniło?
★ Wygeneruj nowe dane, gdzie klastry są bliżej siebie; co się zmieniło?

Możemy wykorzystać cechy klastrowania hierarchicznego do budowy dendrogramu. Musimy najpierw zbudować macierz połączeń używając któregoś z algorytmów, w tym przypadku Warda.



In [8]:

    
from scipy.cluster.hierarchy import dendrogram, linkage

Z = linkage(X[features], 'ward')
Z[:3]









    Out[8]:





array([[5.20000000e+01, 5.30000000e+01, 4.15105485e-02, 2.00000000e+00],
       [1.40000000e+01, 7.90000000e+01, 5.91375926e-02, 2.00000000e+00],
       [3.30000000e+01, 6.80000000e+01, 7.10677929e-02, 2.00000000e+00]])

Po zbudowaniu macieży możemy ją narysować używając Matplotlib i SciPy.



In [9]:

    
plt.title('Hierarchical Clustering Dendrogram (truncated)')
plt.xlabel('sample index')
plt.ylabel('distance')
dendrogram(
    Z,
    truncate_mode='lastp',  
    p=12, 
    show_leaf_counts=False, 
    leaf_rotation=90.,
    leaf_font_size=12.,
    show_contracted=True, 
)
plt.show()

Zadanie

Zmień ilość klastrów n_clusters; co się zmieniło?
Zmień algorytm w parametrze linkage; zobacz dokumentację; co się zmieniło?

Principal Component Analysis

Principal Component Analysis (PCA) jest metodą zmniejszania stopnia swobody, czyli ilości zmiennych, w danym problemie.

Przekształcenie wykonuje swoisty obrót przestrzeni w taki sposób, aby kolejne wektory składowe były posortowane od największej wariancji do najmniejszej. Nowe wektory rozpinające przestrzeń są formą wektorów własnych macierzy kowariancji.

Dla ilustracji wykonujemy poniżej dekompozycję zbioru irysów używając PCA.



In [10]:

    
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
p = pca.fit_transform(X[['x', 'y']])
p[:10]









    Out[10]:





array([[ -7.23084517,  -0.6951744 ],
       [ -7.26261373,  -1.06686677],
       [ -5.08879835,   2.03818602],
       [ -5.51203662,  -0.9557205 ],
       [-10.91318556,  -6.21179381],
       [ -5.29274907,  -2.94484119],
       [ -7.03593023,  -1.82648545],
       [-10.86621083,  -2.95559245],
       [ -7.28666727,  -1.13836019],
       [ -5.1487411 ,   1.60310711]])

Najpierw narysujmy komponenty w oryginalnym układzie współrzędnych.



In [11]:

    
pca_score = pca.explained_variance_ratio_
V = pca.components_
x_pca_axis, y_pca_axis = V.T * pca_score / pca_score.min() / 2
x_pca_axis, y_pca_axis









    Out[11]:





(array([-5.73727207,  0.45209315]), array([12.1449249 ,  0.21356916]))



In [12]:

    
ax = X.plot.scatter(x='x', y='y', c='predict', cmap=plt.cm.Set2)
ax.arrow(6, 6, x_pca_axis[0], y_pca_axis[0], head_width=0.5, head_length=1) # PCA x
ax.arrow(6, 6, x_pca_axis[1], y_pca_axis[1], head_width=0.5, head_length=1); # PCA y

A tak wygląda obraz w nowym układzie współrzędnych.



In [13]:

    
plt.scatter(p[:, 0], p[:, 1], c=X['label'], cmap=plt.cm.Set2);

Zadanie

Wykonaj PCA dla danych irysów.
Poeksperymentuj z liczbą komponentów.
Ile wariancji tłumaczą poszczególne komponenty?

	x	y
0	9.211884	-0.151886
1	8.889374	-0.339375
2	10.768401	2.952446
3	8.242133	1.290948
4	5.796701	-5.837767

	label	x	y
count	150.000000	150.000000	150.000000
mean	0.333333	6.751880	6.683081
std	0.472984	4.877784	9.598625
min	0.000000	-3.125396	-5.837767
25%	0.000000	1.427304	-0.535173
50%	0.000000	8.708074	1.298940
75%	1.000000	10.460816	18.693646
max	1.000000	16.363330	24.084572

	x	y	predict
0	9.211884	-0.151886	1
1	8.889374	-0.339375	1
2	10.768401	2.952446	1
3	8.242133	1.290948	1
4	5.796701	-5.837767	1

	x	y
0	9.211884	-0.151886
1	8.889374	-0.339375
2	10.768401	2.952446
3	8.242133	1.290948
4	5.796701	-5.837767