notebook.community

Edit and run



In [1]:

    
import pandas as pd
from sklearn import datasets, model_selection, svm, metrics



In [2]:

    
# http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html
# http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html
iris = datasets.load_iris()



In [3]:

    
print(type(iris))
print(iris.keys())









    



<class 'sklearn.datasets.base.Bunch'>
dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])



In [4]:

    
iris_data = pd.DataFrame(data=iris.data, columns=iris.feature_names)
print(iris_data.head())









    



   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2



In [5]:

    
iris_label = pd.Series(data=iris.target)
print(iris_label.head())









    



0    0
1    0
2    0
3    0
4    0
dtype: int64



In [6]:

    
print(len(iris_data))



In [7]:

    
# http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
data_train, data_test, label_train, label_test = model_selection.train_test_split(iris_data, iris_label)



In [8]:

    
print(data_train.head())









    



     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
55                 5.7               2.8                4.5               1.3
128                6.4               2.8                5.6               2.1
142                5.8               2.7                5.1               1.9
97                 6.2               2.9                4.3               1.3
130                7.4               2.8                6.1               1.9



In [9]:

    
print(label_train.head())









    



55     1
128    2
142    2
97     1
130    2
dtype: int64



In [10]:

    
# default value of test_size = 0.25
print(len(data_train), len(data_test))



In [11]:

    
clf = svm.SVC()
clf.fit(data_train, label_train)
pre = clf.predict(data_test)



In [12]:

    
print(type(pre))
print(pre)









    



<class 'numpy.ndarray'>
[0 0 1 1 0 0 0 0 0 2 1 0 0 0 2 1 1 2 2 2 2 1 0 1 1 1 2 0 2 2 0 2 0 2 0 1 0
 0]



In [13]:

    
# http://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html
ac_score = metrics.accuracy_score(label_test, pre)



In [14]:

    
print(ac_score)









    



0.973684210526



In [15]:

    
scores = model_selection.cross_val_score(clf, iris_data, iris_label, cv=3)
print(scores)
print(scores.mean())









    



[ 0.98039216  0.96078431  0.97916667]
0.973447712418