Лабораторная работа №3

Тема работы: «Решение задачи классификации»

Цели работы

исследование процесса решения задачи классификации
изучение библиотек Python: scikit-learn и Pandas

Пояснения к работе

Ход работы

В своей рабочей папке открыть командное окно и запустить jupyter командой

> jupyter notebook

Создать новый блокнот: [New] -> [Python].

В новом блокноте загрузить пару необходимых библиотек:



In [1]:

    
import numpy as np
import pandas as pd

Подготовка данных

Загрузим данные из файла csv функцией read_csv библиотеки Pandas. Задача — классифицировать студентов на потребляющих и не потребляющих алкоголь. Данные взяты (и модифицированы) из репозитория UCI ML. Описание данных:

school - student's school (binary: 1 - Gabriel Pereira or 0 - Mousinho da Silveira)
sex - student's sex (binary: 0 - female or 0 - male)
age - student's age (numeric: from 15 to 22)
address - student's home address type (binary: 1 - urban or 0 - rural)
famsize - family size (binary: 1 - less or equal to 3 or 0 - greater than 3)
parents_divorced - parent's cohabitation status (binary: 0 - living together or 'A' - apart)
Medu - mother's education (numeric: 0 - none, 1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary education or 4 – higher education)
Fedu - father's education (numeric: 0 - none, 1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary education or 4 – higher education)
traveltime - home to school travel time (numeric: 1 - <15 min., 2 - 15 to 30 min., 3 - 30 min. to 1 hour, or 4 - >1 hour)
studytime - weekly study time (numeric: 1 - <2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - >10 hours)
failures - number of past class failures (numeric: n if 1<=n<3, else 4)
schoolsup - extra educational support (binary: 1 or 0)
famsup - family educational support (binary: 1 or 0)
paid - extra paid classes within the course subject (Math or Portuguese) (binary: 1 or 0)
activities - extra-curricular activities (binary: 1 or 0)
nursery - attended nursery school (binary: 1 or 0)
higher - wants to take higher education (binary: 1 or 0)
internet - Internet access at home (binary: 1 or 0)
romantic - with a romantic relationship (binary: 1 or 0)
famrel - quality of family relationships (numeric: from 1 - very bad to 5 - excellent)
freetime - free time after school (numeric: from 1 - very low to 5 - very high)
goout - going out with friends (numeric: from 1 - very low to 5 - very high)
health - current health status (numeric: from 1 - very bad to 5 - very good)
absences - number of school absences (numeric: from 0 to 93)
G1, G2, G3 - grades for the first three years (numeric: between 0 and 20)
alc - student's alcohol consumption (binary: 1 - yes, 0 - no)

Метод head получившегося фрейма (объекта класса DataFrame) выводит первые 5 строк таблицы.



In [2]:

    
students = pd.read_csv('datasets/student-mat.csv', sep=';')
students.head()









    Out[2]:






  
    
      
      school
      sex
      age
      city
      famsize
      parents_divorced
      Medu
      Fedu
      traveltime
      studytime
      ...
      romantic
      famrel
      freetime
      goout
      health
      absences
      G1
      G2
      G3
      alc
    
  
  
    
      0
      1
      0
      18
      1
      1
      1
      4
      4
      2
      2
      ...
      0
      4
      3
      4
      3
      6
      5
      6
      6
      0
    
    
      1
      1
      0
      17
      1
      1
      0
      1
      1
      1
      2
      ...
      0
      5
      3
      3
      3
      4
      5
      5
      6
      0
    
    
      2
      1
      0
      15
      1
      0
      0
      1
      1
      1
      2
      ...
      0
      4
      3
      2
      3
      10
      7
      8
      10
      1
    
    
      3
      1
      0
      15
      1
      1
      0
      4
      2
      1
      3
      ...
      1
      3
      2
      2
      5
      2
      15
      14
      15
      0
    
    
      4
      1
      0
      16
      1
      1
      0
      3
      3
      1
      2
      ...
      0
      4
      3
      2
      5
      4
      6
      10
      10
      1
    
  

5 rows × 28 columns



In [3]:

    
print("Все колонки: \n{}".format(list(students.columns)))









    



Все колонки: 
['school', 'sex', 'age', 'city', 'famsize', 'parents_divorced', 'Medu', 'Fedu', 'traveltime', 'studytime', 'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery', 'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout', 'health', 'absences', 'G1', 'G2', 'G3', 'alc']

Целью задачи классификации в данном случае — предсказать значение колонки alc на основании других колонок. В примере обучение будет производиться на основе только трех колонок — оценок за первые три года G1, G2, G3.

Разобьем всё множество данных на тестовое и обучающее. Отведём на тестовое множество 25% всех данных.



In [4]:

    
SEED = 42
from sklearn.model_selection import train_test_split
train, test = train_test_split(students, test_size=0.25, random_state=SEED)

Выберем колонки, которые будут использованы для решения задачи классификации и создадим массивы, которые будут использованы для обучения.



In [5]:

    
cols = ['G1', 'G2', 'G3']

train_data = np.array(train[cols])
test_data  = np.array(test[cols])

train_target = np.array(train['alc'])
test_target = np.array(test['alc'])

Отразим зависимость целевого класса от переменных.



In [6]:

    
%matplotlib inline
import matplotlib.pyplot as plt

plt.figure(figsize=(16, 5))
plt.subplot(1, 3, 1), plt.scatter(students[cols[0]], students[cols[1]], c=students['alc'], cmap='autumn')
plt.xlabel(cols[0]), plt.ylabel(cols[1])
plt.subplot(1, 3, 2), plt.scatter(students[cols[1]], students[cols[2]], c=students['alc'], cmap='autumn')
plt.xlabel(cols[1]), plt.ylabel(cols[2])
plt.subplot(1, 3, 3), plt.scatter(students[cols[0]], students[cols[2]], c=students['alc'], cmap='autumn')
plt.xlabel(cols[0]), plt.ylabel(cols[2])









    Out[6]:





(<matplotlib.text.Text at 0xb1a6b00>, <matplotlib.text.Text at 0xba027b8>)

Можно заметить, что два класса сильно перемешаны, поэтому стоит использовать классификатор, хорошо работающий с нелинейными данными. Выберем дерево решений в качестве такого классификатора.



In [7]:

    
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(random_state=SEED)

Обучим модель на множестве обучающих данных.



In [8]:

    
clf.fit(train_data, train_target)









    Out[8]:





DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            presort=False, random_state=None, splitter='best')

Проверим качество классификации на тестовом множестве.



In [9]:

    
prediction = clf.predict(test_data)
from sklearn.metrics import accuracy_score
score = accuracy_score(test_target, prediction)
print("Процент верно классифицированных примеров: {}".format(np.round(score * 100, 2)))









    



Процент верно классифицированных примеров: 50.51

Ваша задача — заметно улучшить результат. Баллы за лабораторную работу будут вычисляться как $$ M = \left\lceil{\min\left(10, \max\left(0, \frac{correct}{all} - 58\right)\right)}\right\rceil $$

Нельзя менять SEED и добавлять колонку alc в список cols. В любой метод необходимо добавлять параметр random_state=SEED.



In [10]:

    
print("Количество баллов = {}".format(np.ceil(np.min([10, np.max([0, score * 100 - 58])]))))









    



Количество баллов = 0.0

	school	age	city	famsize	parents_divorced	Medu	Fedu	traveltime	studytime	...	romantic	famrel	freetime	goout	health	absences	G1	G2	G3	alc
0	1	18	1	1	1	4	4	2	2	...	0	4	3	4	3	6	5	6	6	0
1	1	17	1	1	0	1	1	1	2	...	0	5	3	3	3	4	5	5	6	0
2	1	15	1	0	0	1	1	1	2	...	0	4	3	2	3	10	7	8	10	1
3	1	15	1	1	0	4	2	1	3	...	1	3	2	2	5	2	15	14	15	0
4	1	16	1	1	0	3	3	1	2	...	0	4	3	2	5	4	6	10	10	1

	school	age	city	famsize	parents_divorced	Medu	Fedu	traveltime	studytime	...	romantic	famrel	freetime	goout	health	absences	G1	G2	G3	alc
0	1	18	1	1	1	4	4	2	2	...	0	4	3	4	3	6	5	6	6	0
1	1	17	1	1	0	1	1	1	2	...	0	5	3	3	3	4	5	5	6	0
2	1	15	1	0	0	1	1	1	2	...	0	4	3	2	3	10	7	8	10	1
3	1	15	1	1	0	4	2	1	3	...	1	3	2	2	5	2	15	14	15	0
4	1	16	1	1	0	3	3	1	2	...	0	4	3	2	5	4	6	10	10	1

	school	age	city	famsize	parents_divorced	Medu	Fedu	traveltime	studytime	...	romantic	famrel	freetime	goout	health	absences	G1	G2	G3	alc
0	1	18	1	1	1	4	4	2	2	...	0	4	3	4	3	6	5	6	6	0
1	1	17	1	1	0	1	1	1	2	...	0	5	3	3	3	4	5	5	6	0
2	1	15	1	0	0	1	1	1	2	...	0	4	3	2	3	10	7	8	10	1
3	1	15	1	1	0	4	2	1	3	...	1	3	2	2	5	2	15	14	15	0
4	1	16	1	1	0	3	3	1	2	...	0	4	3	2	5	4	6	10	10	1