Визуализация данных

Задача соревнования: по характеристикам человека и его заявки на медицинскую страховку предсказать степень риска, характерную для данной страховки.

Чем будем заниматься мы:

  • рассматривать данные;
  • пробовать разные методы визуализации;
  • анализировать графики и пытаться сделать выводы, полезные для следующих этапов решения задачи.

Целевой признак (степень риска) в задаче номинальный: целые числа от 1 до 8, а метрика качества, предложенная организаторами соревнования, оценивает степень согласованности двух рейтингов. Поэтому задачу можно решать и методами классификации, и методами регрессии (в последнем случае придется округлять предсказания). Это стоит учитывать при анализе результатов визуализации.

Мы будем визуализировать только обучающую выборку. Часто при решении конкурсов полезно визуализировать также тестовую выборку (на которой нужно сделать предсказание), чтобы убедиться, что данные идентичны.

Визуализацию в python часто делают с помощью библиотеки seaborn. Установить ее можно командой pip install seaborn. Если вы по каким-то причинам не можете установить библиотеку, вам придется строить некоторые графики самостоятельно или использовать их аналоги в pyplot. Pandas также использует seaborn, чтобы строить графики.


In [1]:
import numpy as np
import pandas
from matplotlib import pyplot as plt
import seaborn
%matplotlib inline

Считываем данные:


In [6]:
data = pandas.read_csv("train.csv", na_values="NaN")

In [7]:
data.head()


Out[7]:
Id Product_Info_1 Product_Info_2 Product_Info_3 Product_Info_4 Product_Info_5 Product_Info_6 Product_Info_7 Ins_Age Ht ... Medical_Keyword_40 Medical_Keyword_41 Medical_Keyword_42 Medical_Keyword_43 Medical_Keyword_44 Medical_Keyword_45 Medical_Keyword_46 Medical_Keyword_47 Medical_Keyword_48 Response
0 2 1 D3 10 0.076923 2 1 1 0.641791 0.581818 ... 0 0 0 0 0 0 0 0 0 8
1 5 1 A1 26 0.076923 2 3 1 0.059701 0.600000 ... 0 0 0 0 0 0 0 0 0 4
2 6 1 E1 26 0.076923 2 3 1 0.029851 0.745455 ... 0 0 0 0 0 0 0 0 0 8
3 7 1 D4 10 0.487179 2 3 1 0.164179 0.672727 ... 0 0 0 0 0 0 0 0 0 8
4 8 1 D2 26 0.230769 2 3 1 0.417910 0.654545 ... 0 0 0 0 0 0 0 0 0 8

5 rows × 128 columns

Часто в соревнованиях смысл признаков не известен, в нашем соревновании это не совсем так. Вы можете посмотреть описание признаков на странице с данными. Резюме: значение известно только для нескольких признаков, для остальных известна только группа, к которой этот признак принадлежит (например, медицинские данные) и тип признака: вещественный, целочисленный или категориальный. При этом неясно, можно ли считать категориальные признаки упорядоченными.

Создадим три списка признаков, соответствующие их группам: вещественные, целочисленные и категориальные (эти списки даны на странице соревнования). Уберем признак Id, так как он не несет смысловой нагрузки.

Если бы типы признаков были не даны, нам бы пришлось вручную просматривать все 128 признаков, чтобы понять, какие значения они принимают.


In [8]:
real_features = ["Product_Info_4", "Ins_Age", "Ht", "Wt", "BMI", "Employment_Info_1", "Employment_Info_4", "Employment_Info_6",
                 "Insurance_History_5", "Family_Hist_2", "Family_Hist_3", "Family_Hist_4", "Family_Hist_5"]
discrete_features = ["Medical_History_1", "Medical_History_10", "Medical_History_15", "Medical_History_24", "Medical_History_32"]
cat_features = data.columns.drop(real_features).drop(discrete_features).drop(["Id", "Response"]).tolist()

Первичный анализ

Есть набор стандартных приемов визуализации, которые нужно попробовать, когда вы начинаете работу с набором данных; к ним относятся построение гистограмм признаков (histogram, density estimation), л статистик, оценка зависимости целевого признака от остальных (boxplot, scatterplot, violinplot), визуализация пар признаков (как правило, scatterplot).

Сначала рассмотрим числовые признаки, затем - категориальные.

Выведем статистики вещественных и целочисленных признаков:

In [9]:
data[real_features].describe()


C:\Users\user\Anaconda2\lib\site-packages\numpy\lib\function_base.py:3403: RuntimeWarning: Invalid value encountered in median
  RuntimeWarning)
Out[9]:
Product_Info_4 Ins_Age Ht Wt BMI Employment_Info_1 Employment_Info_4 Employment_Info_6 Insurance_History_5 Family_Hist_2 Family_Hist_3 Family_Hist_4 Family_Hist_5
count 59381.000000 59381.000000 59381.000000 59381.000000 59381.000000 59362.000000 52602.000000 48527.000000 33985.000000 30725.000000 25140.000000 40197.000000 17570.000000
mean 0.328952 0.405567 0.707283 0.292587 0.469462 0.077582 0.006283 0.361469 0.001733 0.474550 0.497737 0.444890 0.484635
std 0.282562 0.197190 0.074239 0.089037 0.122213 0.082347 0.032816 0.349551 0.007338 0.154959 0.140187 0.163012 0.129200
min 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000
25% 0.076923 0.238806 0.654545 0.225941 0.385517 NaN NaN NaN NaN NaN NaN NaN NaN
50% 0.230769 0.402985 0.709091 0.288703 0.451349 NaN NaN NaN NaN NaN NaN NaN NaN
75% 0.487179 0.567164 0.763636 0.345188 0.532858 NaN NaN NaN NaN NaN NaN NaN NaN
max 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000 0.943662 1.000000

In [10]:
data[discrete_features].describe()


Out[10]:
Medical_History_1 Medical_History_10 Medical_History_15 Medical_History_24 Medical_History_32
count 50492.000000 557.000000 14785.000000 3801.000000 1107.000000
mean 7.962172 141.118492 123.760974 50.635622 11.965673
std 13.027697 107.759559 98.516206 78.149069 38.718774
min 0.000000 0.000000 0.000000 0.000000 0.000000
25% NaN NaN NaN NaN NaN
50% NaN NaN NaN NaN NaN
75% NaN NaN NaN NaN NaN
max 240.000000 240.000000 240.000000 240.000000 240.000000

In [11]:
data.shape


Out[11]:
(59381, 128)

Ответьте на вопросы (Блок 1):

  • Есть ли пропуски в данных? Перечислите вещественные и целочисленные признаки, которые известны для всех объектов.
    • Ответ: Да, в данных есть пропущенные значения. Вещественные: Product_Info_4, Ins_Age, Ht, Wt, BMI, для целочисленных таких показателей нет.
  • Перечислите вещественные и целочисленные признаки, значение которых известно менее, чем для половины объектов.
    • Ответ: Вещественные: Family_Hist_2,Family_Hist_3,Family_Hist_5. Целочисленные: Medical_History_10, Medical_History_15, Medical_History_24, Medical_History_32
  • Одинаков ли масштаб вещественных признаков? Масштаб целочисленных признаков? $^*$
    • Ответ: Да. Да. Масштаб вещественных признаков похож, если судить по среднему, стандартному отклонению и перцентилям. Если по минимальным значениями - сомнительно, т.к. там одни нулевые значения.

$^*$ Будем считать, что масштаб двух признаков одинаков, если их минимумы отличаются не более, чем в 2 раза, и аналогично с максимумами.

Мы видим, что в датасете есть признаки, которые не известны почти для всех объектов. Кроме того, легко проверить, что в выборке нет объектов, для которых известны все признаки, даже если рассматривать только вещественные. Значит, при решении задачи нужно было бы использовать более сложные методы обработки пропусков, чем удаление объектов.

Постройте гистограммы вещественных и целочисленных признаков.

Вместо того, чтобы в цикле по признакам строить отдельно каждую гистограмму, стоит воспользоваться методом hist датафрейма. Рекомендуется отдельно вывести гистограммы вещественных и целочисленных признаков. Установите размер изображения (20, 20) для первой группы признаков и (10, 10) для второй, bins=100.


In [12]:
data_real = data[real_features]
data_discrete = data[discrete_features]

In [13]:
data_real.hist(bins=100, figsize=(20,20))


Out[13]:
array([[<matplotlib.axes._subplots.AxesSubplot object at 0x000000000C569710>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000000000CE38358>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000000000D667940>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000000000E8242E8>],
       [<matplotlib.axes._subplots.AxesSubplot object at 0x000000000BA514E0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000000000C7A0F28>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000000000BDC88D0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000000000C1F5978>],
       [<matplotlib.axes._subplots.AxesSubplot object at 0x000000000E4C2320>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000000000C5A94A8>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000000000C6A3EF0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000000000C5B89E8>],
       [<matplotlib.axes._subplots.AxesSubplot object at 0x000000000A3A86D8>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000000000C7F1080>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000000000C8D59B0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000000000E2D2358>]], dtype=object)

In [14]:
data_discrete.hist(bins=100, figsize=(10,10))


Out[14]:
array([[<matplotlib.axes._subplots.AxesSubplot object at 0x000000000ECAF2B0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000000000BB507B8>],
       [<matplotlib.axes._subplots.AxesSubplot object at 0x000000000F5713C8>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000000000D488C88>],
       [<matplotlib.axes._subplots.AxesSubplot object at 0x0000000014C27C50>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000000000DAA7A58>]], dtype=object)

Ответьте на вопросы (Блок 2):

  • Есть ли константные признаки среди вещественных и целочисленных? Признак является константным, если множество его значений состоит из единственного элемента.
    • Ответ: Нет. Похоже это признак Insurance_history_5.
  • Предположим, что мы составили выборку, в которую вошли все и только вещественные признаки. Можно ли ее описать многомерным нормальным распределением? $^*$
    • Ответ: Нет. Выборку, в которую ВСЕ признаки нельзя будет описать нормальным распределением, т.к. слишком многие из них распределены явно не по Гауссу. Если говорить только о вещественных - тоже сомнительно, т.к. часть признаков (4 из 13) распределены явно не нормально.

$^*$ Плотность многомерного нормального распределения во всех проекциях на отдельные переменные должна быть симметрична, куполообразна, а значит, унимодальна.

Среди вещественных есть признаки с очень большим перекосом в сторону какого-то одного значения (например, Employmennt_Info_4), возможно, их стоило бы прологарифмировать при решении задачи. Кроме того, есть признаки со сложной структурой гистограммы. Распределения целочисленных признаков (относящихся к группе медицинских) имеют схожую структуру.

В целом данные разнородны, и описать их одним вероятностным распределением непросто.

Теперь визуализируем признаки попарно.

Построим scatterplot для пар вещественных признаков.


In [15]:
seaborn.pairplot(data[real_features+["Response"]].drop(
        ["Employment_Info_4", "Employment_Info_6", "Insurance_History_5", "Product_Info_4"], axis=1), 
        hue="Response", diag_kind="kde")


Out[15]:
<seaborn.axisgrid.PairGrid at 0x147cfb70>

Классы накрывают друг друга, и графики не очень информативны. Но они позволяют ответить на некоторые вопросы о взаимоотношениях признаков и соотношений признаков и классов.

Ответьте на вопросы (Блок 3):

  • Есть ли пары признаков, у которых облака точек разных классов отличаются? Иными словами, есть ли графики, на которых видны облака разных классов, а не только последнего нарисованного?
    • Ответ: Да. Первый, что бросается в глаза - BMI. Он со многими признаками разделим на несколько классов. BMI - это индекс массы тела и выражается через вес и рост. Отсюда встречаются отдельные участки точек в сочетании Ht(Рост) и Wt (Вес). Вообще, это наиболее частые параметры, которые используются в медицинских исследованиях для разбиения пациентов на разные когорты и группы.
  • Есть ли объекты-выбросы, то есть такие точки, которые стоят далеко от общего облака точек?
    • Ответ: Да.Мне кажется Emploiment_Info_1 часто образует выбросы с указанными выше параметрами. Часть точек отстоит довольно далеко от основного облака.

В целом облака точек выглядят достаточно компактно (в неформальном понимании этого слова), их можно приблизить искривленным кругом.

Теперь постройте такие же графики для целочисленных признаков (никакие признаки удалять не нужно, потому что таких признаков и так немного).


In [16]:
seaborn.pairplot(data[discrete_features+["Response"]], hue="Response", diag_kind="kde")


Out[16]:
<seaborn.axisgrid.PairGrid at 0x14efc908>

Графики выглядят еще менее информативно. Заметна тенденция, что пары признаков сконцентрированы либо на сторонач квадрата [0, 240] x [0, 240], либо на его диагонали, то есть признаки как-то связаны.

Посмотрим на корреляции признаков, чтобы узнать, не нужно ли удалять какие-то признаки перед (гипотетическим) построением модели.

Для визуализации матрицы попарных корреляций удобно использовать функцию seaborn.heatmap, она автоматически подпишет признаки на осях и покажет colorbar. Мы вычисляем корреляции только между вещественными признаками, для целочисленных признаков корреляции вычисляется по другим формулам.


In [17]:
seaborn.heatmap(data[real_features].corr(), square=True)


Out[17]:
<matplotlib.axes._subplots.AxesSubplot at 0x2d011400>

In [18]:
data[real_features].corr()


Out[18]:
Product_Info_4 Ins_Age Ht Wt BMI Employment_Info_1 Employment_Info_4 Employment_Info_6 Insurance_History_5 Family_Hist_2 Family_Hist_3 Family_Hist_4 Family_Hist_5
Product_Info_4 1.000000 -0.261356 0.141780 -0.028041 -0.129369 0.350974 0.048123 0.224500 0.140846 -0.043063 -0.089872 -0.107532 -0.113389
Ins_Age -0.261356 1.000000 0.008419 0.110366 0.137076 0.096003 0.137615 0.386254 -0.013685 0.855715 0.356716 0.895261 0.474544
Ht 0.141780 0.008419 1.000000 0.610425 0.123125 0.200506 0.017609 0.084342 0.038076 0.032100 -0.003242 0.040475 0.007595
Wt -0.028041 0.110366 0.610425 1.000000 0.854083 0.097917 0.008092 0.015391 0.004212 0.072561 -0.024526 0.088926 -0.026430
BMI -0.129369 0.137076 0.123125 0.854083 1.000000 -0.005346 -0.002261 -0.035975 -0.018575 0.072697 -0.028252 0.088586 -0.038690
Employment_Info_1 0.350974 0.096003 0.200506 0.097917 -0.005346 1.000000 0.040864 0.383565 0.132868 0.208442 0.023507 0.183302 0.024456
Employment_Info_4 0.048123 0.137615 0.017609 0.008092 -0.002261 0.040864 1.000000 0.184595 0.042781 0.070683 0.061335 0.091788 0.062506
Employment_Info_6 0.224500 0.386254 0.084342 0.015391 -0.035975 0.383565 0.184595 1.000000 0.086256 0.391236 0.137494 0.394053 0.156341
Insurance_History_5 0.140846 -0.013685 0.038076 0.004212 -0.018575 0.132868 0.042781 0.086256 1.000000 0.022079 0.000236 0.015425 0.003921
Family_Hist_2 -0.043063 0.855715 0.032100 0.072561 0.072697 0.208442 0.070683 0.391236 0.022079 1.000000 NaN 0.934615 0.630797
Family_Hist_3 -0.089872 0.356716 -0.003242 -0.024526 -0.028252 0.023507 0.061335 0.137494 0.000236 NaN 1.000000 0.511904 0.206240
Family_Hist_4 -0.107532 0.895261 0.040475 0.088926 0.088586 0.183302 0.091788 0.394053 0.015425 0.934615 0.511904 1.000000 NaN
Family_Hist_5 -0.113389 0.474544 0.007595 -0.026430 -0.038690 0.024456 0.062506 0.156341 0.003921 0.630797 0.206240 NaN 1.000000

Ответьте на вопрос (Блок 4):

  • Есть ли пара (несовпадающих) признаков, корреляция между которыми больше 0.9 (можно проверить программно)? Если есть, то выпишите эту пару.
    • Ответ: Да, есть такая пара - Family_Hist_4 и Family_Hist_2. Еще оба эти признаки близко к 0.9 коррелируют с Ins_Age.

Перейдем к визуализации категориальных признаков.

Посчитаем количество значений для каждого признака.

Строим много графиков вручную.


In [19]:
fig, axes = plt.subplots(11, 10, figsize=(20, 20), sharey=True)
for i in range(len(cat_features)):
    seaborn.countplot(x=cat_features[i], data=data, ax=axes[i / 10, i % 10])
fig.tight_layout()


Ответьте на вопросы (Блок 5):

  • Есть ли среди категориальных признаков константные?
    • Ответ: Нет. Могу ошибиться и что-то просмотреть из-за малого масштаба.
  • Есть ли признаки с количеством возможных категорий (число значений признака) больше 5?
    • Ответ:Да, Product_info_2,3;Employment_info_2;Insuredinfo_3;Medical_History_2

У нас есть много признаков с сильными перекосами в сторону отдельного значения. Учитывая, что среди категориальных признаков много медицинских показателей, можно предположить, что именно эти признаки сильно влияют на увеличение риска (целевой признак). Проверить это предположение можно, построив такие же countplot с разбивкой каждого значения дополнительно по классам (то есть у нас будет несколько групп столбиков, и в каждой группе их будет 8). Это можно сделать, указав параметр hue в этой функции аналогично тому, как мы это делали выше.

Постройте графики countplot для признаков 'Medical_Keyword_23', 'Medical_Keyword_39', 'Medical_Keyword_45' (признаки выбраны случайно) с разбивкой по классам.


In [20]:
seaborn.countplot(x='Medical_Keyword_23', hue='Response', data=data)


Out[20]:
<matplotlib.axes._subplots.AxesSubplot at 0x2d0c8b70>

In [21]:
extra_plots=['Medical_Keyword_23', 'Medical_Keyword_39', 'Medical_Keyword_45']

In [22]:
fig, axes = plt.subplots(2, 3, figsize=(20, 20), sharey=True)
for i in range(len(extra_plots)):
    seaborn.countplot(x=extra_plots[i], hue='Response', data=data, ax=axes[i / 10, i % 10])
fig.tight_layout()


Ответьте на вопрос (Блок 6):

  • Наличие каких из этих трех факторов сильно повышает риск? Будем считать, что наличие признака сильно повышает риск, если количество человек, имеющих этот признак (то есть он для них равен 1) и отнесенных к категории риска 8, больше, чем такая же величина для любой другой категории риска.

    Из представленного выше графика можно заметить, что наличие признака 'Medical_Keyword_23' сильно повышает риск чего бы то ни было.

Наконец, посмотрим на распределение целевого признака, чтобы узнать, сбалансированы ли классы:

In [23]:
seaborn.countplot(data.Response)


Out[23]:
<matplotlib.axes._subplots.AxesSubplot at 0x34a4f908>

В категорию 8 люди попадают чаще, чем в другие категории.

Визуализация с помощью понижения размерности

Далее можно воспользоваться средствами понижения размерности. Для задачи с дискретным целевым признаком это позволит понять, какие классы хорошо разделяются, а какие - нет.

Такие методы строят матрицу попарных расстояний между объектами, которая в случае, когда объектов много, будет занимать много памяти. Кроме того, отображать много точек на scatter plot (а именно его используют для визуализации результата понижения размерности) неудобно. Поэтому мы перемешаем выборку (и далее будем использовать ее) и выберем првые 1000 объектов для понижения размерности.


In [2]:
from sklearn.utils import shuffle
from sklearn.preprocessing import scale

In [25]:
sdata = shuffle(data, random_state=321)

Методы sklearn не принимают матрицы с пропусками (nan). Чтобы избежать этой проблемы, не будем рассматривать признаки, которые имеют много пропусков (последние четыре в списке вещественных признаков). Кроме того, ограничимся рассмотрением вещественных признаков.

В следующей ячейке мы отбираем нужные признаки, затем находим объекты, у которых все признаки известны (нет пропусков в выбранных признаках), а затем создаем отдельно матрицу объекты-признаки для работы методов понижения размерности и отдельно вектор правильных ответов на этих объектах: data_subset и response_subset. Кроме того, мы дополнительно стандартизуем нашу маленькую выборку, потому что методы понижения размерности очень чувствительны к разномасштабным данным.


In [26]:
subset_l  = 1000
selected_features = real_features[:-4]
objects_with_nan = sdata.index[np.any(np.isnan(sdata[selected_features].values), axis=1)]   
data_subset = scale(sdata[selected_features].drop(objects_with_nan, axis=0)[:subset_l])
response_subset = sdata["Response"].drop(objects_with_nan, axis=0)[:subset_l]

Будем строить визуализацию методами, разобранными на лекции: t-SNE и MDS.


In [27]:
from sklearn.manifold import TSNE
import matplotlib.cm as cm

Методы понижения размерности имеют такой же интерфейс, как классификаторы и регрессоры. Для построения визуализации t-SNE нужно создать объект класса и вызвать его метод fit_transform, который вернет матрицу размера число объектов x новая размерность; по умолчанию новая размерность равна 2. Выполните эти действия и запишите результат работы метода в переменную tsne_representation.


In [28]:
model=TSNE(random_state=321)
tsne_representation=model.fit_transform(data_subset)

Визуализируем полученное представление. Для этого создадим набор цветов по количеству классов, а затем в цикле по классам будем отображать представления точек, относящихся к этому классу. Будем указывать параметр alpha=0.5, чтобы сделать точки полупрозрачными, это лучше в ситуации, когда точки накладываются.


In [29]:
colors = cm.rainbow(np.linspace(0, 1, len(set(response_subset))))
for y, c in zip(set(data.Response), colors):
    plt.scatter(tsne_representation[response_subset.values==y, 0], 
                tsne_representation[response_subset.values==y, 1], c=c, alpha=0.5, label=str(y))
plt.legend()


Out[29]:
<matplotlib.legend.Legend at 0x3a3089b0>

Теперь сделаем то же с MDS.


In [30]:
from sklearn.manifold import MDS
from sklearn.metrics.pairwise import pairwise_distances

In [31]:
model=MDS(random_state=321)
MDS_transformed=model.fit_transform(data_subset)

In [32]:
colors = cm.rainbow(np.linspace(0, 1, len(set(response_subset))))
for y, c in zip(set(response_subset), colors):
    plt.scatter(MDS_transformed[response_subset.values==y, 0], 
                MDS_transformed[response_subset.values==y, 1], 
                c=c, alpha=0.5, label=str(y))
plt.legend()
plt.xlim(-5, 5)   # масса точек концентрируется в этом масштабе
plt.ylim(-5, 5)


Out[32]:
(-5, 5)

В t_SNE метрику можно указать при создании объекта класса TSNE, в MDS это реализуется несколько сложнее. Нужно указать dissimilarity="precomputed", а в fit_transform подать не матрицу объектов, а матрицу попарных расстояний между объектами. Создать ее можно с помощью функции pairwise_distances с параметрами: матрица объектов, метрика.


In [33]:
from sklearn.metrics.pairwise import pairwise_distances
precom_data=pairwise_distances(data_subset, metric='cosine', n_jobs=-1)
model=MDS(random_state=321, dissimilarity='precomputed')
MDS_transformed_cos=model.fit_transform(precom_data)

In [34]:
subset_l=1000
colors = cm.rainbow(np.linspace(0, 1, len(set(response_subset))))
for y, c in zip(set(response_subset), colors):
    plt.scatter(MDS_transformed_cos[response_subset.values[:subset_l]==y, 0], 
                MDS_transformed_cos[response_subset.values[:subset_l]==y, 1], 
                c=c, alpha=0.5, label=str(y))
plt.legend()


Out[34]:
<matplotlib.legend.Legend at 0x3a0e4048>

Ответьте на вопросы (Блок 7): Будем нумеровать визуализации от 1 до 3: tSNE, MDS по умолчанию, MDS с косинусной метрикой.

  • Есть ли визуализация, на которой классы хорошо разделяются? Классы хорошо разделяются, если между облаками точек разных классов можно проводить границы. Если есть, укажите хотя бы одну такую визуализацию.
    • Ответ: На мой взгляд нормально разделить не удалось ни на одной визуализации.
  • Есть ли визуализации, по которым видно, что объекты с наименьшим риском (1 и 2) отличаются от объектов с высоким риском (7 и 8)? Будем считать, что объекты классов A и B отличаются, если можно выделить область плоскости, в которой в целом больше точек класса A, и можно выделить область, в которой больше точек класса B. Если есть, укажите хотя бы одну такую визуализацию.
    • Ответ: Можно выделить такие области на третьем рисунке и, весьма условно, на втором рисунке. Если постараться там можно провести определенные границы между областями, где расположены точки.
  • Есть ли визуализации, на которым видны отдельно стоящие (от общего облака) точки? Если есть, укажите хотя бы одну такую визуализацию.
    • Ответ: На втором рисунке (до увеличения) определяется определенное количество точек лежащих отдельно от основного облака.

Визуализации разными методами достаточно сильно отличаются, но на каждой можно условно выделить направление, вдоль которого происходит увеличение риска от 1 до 8 (то есть точки постепенно меняют цвет). Если бы это не выполнялось, можно было бы предположить, что задача не решаема.

Поиск аномалий

Воспользуемся методами поиска аномалий, рассмотренными в лекции.

One class SVM

Для простоты выберем вещественные признаки, которые известны для всех объектов: Product_Info_4, Ins_Age, Ht, Wt, BMI. Оставим только те, которые относятся к человеку, то есть не будем рассматривать Product_Info_4. Получится, что мы отбираем нестандартных по комбинации вес/рост/возраст людей.


In [35]:
from sklearn import svm

In [36]:
person_features = ["Ins_Age", "Ht", "Wt", "BMI"]

Два ключевых параметра OC_SVM - gamma и nu. Первый влияет на то, как хорошо граница будет приближать данные, второй - сколько точек нужно относить к выбросам. Вы можете попробовать разные значения, в том числе, значения по умолчанию, и убедиться, что при них алгоритм работает не очень адекватно. Запустите следующую ячейку, на ее выполнение может понадобиться некоторое время.


In [37]:
svm_ = svm.OneClassSVM(gamma=10, nu=0.01) 
svm_.fit(sdata[person_features])


Out[37]:
OneClassSVM(cache_size=200, coef0=0.0, degree=3, gamma=10, kernel='rbf',
      max_iter=-1, nu=0.01, random_state=None, shrinking=True, tol=0.001,
      verbose=False)

In [38]:
labels = svm_.predict(sdata[person_features])

In [39]:
(labels==1).mean()


Out[39]:
0.98996311951634364

У вас должно получиться, что около 98% объектов не признаются выбросами.

Попытаемся визуализировать, какие объекты отнесены к шумовым. Для этого нужно построить scatter-графики для каждой пары признаков в person_features (всего 6 графиков). На каждом графике нужно отдельно отобразить точки с labels==1 и labels==-1.

Создайте pyplot-фигуру с 6 графиками: 2 x 3, укажите размер фигуры (12, 8). Затем в цикле по парам признаков из person_features отобразите scatter-графики точек (сделайте точки с разными labels разных цветов: синие, c="blue", - обычные точки, у которых labels==1, красные, c="red", - шумовые, у которых labels==-1.) Для построения графика можно пользоваться командой axes[...].scatter(...), вместо ... - ваш код. Функция scatter принимает две вектора одинаковой длины, абсциссы и ординаты точек, и дополнительные параметры, например, цвет c и коэффициент прозрачности точек alpha. Подпишите оси названиями признаков, это можно сделать с помощью команды axes[...].set_xlabel(...) или axes[...].set_ylabel(...).


In [40]:
from itertools import combinations
for item in combinations(person_features,2):    
    print item[0], item[1]


Ins_Age Ht
Ins_Age Wt
Ins_Age BMI
Ht Wt
Ht BMI
Wt BMI

In [41]:
labels_colors = ['b' if l==1 else 'r' for l in labels]
fig, axes = plt.subplots(2, 3, figsize=(12, 8))
num_graph = 0
for i in range(len(person_features) - 1):
    for j in range(i + 1, len(person_features)):
        ax = axes[num_graph / 3, num_graph % 3]
        ax.set_xlabel(person_features[i])
        ax.set_ylabel(person_features[j])
        ax.scatter(sdata[person_features[i]], sdata[person_features[j]], c=labels_colors, alpha=0.5)
        num_graph += 1


Вы должны увидеть, что, во-первых, синие точки заполняют почти все облако точек, а во-вторых, красные точки, как правило, находятся на границе или далеко от облака - это аномальные объекты.

Непараметрическое восстановление плотности.

Искать аномалии можно, анализируя непараметрически восстановленную плотность одномерного распределения. Так можно заметить, что какие-то объекты выбиваются из общей тенденции.


In [42]:
new_params=['BMI','Employment_Info_1','Medical_History_32']
objects_with_nan = data.index[np.any(np.isnan(data[new_params].values), axis=1)]   
data_subset = scale(data[new_params].drop(objects_with_nan, axis=0))

In [43]:
seaborn.distplot(data_subset[:,0],bins=50)


Out[43]:
<matplotlib.axes._subplots.AxesSubplot at 0x31120780>

In [44]:
seaborn.distplot(data_subset[:,1], bins=50)


Out[44]:
<matplotlib.axes._subplots.AxesSubplot at 0x2f1ded30>

In [45]:
seaborn.distplot(data_subset[:,2],bins=50)


Out[45]:
<matplotlib.axes._subplots.AxesSubplot at 0x34d6b358>

На трех графиках видно, что в конце множества значений признака есть скачок, и это явление очень похоже на аномалию.