Задание выполнил(а): Логин Виктор
Правильную монетку подбросили 3 раза.
{0,0,0},{0,0,1},{0,1,0},{0,1,1},{1,0,0},{1,0,1},{1,1,0},{1,1,1}
События A
и B
являются несовместимы, так как одновременно может выпасть только одно значение (орел/решка) - немогут наступить одновременно
События A
и B
являются дополняющими, так как:
Игральную кость подбросили два раза. Даны события $C$ и $D$.
$C = \text{«в первый раз выпало 2 очка»}$.
$D = \text{«разность между числом очков, выпавшим при втором броске, и числом очков, выпавшим при первом броске неотрицательна»}$.
({1,1},{1,2},{1,3},{1,4},{1,5},{1,6})
({2,2},{2,3},{2,4},{2,5},{2,6})
({3,3},{3,4},{3,5},{3,6})
({4,4},{4,5},{4,6})
({5,5},{5,6})
({6,6})
({2,2},{2,3},{2,4},{2,5},{2,6)
({2,1},{1,1},{1,2},{1,3},{1,4},{1,5},{1,6})
({2,2},{2,3},{2,4},{2,5},{2,6})
({3,3},{3,4},{3,5},{3,6})
({4,4},{4,5},{4,6})
({5,5},{5,6})
({6,6})
$P(C|D)$ = $P(C \cap D)$ / P(D) = (5/36) / (21/36) = (5/36) (36/21) = (536) / (36*21) = 5/21 ~= 1/4 События $C$ и $D$ являются независимыми, так как наступление одного события не влияет на второе событие
Немного о машинном обучении.
Задача классификации в машинном обучении.
Есть данные: набор объектов, обладающих некоторыми характеристиками, про которые известно, к каким классам они относятся. Задача: на основе имеющихся данных создать классификатор (алгоритм, модель), который сможет отнести произвольный объект к определенному классу, опираясь на характеристики этого объекта.
Например, нас интересует, каким пользователям можно рекомендовать фильм $X$. У нас есть база данных по 10000 пользователей, которая содержит следующую информацию: пол пользователя, какие жанры фильмов он предпочитает, сколько фильмов такого же жанра как и $X$ он посмотрел, смотрел ли фильмы с теми же актерами в главных ролях, и, наконец, отметил ли он фильм $X$ как понравившийся или нет. Выбираем подходящий нам метод классификации и на основе имеющихся данных обучаем классификатор, который будет определять, понравится ли фильм $X$ пользователю или нет (1 — понравится, 0 — не понравится). В результате на вход готовому классификатору мы сможем подать характеристики нового пользователя (женщина, предпочитает комедии, смотрела 2 фильма такого же жанра, что и $X$, не смотрела фильмов с теми же актерами в главных ролях), а классификатор выдаст нам метку 0 — фильм ей не понравится, рекомендовать его не стоит.
Оценка качества классификации.
Для оценки качества классификации в машинном обучении используются два важных показателя: точность (precision) и полнота (recall). В случае бинарной классификации (когда необходимо отнести объекты к одному из двух классов, условно «положительному» (1) или «отрицательному» (0), точность можно определить как долю объектов, которые действительно являются положительными, среди тех объектов, которые классификатор отнес к положительному классу, а полноту — как долю объектов, которые классификатор отнес к положительному классу, среди тех объектов, которые действительно являются положительными.
Можно заметить, что определения точности и полноты можно переформулировать в терминах условных вероятностей. Именно это и пригодится в задаче 3.
Группа исследователей, занимающихся анализом тональности, разработала свой метод классификации отзывов о фильмах — получила классификатор, который позволяет определить, является ли отзыв о фильме положительным или отрицательным (нейтральные отзывы не рассматриваются). Чтобы оценить качество метода классификации, исследователи взяли 1000 отзывов о фильмах, о которых известно, являются ли они положительными или отрицательными (метки присваивались экспертом), которые не были задействованы при обучении классификатора, определили их тональность с помощью созданного классификатора и проверили, насколько метки, присвоенные классификатором совпадают с метками, присвоенными экспертом.
Известно следующее: среди 1000 отобранных отзывов 520 положительных и 480 отрицательных. Полнота полученного метода классификации равна 0.7. Доля отзывов, которые классификатор пометил как положительные, среди отзывов, которые на самом деле отрицательные, равна 0.2. Определите точность разработанного исследователями метода классификации.
Указание. Вероятность в данной задаче следует определять как относительную частоту (долю). Например, вероятность того, что отзыв является положительным, равна не 1/2 (либо положительный, либо отрицательный), а доле положительных отзывов среди 1000 отобранных отзывов.
В задаче нужно использовать формулу Байеса. В качестве гипотез можно взять события «отзыв является положительным» ($H_1$) и «отзыв является отрицательным» ($H_2$).
Подсказка. Если не совсем понятно, каким образом точность и полноту можно представить в виде условных вероятностей, вот пример того, как можно вычислить полноту, используя вероятности:
$$recall = \dfrac{P(\text{«отзыв является положительным»} \cap \text{«отзыв помечен классификатором как положительный»})}{P(\text{«отзыв является положительным»})}.$$Осталось соотнести эту формулу с формулой условной вероятности и проделать то же самое для точности.
In [14]:
import matplotlib.pyplot as plt
%matplotlib inline
plt.xlim(-1, 4)
plt.ylim(0, 0.6)
plt.grid()
plt.plot(*zip([-1, 0], [0, 0], [1, 0.5], [2, 0.5], [3, 0], [4, 0]), lw = 1.5)
Out[14]: