Анализ дополнительных данных

Отзывы об интернет провайдерах, спарсенные с сайта: http://www.moskvaonline.ru/rating


In [2]:
import numpy as np
import pandas as pd
import matplotlib
%matplotlib inline

In [10]:
reviews = pd.read_csv('data/internet_reviews (1).csv')

In [11]:
reviews.head()


Out[11]:
Unnamed: 0 comment rating
0 0 Пользуюсь уже более 2лет все в... 1
1 1 Подключил только интернет за 5... 2
2 2 Подключил себе скорость 100 мб... 5
3 3 Подключились недавно, скорость... 3
4 4 Сегодня пришел домой и обнаруж... 1

In [12]:
reviews.shape


Out[12]:
(21713, 3)

In [13]:
reviews = reviews[~reviews.comment.duplicated()]
reviews.shape


Out[13]:
(21680, 3)

In [14]:
reviews.rating.value_counts()


Out[14]:
1    12876
5     6536
3     2200
2       46
0       14
4        8
Name: rating, dtype: int64

In [15]:
reviews[reviews.comment.apply(len) < 3000].comment.apply(len).hist(bins=50)


Out[15]:
<matplotlib.axes._subplots.AxesSubplot at 0x1d6010bf7f0>

In [8]:
# reviews = reviews[reviews.comment.apply(len) < 500]

In [23]:
reviews[reviews.comment.apply(lambda s: len(s.split()) < 200)].comment.apply(lambda s: len(s.split())).hist(bins=30)


Out[23]:
<matplotlib.axes._subplots.AxesSubplot at 0x1d600482d68>