In [1]:
import cv2
import pandas as pd
import re
In [38]:
geo_df = pd.read_csv('./geo_all.csv', names=['タイトル', '監督', 'カテゴリ', 'キャスト', '販売国', '画像URL', '詳細URL'])
In [39]:
# カテゴリの重複を削除してユニークにする
geo_categories_column = geo_df['カテゴリ'].apply(lambda x: str(x).split(','))
In [40]:
geo_categories_column[0], geo_categories_column[0][0]
Out[40]:
In [41]:
from itertools import chain
In [42]:
geo_categories = list(set(chain.from_iterable(geo_categories_column.values.flatten().tolist())))
In [43]:
geo_categories, len(geo_categories)
Out[43]:
この中の、(個人的に好きなジャンル)'ホラー', 'エイリアン・モンスター', 'パニック', 'SF'、 'ミステリー・サスペンス'を予測するモデルを作成する
In [44]:
my_favorite = ['ホラー', 'エイリアン・モンスター', 'パニック', 'SF', 'ミステリー・サスペンス']
# アニメ、ドラマシリーズは取り除きたい
ignore_categories = ['国内TVドラマ', 'アジアTVドラマ', '国内アニメ', '海外TVドラマ', 'SF (アニメ)']
In [45]:
_my_favarit_df = geo_df[geo_df['カテゴリ'].str.contains('|'.join(my_favorite))]
my_favarit_df = _my_favarit_df[~_my_favarit_df['カテゴリ'].str.contains('|'.join(ignore_categories))]
In [33]:
my_favarit_df.info()
とりあえず、11,055は集まったっぽい
In [34]:
# csvにはいてラベル付する
my_favarit_df.to_csv('favarit.csv')
In [36]:
# と、思ったけど、ラベル付だるくなったので、好きなやつだけにする
# つまり、好きっぽい・あんま興味ない範囲外の映画にする
In [57]:
not_my_favarit_df = geo_df[~geo_df.index.isin(my_favarit_df.index)]
In [58]:
not_my_favarit_df.info()
これでいいっぽい
In [71]:
my_favarit_df.loc[:, 'label'] = 0
not_my_favarit_df.loc[:, ('label')] = 1
In [72]:
my_favarit_df.head()
Out[72]:
In [73]:
not_my_favarit_df.head()
Out[73]:
In [74]:
my_favarit_df.to_csv('favarit.csv')
not_my_favarit_df.to_csv('not_my_favarit.csv')
In [2]:
test = pd.read_csv('./test.csv')
In [7]:
test[['画像URL']].to_csv('./test.csv', header=False, index=True)
In [ ]: