In [1]:
pd.set_option('display.max_columns', None)
In [2]:
df1 = pd.read_csv('../resource/preprocess_df1.csv')
df1.tail(1)
Out[2]:
영화
내 별점(y)
평균별점
이동진 별점
평가자수
보고싶어요수
코멘트수
감독
배우
등급
장르
국가
상영시간
년도
별점분포
이동진 코멘트
543
내 아내의 모든 것
4
3.65453
NaN
461,916
8,540
1,931
민규동
[임수정, 이선균, 류승룡]
15세 관람가
로맨틱 코미디
한국
121
2012
{"1":1717,"2":7827,"3":3095,"4":25019,"5":1403...
NaN
In [3]:
dist_df = pd.read_csv('../resource/preprocess_dist_df.csv')
dist_df.tail(1)
Out[3]:
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
543
1717
3095
7827
14038
25019
51010
107155
18351
161720
71984
In [4]:
df2 = df1.drop('별점분포', axis=1).drop('이동진 코멘트', axis=1)
df3 = pd.concat([df2, dist_df], axis=1)
df3.tail(1)
Out[4]:
영화
내 별점(y)
평균별점
이동진 별점
평가자수
보고싶어요수
코멘트수
감독
배우
등급
장르
국가
상영시간
년도
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
543
내 아내의 모든 것
4
3.65453
NaN
461,916
8,540
1,931
민규동
[임수정, 이선균, 류승룡]
15세 관람가
로맨틱 코미디
한국
121
2012
1717
3095
7827
14038
25019
51010
107155
18351
161720
71984
In [5]:
final_eng_df = df3.rename(columns={
"영화":"title", "내 별점(y)":"rating(y)", "평균별점":"avg_rating", "이동진 별점":"lee_rating",
"평가자수":"eval_count", "보고싶어요수":"wish_count", "코멘트수":"cmt_count", "감독":"director",
"배우":"actors", "등급":"film_rate", "장르":"genre", "국가":"nation", "상영시간":"run_time",
"년도":"year"})
final_eng_df
Out[5]:
title
rating(y)
avg_rating
lee_rating
eval_count
wish_count
cmt_count
director
actors
film_rate
genre
nation
run_time
year
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
0
스포트라이트
3.5
4.22683
4.5
13,025
9,796
2,585
토마스 맥카시
[마이클 키튼, 마크 러팔로, 레이첼 맥아담스]
15세 관람가
드라마
미국
128
2015
7
10
14
83
50
1472
454
4509
4318
2108
1
찌라시 : 위험한 소문
2.5
2.99629
NaN
58,122
3,166
965
김광식
[김강우, 정진영, 박성웅]
15세 관람가
드라마
한국
121
2013
1312
2238
2150
6749
6597
9397
16842
1367
9011
2459
2
비포 미드나잇
4.0
3.90119
NaN
66,296
33,565
1,539
리처드 링클레이터
[에단 호크, 줄리 델피, 시머스 데이비-피츠패트릭]
청소년 관람불가
로맨스/멜로
미국
108
2013
228
316
956
1513
2367
7526
9953
7289
21200
14948
3
더 웹툰: 예고살인
2.0
2.62241
NaN
67,031
1,079
712
김용균
[이시영, 엄기준, 문가영]
15세 관람가
공포
한국
104
2013
3615
4063
5424
8133
11525
6501
17566
765
7099
2340
4
트랜센던스
3.0
3.31175
NaN
68,174
9,510
2,439
월리 피스터
[조니 뎁, 레베카 홀, 모건 프리먼]
12세 관람가
SF
미국, 영국
119
2014
787
1612
1329
6635
5251
13675
15493
4620
14473
4299
5
인간중독
2.0
2.27068
NaN
71,711
1,780
1,801
김대우
[송승헌, 임지연, 온주완]
청소년 관람불가
드라마
한국
132
2014
6464
7653
7810
9750
15110
5136
13452
717
3879
1740
6
헝거게임: 모킹제이
2.5
3.52048
NaN
74,705
7,661
2,829
프란시스 로렌스
[제니퍼 로렌스, 리암 헴스워스, 조쉬 허처슨]
15세 관람가
판타지
미국
123
2014
627
994
895
5484
3262
16857
15539
5451
17810
7786
7
인턴
3.5
3.90317
NaN
74,444
10,389
7,696
낸시 마이어스
[로버트 드 니로, 앤 해서웨이, 르네 루소]
12세 관람가
코미디
미국
121
2015
68
215
134
2333
892
16408
8537
13171
23202
9484
8
뷰티 인사이드
2.0
3.61165
NaN
78,615
6,108
7,895
백종열
[이현우, 한효주, 김대명]
12세 관람가
로맨스/멜로
한국
127
2015
294
764
475
5541
2612
19241
13621
8633
20943
6491
9
검은 사제들
4.0
3.60711
NaN
79,275
4,026
7,954
장재현
[김윤석, 강동원, 박소담]
15세 관람가
스릴러
한국
108
2015
268
495
398
4124
1916
23240
14162
7177
23118
4377
10
내부자들
4.5
3.86041
NaN
81,082
5,085
8,404
우민호
[이병헌, 조승우, 백윤식]
청소년 관람불가
범죄
한국
130
2015
159
280
244
2816
1133
17798
9406
13980
26694
8572
11
사일런트 힐
3.0
3.34497
NaN
83,358
5,629
841
크리스토프 갱스
[라다 미첼, 로리 홀든, 숀 빈]
청소년 관람불가
공포
캐나다, 일본, 미국, 프랑스
124
2006
833
1109
3363
3894
8095
9721
22115
3029
22544
8655
12
마션
3.5
4.01025
4.0
93,331
8,067
10,234
리들리 스콧
[맷 데이먼, 제시카 차스테인, 제프 다니엘스]
12세 관람가
SF
미국
142
2015
69
186
141
1441
691
17710
6399
20209
35774
10711
13
시간 여행자의 아내
3.0
3.66282
NaN
96,957
21,133
1,044
로베르트 슈벤트케
[에릭 바나, 레이첼 맥아담스, 알렉스 페리스]
12세 관람가
로맨스/멜로
미국
107
2009
246
535
1604
3179
4844
12990
21657
6560
31673
13669
14
군도:민란의 시대
3.5
3.14855
NaN
102,482
7,671
7,200
윤종빈
[하정우, 강동원, 이경영]
15세 관람가
액션
한국
137
2014
1196
2669
1647
12924
7522
26156
28380
3269
16006
2713
15
씬 시티
3.5
3.56793
NaN
101,752
8,883
1,061
프랭크 밀러
[브루스 윌리스, 미키 루크, 제시카 알바]
청소년 관람불가
범죄
미국
123
2005
558
782
3799
2620
8100
9690
22607
5442
31937
16217
16
끝까지 간다
4.0
3.86662
3.5
116,851
6,526
6,115
김성훈
[이선균, 조진웅, 신동미]
15세 관람가
범죄
한국
111
2013
201
472
353
2972
1644
26814
12364
17296
42627
12108
17
빅 히어로
4.0
3.95044
NaN
119,876
10,304
5,545
크리스 윌리엄스
[라이언 포터, 스콧 애짓, 제이미 정]
전체 관람가
애니메이션
미국
108
2014
403
544
543
3478
1960
21940
12859
19271
36988
21890
18
루시
3.0
3.10815
NaN
122,449
9,728
6,180
뤽 베송
[스칼렛 요한슨, 모건 프리먼, 최민식]
청소년 관람불가
액션
미국, 프랑스
90
2014
2579
4574
3428
15836
12048
23538
28387
6242
19359
6458
19
버킷 리스트 - 죽기 전에 꼭 하고 싶은 것들
3.5
3.94196
NaN
127,387
40,384
1,187
롭 라이너
[잭 니콜슨, 모건 프리먼, 숀 헤이즈]
12세 관람가
드라마
미국
96
2007
254
390
1390
2259
3414
13299
20407
10470
44832
30672
20
킬러들의 수다
3.5
3.36549
NaN
132,497
5,907
598
장진
[신현준, 정재영, 신하균]
15세 관람가
코미디
한국
120
2001
772
1366
4549
5349
12560
14382
38527
3664
38626
12702
21
암살
4.0
3.94286
NaN
142,933
5,514
10,405
최동훈
[전지현, 이정재, 하정우]
15세 관람가
액션
한국
140
2015
179
434
323
3557
1445
30103
14994
26425
45653
19820
22
베테랑
3.5
4.00765
3.5
156,282
5,621
12,327
류승완
[황정민, 유아인, 유해진]
15세 관람가
액션
한국
124
2015
236
414
319
2903
1417
31166
12063
31427
52650
23687
23
메이즈 러너
2.5
3.69728
NaN
159,950
6,841
5,961
웨스 볼
[딜런 오브라이언, 토마스 생스터, 윌 폴터]
12세 관람가
액션
미국
113
2014
617
1414
1039
8592
4641
37161
26216
16663
44106
19501
24
디 워
0.5
1.98421
NaN
267,408
484
2,215
심형래
[제이슨 베어, 아만다 브룩스, 크레이그 로빈슨]
12세 관람가
판타지
한국
90
2007
35355
14910
65926
16272
56686
8712
46132
1406
14679
7330
25
건축학개론
3.0
3.58254
NaN
636,441
6,750
3,231
이용주
[엄태웅, 한가인, 이제훈]
12세 관람가
로맨스/멜로
한국
118
2012
3472
5626
14338
21799
43984
61959
159911
22984
199358
103010
26
어거스트 러쉬
3.5
3.94234
NaN
450,272
13,246
1,565
커스틴 쉐리단
[프레디 하이모어, 조나단 리스 마이어스, 케리 러셀]
전체 관람가
드라마
미국
113
2007
1275
1918
5987
8455
16750
36516
74932
28263
149635
126541
27
브루스 올마이티
3.5
3.79117
NaN
314,274
9,659
1,323
톰 새디악
[짐 캐리, 모건 프리먼, 제니퍼 애니스턴]
12세 관람가
코미디
미국
100
2003
620
1089
3393
6469
10671
35734
64547
16868
120436
54447
28
색, 계
4.0
3.55195
NaN
178,290
9,805
1,245
이안
[양조위, 탕웨이, 왕리홍]
청소년 관람불가
로맨스/멜로
미국, 중국, 대만, 홍콩
157
2007
978
1517
5044
5093
13926
18714
43671
9587
53611
26149
29
펄프 픽션
3.5
3.93998
NaN
65,199
17,580
1,466
쿠엔틴 타란티노
[존 트라볼타, 사무엘 L. 잭슨, 우마 서먼]
청소년 관람불가
범죄
미국
154
1994
113
158
1300
720
2506
5159
9866
6283
22912
16182
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
514
광해, 왕이 된 남자
4.0
4.02419
NaN
740,618
8,495
2,878
추창민
[이병헌, 류승룡, 한효주]
15세 관람가
드라마
한국
131
2012
1780
2773
6653
13707
19218
64363
104992
51875
254822
220435
515
7번방의 선물
4.0
3.97763
NaN
718,646
6,212
3,769
이환경
[류승룡, 갈소원, 박신혜]
15세 관람가
코미디
한국
127
2012
7418
6659
16716
18252
32781
47612
94642
46504
183835
264227
516
도둑들
4.0
3.76309
NaN
710,614
4,949
2,893
최동훈
[김윤석, 김혜수, 이정재]
15세 관람가
액션
한국
135
2012
2414
4207
8829
20367
31241
76738
148730
34423
243595
140070
517
말죽거리 잔혹사
3.0
3.37415
NaN
284,807
2,659
1,122
유하
[권상우, 이정진, 한가인]
15세 관람가
액션
한국
116
2004
1829
3355
7344
12887
25527
32512
85617
7965
81038
26733
518
포화 속으로
3.0
3.30031
1.5
295,020
1,733
872
이재한
[차승원, 권상우, 김승우]
12세 관람가
전쟁
한국
120
2010
2911
4867
11753
14956
31202
27829
86515
6797
75137
33053
519
스파이더맨 2
3.0
3.67278
NaN
331,860
2,607
920
샘 레이미
[토비 맥과이어, 커스틴 던스트, J.K. 시몬스]
12세 관람가
판타지
미국
126
2004
830
1776
4077
8713
17108
35702
85251
11654
111257
55492
520
센과 치히로의 행방불명
5.0
4.27281
NaN
647,024
7,048
3,539
미야자키 하야오
[최덕희, 김영선, 성선녀]
전체 관람가
애니메이션
일본
126
2001
866
1078
3894
4560
9284
34269
59920
57238
207706
268209
521
나비 효과
5.0
4.04594
NaN
298,343
22,950
1,720
에릭 브레스
[애쉬튼 커쳐, 에이미 스마트, 에릭 스톨츠]
청소년 관람불가
스릴러
미국
113
2004
664
792
3439
3622
8155
21522
40860
24174
105567
89548
522
셔터 아일랜드
4.0
3.80457
NaN
219,885
18,106
2,104
마틴 스콜세지
[레오나르도 디카프리오, 마크 러팔로, 벤 킹슬리]
15세 관람가
스릴러
미국
138
2010
599
829
4282
3894
10539
20787
40458
17404
77939
43154
523
트루먼 쇼
5.0
4.22021
NaN
428,668
22,765
3,243
피터 위어
[짐 캐리, 로라 린니, 노아 엠머리히]
15세 관람가
드라마
미국
102
1998
695
708
3046
3291
6914
25142
41245
46248
144162
157217
524
이프 온리
3.0
4.03853
NaN
366,089
21,471
1,733
길 정거
[제니퍼 러브 휴이트, 폴 니콜스, 루시 대번포트]
15세 관람가
로맨스/멜로
미국, 영국
96
2004
906
1305
4836
5549
12228
25338
53239
24528
116785
121375
525
공동경비구역 JSA
5.0
3.89998
NaN
321,863
13,833
1,301
박찬욱
[오동진, 은미, 원호섭]
15세 관람가
드라마
한국
110
2000
694
900
3390
4234
9629
27473
55591
21992
131500
66460
526
본 슈프리머시
4.0
4.14620
NaN
233,050
11,009
1,049
폴 그린그래스
[맷 데이먼, 프랑카 포텐테, 브라이언 콕스]
15세 관람가
액션
미국, 독일
110
2004
415
428
2088
2035
4293
15706
27495
16559
82502
81529
527
초능력자
2.0
2.85195
NaN
272,508
2,429
1,194
김민석
[강동원, 고수, 정은채]
15세 관람가
스릴러
한국
114
2010
5817
8388
21666
21128
49212
21120
83282
3237
42724
15934
528
블라인드
2.0
3.40819
3.0
284,610
3,631
785
안상훈
[김하늘, 유승호, 조희봉]
청소년 관람불가
스릴러
한국
111
2011
1550
2868
8508
11249
26329
26360
84131
7054
83611
32950
529
스쿨 오브 락
3.0
3.79351
3.5
297,396
10,288
1,430
리처드 링클레이터
[잭 블랙, 조앤 쿠삭, 사라 실버맨]
전체 관람가
코미디
미국, 독일
108
2003
840
1236
4372
5781
12211
30984
58886
15726
110000
57360
530
500일의 썸머
5.0
3.87432
4.5
290,351
30,515
4,145
마크 웹
[조셉 고든-레빗, 주이 디샤넬, 클락 그레그]
15세 관람가
로맨틱 코미디
미국
95
2009
881
1279
5666
5313
12680
27087
47612
23477
96953
69403
531
쇼생크 탈출
4.0
4.42741
NaN
458,522
26,688
3,182
프랭크 다라본트
[팀 로빈스, 모건 프리먼, 밥 건톤]
15세 관람가
드라마
미국
142
1994
749
601
3589
2135
5289
15286
28854
43314
119334
239371
532
러브 레터
5.0
3.97103
4.5
226,169
20,212
2,464
이와이 슌지
[나카야마 미호, 토요카와 에츠시, 카시와바라 타카시]
전체 관람가
로맨스/멜로
일본
117
1995
560
737
4162
2818
8782
15123
36934
15101
73481
68471
533
범죄와의 전쟁 : 나쁜놈들 전성시대
4.0
3.99282
NaN
464,647
15,638
2,243
윤종빈
[최민식, 하정우, 조진웅]
청소년 관람불가
범죄
한국
133
2011
1008
1419
5099
6578
13383
37959
69027
31844
170676
127654
534
악마는 프라다를 입는다
4.0
3.83566
NaN
485,522
12,069
2,109
데이빗 프랭클
[앤 해서웨이, 메릴 스트립, 스탠리 투치]
12세 관람가
로맨틱 코미디
미국
109
2006
939
1584
4630
9278
16019
51499
97439
26902
179984
97248
535
이끼
3.0
3.28881
3.5
274,059
5,396
967
강우석
[정재영, 박해일, 유해진]
청소년 관람불가
스릴러
한국
163
2010
1916
3245
9614
12825
30131
27166
85827
6469
72477
24389
536
리얼 스틸
1.0
3.69244
NaN
315,856
5,589
1,423
숀 레비
[휴 잭맨, 에반젤린 릴리, 다코타 고요]
12세 관람가
SF
미국
127
2011
1088
1966
5026
9465
17349
33556
71885
14244
104337
56940
537
레옹
4.0
4.29233
NaN
384,705
31,362
4,414
뤽 베송
[장 르노, 나탈리 포트만, 게리 올드만]
청소년 관람불가
범죄
프랑스, 미국
133
1994
533
614
2792
2673
5691
19824
33805
41942
114507
162324
538
내가 살인범이다
2.0
3.53845
NaN
309,470
8,553
1,353
정병길
[정재영, 박시후, 정해균]
청소년 관람불가
스릴러
한국
119
2012
2153
3498
8194
12583
22331
32122
74889
11681
95499
46520
539
말아톤
4.0
3.60102
NaN
375,039
2,092
799
정윤철
[조승우, 김미숙, 안내상]
전체 관람가
드라마
한국
115
2005
1174
2050
5835
10014
20412
44313
100190
15177
128117
47757
540
클래식
5.0
3.85321
NaN
314,513
15,380
1,829
곽재용
[손예진, 조승우, 조인성]
12세 관람가
로맨스/멜로
한국
132
2003
970
1401
5735
5904
13933
25697
60021
18274
104168
78410
541
아이언맨 3
4.0
4.10486
NaN
564,090
7,039
2,794
세인 블랙
[로버트 다우니 주니어, 기네스 팰트로우, 가이 피어스]
12세 관람가
SF
미국, 중국
129
2013
1198
1666
4521
8740
12696
46867
73291
37416
180392
197303
542
어린 신부
3.0
2.97457
NaN
341,757
782
757
김호준
[김래원, 문근영, 김인문]
12세 관람가
로맨틱 코미디
한국
115
2004
4791
7747
21333
21986
54695
26642
116168
3589
65017
19789
543
내 아내의 모든 것
4.0
3.65453
NaN
461,916
8,540
1,931
민규동
[임수정, 이선균, 류승룡]
15세 관람가
로맨틱 코미디
한국
121
2012
1717
3095
7827
14038
25019
51010
107155
18351
161720
71984
544 rows × 24 columns
In [6]:
df4 = final_eng_df[["director", "actors"]].applymap(lambda x: x.replace(" ",""))
df5 = df4.applymap(lambda x: str(x).replace("[","")).applymap(lambda x: str(x).replace("]",""))
df5
Out[6]:
director
actors
0
토마스맥카시
마이클키튼,마크러팔로,레이첼맥아담스
1
김광식
김강우,정진영,박성웅
2
리처드링클레이터
에단호크,줄리델피,시머스데이비-피츠패트릭
3
김용균
이시영,엄기준,문가영
4
월리피스터
조니뎁,레베카홀,모건프리먼
5
김대우
송승헌,임지연,온주완
6
프란시스로렌스
제니퍼로렌스,리암헴스워스,조쉬허처슨
7
낸시마이어스
로버트드니로,앤해서웨이,르네루소
8
백종열
이현우,한효주,김대명
9
장재현
김윤석,강동원,박소담
10
우민호
이병헌,조승우,백윤식
11
크리스토프갱스
라다미첼,로리홀든,숀빈
12
리들리스콧
맷데이먼,제시카차스테인,제프다니엘스
13
로베르트슈벤트케
에릭바나,레이첼맥아담스,알렉스페리스
14
윤종빈
하정우,강동원,이경영
15
프랭크밀러
브루스윌리스,미키루크,제시카알바
16
김성훈
이선균,조진웅,신동미
17
크리스윌리엄스
라이언포터,스콧애짓,제이미정
18
뤽베송
스칼렛요한슨,모건프리먼,최민식
19
롭라이너
잭니콜슨,모건프리먼,숀헤이즈
20
장진
신현준,정재영,신하균
21
최동훈
전지현,이정재,하정우
22
류승완
황정민,유아인,유해진
23
웨스볼
딜런오브라이언,토마스생스터,윌폴터
24
심형래
제이슨베어,아만다브룩스,크레이그로빈슨
25
이용주
엄태웅,한가인,이제훈
26
커스틴쉐리단
프레디하이모어,조나단리스마이어스,케리러셀
27
톰새디악
짐캐리,모건프리먼,제니퍼애니스턴
28
이안
양조위,탕웨이,왕리홍
29
쿠엔틴타란티노
존트라볼타,사무엘L.잭슨,우마서먼
...
...
...
514
추창민
이병헌,류승룡,한효주
515
이환경
류승룡,갈소원,박신혜
516
최동훈
김윤석,김혜수,이정재
517
유하
권상우,이정진,한가인
518
이재한
차승원,권상우,김승우
519
샘레이미
토비맥과이어,커스틴던스트,J.K.시몬스
520
미야자키하야오
최덕희,김영선,성선녀
521
에릭브레스
애쉬튼커쳐,에이미스마트,에릭스톨츠
522
마틴스콜세지
레오나르도디카프리오,마크러팔로,벤킹슬리
523
피터위어
짐캐리,로라린니,노아엠머리히
524
길정거
제니퍼러브휴이트,폴니콜스,루시대번포트
525
박찬욱
오동진,은미,원호섭
526
폴그린그래스
맷데이먼,프랑카포텐테,브라이언콕스
527
김민석
강동원,고수,정은채
528
안상훈
김하늘,유승호,조희봉
529
리처드링클레이터
잭블랙,조앤쿠삭,사라실버맨
530
마크웹
조셉고든-레빗,주이디샤넬,클락그레그
531
프랭크다라본트
팀로빈스,모건프리먼,밥건톤
532
이와이슌지
나카야마미호,토요카와에츠시,카시와바라타카시
533
윤종빈
최민식,하정우,조진웅
534
데이빗프랭클
앤해서웨이,메릴스트립,스탠리투치
535
강우석
정재영,박해일,유해진
536
숀레비
휴잭맨,에반젤린릴리,다코타고요
537
뤽베송
장르노,나탈리포트만,게리올드만
538
정병길
정재영,박시후,정해균
539
정윤철
조승우,김미숙,안내상
540
곽재용
손예진,조승우,조인성
541
세인블랙
로버트다우니주니어,기네스팰트로우,가이피어스
542
김호준
김래원,문근영,김인문
543
민규동
임수정,이선균,류승룡
544 rows × 2 columns
In [7]:
count_df = final_eng_df[['eval_count', 'wish_count', 'cmt_count']].applymap(
lambda x: x.replace(",", ""),).astype(float)
count_df
Out[7]:
eval_count
wish_count
cmt_count
0
13025
9796
2585
1
58122
3166
965
2
66296
33565
1539
3
67031
1079
712
4
68174
9510
2439
5
71711
1780
1801
6
74705
7661
2829
7
74444
10389
7696
8
78615
6108
7895
9
79275
4026
7954
10
81082
5085
8404
11
83358
5629
841
12
93331
8067
10234
13
96957
21133
1044
14
102482
7671
7200
15
101752
8883
1061
16
116851
6526
6115
17
119876
10304
5545
18
122449
9728
6180
19
127387
40384
1187
20
132497
5907
598
21
142933
5514
10405
22
156282
5621
12327
23
159950
6841
5961
24
267408
484
2215
25
636441
6750
3231
26
450272
13246
1565
27
314274
9659
1323
28
178290
9805
1245
29
65199
17580
1466
...
...
...
...
514
740618
8495
2878
515
718646
6212
3769
516
710614
4949
2893
517
284807
2659
1122
518
295020
1733
872
519
331860
2607
920
520
647024
7048
3539
521
298343
22950
1720
522
219885
18106
2104
523
428668
22765
3243
524
366089
21471
1733
525
321863
13833
1301
526
233050
11009
1049
527
272508
2429
1194
528
284610
3631
785
529
297396
10288
1430
530
290351
30515
4145
531
458522
26688
3182
532
226169
20212
2464
533
464647
15638
2243
534
485522
12069
2109
535
274059
5396
967
536
315856
5589
1423
537
384705
31362
4414
538
309470
8553
1353
539
375039
2092
799
540
314513
15380
1829
541
564090
7039
2794
542
341757
782
757
543
461916
8540
1931
544 rows × 3 columns
In [8]:
final_eng_df.replace({0.5:1,
1.5:1,
2.5:2,
3.5:3,
4.5:4,
}, inplace=True)
In [9]:
final_eng_df['rating(y)'].values
Out[9]:
array([ 3., 2., 4., 2., 3., 2., 2., 3., 2., 4., 4., 3., 3.,
3., 3., 3., 4., 4., 3., 3., 3., 4., 3., 2., 1., 3.,
3., 3., 4., 3., 3., 4., 4., 4., 4., 4., 4., 3., 3.,
4., 4., 5., 3., 4., 5., 4., 3., 4., 4., 4., 4., 4.,
4., 4., 4., 4., 2., 4., 3., 2., 4., 3., 2., 1., 1.,
2., 2., 2., 1., 2., 3., 5., 3., 3., 2., 4., 3., 2.,
3., 5., 4., 3., 3., 2., 3., 1., 3., 3., 2., 3., 1.,
1., 2., 2., 1., 2., 1., 2., 2., 3., 4., 3., 4., 1.,
4., 3., 4., 3., 4., 2., 4., 3., 4., 3., 1., 2., 2.,
2., 1., 3., 3., 3., 3., 4., 2., 4., 3., 3., 4., 3.,
4., 3., 1., 2., 2., 4., 4., 3., 1., 2., 2., 3., 2.,
4., 2., 5., 4., 5., 3., 4., 3., 5., 3., 3., 3., 3.,
3., 3., 4., 2., 3., 3., 4., 3., 2., 2., 3., 5., 5.,
4., 2., 5., 4., 3., 1., 3., 3., 3., 2., 3., 3., 3.,
4., 2., 4., 1., 2., 2., 4., 2., 3., 2., 3., 4., 3.,
3., 3., 2., 4., 3., 3., 5., 1., 3., 4., 4., 2., 2.,
1., 4., 3., 3., 4., 3., 3., 1., 3., 2., 3., 3., 2.,
2., 2., 3., 3., 3., 3., 5., 3., 2., 3., 3., 4., 2.,
3., 3., 4., 2., 3., 3., 5., 3., 4., 1., 4., 1., 1.,
4., 4., 4., 5., 3., 3., 5., 2., 2., 3., 5., 4., 4.,
4., 3., 3., 1., 4., 3., 4., 3., 3., 3., 3., 3., 2.,
1., 3., 5., 3., 3., 3., 2., 1., 4., 3., 3., 3., 4.,
4., 4., 1., 3., 1., 1., 1., 4., 3., 4., 3., 1., 1.,
1., 3., 4., 3., 2., 4., 3., 3., 2., 4., 3., 4., 3.,
3., 3., 3., 3., 2., 3., 3., 3., 3., 3., 4., 3., 5.,
3., 3., 3., 5., 3., 4., 4., 4., 3., 4., 3., 3., 3.,
4., 3., 3., 4., 5., 4., 4., 4., 4., 4., 4., 4., 4.,
3., 3., 4., 3., 4., 4., 5., 4., 4., 5., 5., 5., 3.,
3., 5., 4., 4., 4., 4., 4., 3., 5., 5., 3., 5., 3.,
3., 3., 3., 4., 3., 3., 4., 2., 2., 2., 1., 3., 3.,
4., 3., 1., 4., 3., 3., 2., 2., 3., 2., 1., 3., 1.,
1., 2., 1., 1., 3., 4., 4., 2., 1., 1., 1., 2., 2.,
4., 5., 5., 4., 1., 3., 2., 1., 4., 4., 5., 4., 3.,
4., 4., 4., 3., 1., 2., 2., 1., 3., 4., 3., 3., 4.,
4., 4., 3., 3., 3., 2., 3., 2., 2., 3., 3., 2., 3.,
3., 3., 1., 1., 4., 4., 3., 4., 3., 1., 1., 1., 1.,
4., 1., 4., 4., 3., 3., 2., 1., 4., 5., 4., 5., 1.,
1., 1., 5., 2., 5., 3., 3., 1., 5., 2., 1., 1., 1.,
5., 5., 3., 3., 4., 4., 4., 5., 5., 4., 3., 3., 2.,
2., 3., 4., 2., 4., 4., 5., 4., 4., 4., 3., 3., 3.,
5., 5., 4., 5., 3., 5., 4., 2., 2., 3., 5., 4., 5.,
4., 4., 3., 1., 4., 2., 4., 5., 4., 3., 4.])
In [10]:
final_eng_df = pd.concat([final_eng_df.ix[:,:'lee_rating'], count_df, df5, final_eng_df.ix[:,'film_rate':]], axis=1)
final_eng_df.tail(2)
Out[10]:
title
rating(y)
avg_rating
lee_rating
eval_count
wish_count
cmt_count
director
actors
film_rate
genre
nation
run_time
year
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
542
어린 신부
3
2.97457
NaN
341757
782
757
김호준
김래원,문근영,김인문
12세 관람가
로맨틱 코미디
한국
115
2004
4791
7747
21333
21986
54695
26642
116168
3589
65017
19789
543
내 아내의 모든 것
4
3.65453
NaN
461916
8540
1931
민규동
임수정,이선균,류승룡
15세 관람가
로맨틱 코미디
한국
121
2012
1717
3095
7827
14038
25019
51010
107155
18351
161720
71984
In [11]:
final_eng_df.describe()
Out[11]:
rating(y)
avg_rating
lee_rating
eval_count
wish_count
cmt_count
run_time
year
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
count
544.000000
544.000000
79.000000
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
mean
3.068015
3.523105
3.278481
223929.727941
7645.349265
1625.865809
117.976103
2006.522059
1487.737132
2022.419118
5881.650735
6941.125000
14355.235294
21001.687500
46972.729779
12159.170956
67247.323529
45860.656250
std
1.114515
0.475370
0.973188
158144.758766
7751.561753
2007.170921
18.524817
5.523387
2152.590573
1943.604448
5739.493759
5248.786627
11500.217844
14318.018144
32565.661357
12809.702655
53650.563685
53221.358839
min
1.000000
1.224700
1.000000
5841.000000
52.000000
67.000000
62.000000
1978.000000
7.000000
10.000000
14.000000
83.000000
50.000000
38.000000
242.000000
11.000000
50.000000
57.000000
25%
2.000000
3.279778
3.000000
97290.000000
2132.000000
587.000000
106.000000
2004.000000
495.500000
741.500000
2410.000000
3259.500000
6115.250000
9667.750000
21047.250000
2997.500000
25210.500000
9819.000000
50%
3.000000
3.620460
4.000000
186910.000000
5049.000000
1000.500000
116.000000
2007.000000
927.000000
1403.000000
4360.500000
5485.000000
10975.500000
18502.000000
40461.500000
7268.500000
52302.500000
25122.000000
75%
4.000000
3.867070
4.000000
314562.750000
10635.500000
1758.250000
127.250000
2011.000000
1670.500000
2577.250000
7449.000000
9348.250000
19889.000000
29311.500000
65592.750000
17125.750000
99452.500000
64507.000000
max
5.000000
4.427410
5.000000
740618.000000
40384.000000
15881.000000
199.000000
2016.000000
35355.000000
14910.000000
65926.000000
32443.000000
65440.000000
76738.000000
185491.000000
71713.000000
261018.000000
329120.000000
In [12]:
final_eng_df.describe(include='all')
Out[12]:
title
rating(y)
avg_rating
lee_rating
eval_count
wish_count
cmt_count
director
actors
film_rate
genre
nation
run_time
year
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
count
544
544.000000
544.000000
79.000000
544.000000
544.000000
544.000000
544
544
541
544
544
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
544.000000
unique
542
NaN
NaN
NaN
NaN
NaN
NaN
348
531
4
12
47
NaN
NaN
NaN
NaN
NaN
NaN
NaN
NaN
NaN
NaN
NaN
NaN
top
천녀유혼
NaN
NaN
NaN
NaN
NaN
NaN
크리스토퍼놀란
다니엘래드클리프,엠마왓슨,루퍼트그린트
15세 관람가
액션
한국
NaN
NaN
NaN
NaN
NaN
NaN
NaN
NaN
NaN
NaN
NaN
NaN
freq
2
NaN
NaN
NaN
NaN
NaN
NaN
7
7
203
87
213
NaN
NaN
NaN
NaN
NaN
NaN
NaN
NaN
NaN
NaN
NaN
NaN
mean
NaN
3.068015
3.523105
3.278481
223929.727941
7645.349265
1625.865809
NaN
NaN
NaN
NaN
NaN
117.976103
2006.522059
1487.737132
2022.419118
5881.650735
6941.125000
14355.235294
21001.687500
46972.729779
12159.170956
67247.323529
45860.656250
std
NaN
1.114515
0.475370
0.973188
158144.758766
7751.561753
2007.170921
NaN
NaN
NaN
NaN
NaN
18.524817
5.523387
2152.590573
1943.604448
5739.493759
5248.786627
11500.217844
14318.018144
32565.661357
12809.702655
53650.563685
53221.358839
min
NaN
1.000000
1.224700
1.000000
5841.000000
52.000000
67.000000
NaN
NaN
NaN
NaN
NaN
62.000000
1978.000000
7.000000
10.000000
14.000000
83.000000
50.000000
38.000000
242.000000
11.000000
50.000000
57.000000
25%
NaN
2.000000
3.279778
3.000000
97290.000000
2132.000000
587.000000
NaN
NaN
NaN
NaN
NaN
106.000000
2004.000000
495.500000
741.500000
2410.000000
3259.500000
6115.250000
9667.750000
21047.250000
2997.500000
25210.500000
9819.000000
50%
NaN
3.000000
3.620460
4.000000
186910.000000
5049.000000
1000.500000
NaN
NaN
NaN
NaN
NaN
116.000000
2007.000000
927.000000
1403.000000
4360.500000
5485.000000
10975.500000
18502.000000
40461.500000
7268.500000
52302.500000
25122.000000
75%
NaN
4.000000
3.867070
4.000000
314562.750000
10635.500000
1758.250000
NaN
NaN
NaN
NaN
NaN
127.250000
2011.000000
1670.500000
2577.250000
7449.000000
9348.250000
19889.000000
29311.500000
65592.750000
17125.750000
99452.500000
64507.000000
max
NaN
5.000000
4.427410
5.000000
740618.000000
40384.000000
15881.000000
NaN
NaN
NaN
NaN
NaN
199.000000
2016.000000
35355.000000
14910.000000
65926.000000
32443.000000
65440.000000
76738.000000
185491.000000
71713.000000
261018.000000
329120.000000
In [13]:
final_eng_df['wish_count'].min()
Out[13]:
52.0
In [14]:
final_eng_df.to_csv("../resource/preprocess_df2.csv", index=False)
Content source: JKeun/project-02-watcha
Similar notebooks: