final_eng_df

  • 이동진코멘트 삭제, 별점분포 feature 수정
  • col명 => 영어로 바꾸기
  • 감독, 배우 feature의 띄어쓰기부분 없애기 => BOW 생성시 한명의 이름을 두개로 나누는 오류를 방지하기위해

In [1]:
pd.set_option('display.max_columns', None)

In [2]:
df1 = pd.read_csv('../resource/preprocess_df1.csv')
df1.tail(1)


Out[2]:
영화 내 별점(y) 평균별점 이동진 별점 평가자수 보고싶어요수 코멘트수 감독 배우 등급 장르 국가 상영시간 년도 별점분포 이동진 코멘트
543 내 아내의 모든 것 4 3.65453 NaN 461,916 8,540 1,931 민규동 [임수정, 이선균, 류승룡] 15세 관람가 로맨틱 코미디 한국 121 2012 {"1":1717,"2":7827,"3":3095,"4":25019,"5":1403... NaN

In [3]:
dist_df = pd.read_csv('../resource/preprocess_dist_df.csv')
dist_df.tail(1)


Out[3]:
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
543 1717 3095 7827 14038 25019 51010 107155 18351 161720 71984

별점분포feature수정 & 이동진코멘트feature삭제


In [4]:
df2 = df1.drop('별점분포', axis=1).drop('이동진 코멘트', axis=1)
df3 = pd.concat([df2, dist_df], axis=1)
df3.tail(1)


Out[4]:
영화 내 별점(y) 평균별점 이동진 별점 평가자수 보고싶어요수 코멘트수 감독 배우 등급 장르 국가 상영시간 년도 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
543 내 아내의 모든 것 4 3.65453 NaN 461,916 8,540 1,931 민규동 [임수정, 이선균, 류승룡] 15세 관람가 로맨틱 코미디 한국 121 2012 1717 3095 7827 14038 25019 51010 107155 18351 161720 71984

col명 => 영어로 바꿈


In [5]:
final_eng_df = df3.rename(columns={
        "영화":"title", "내 별점(y)":"rating(y)", "평균별점":"avg_rating", "이동진 별점":"lee_rating",
    "평가자수":"eval_count", "보고싶어요수":"wish_count", "코멘트수":"cmt_count", "감독":"director",
    "배우":"actors", "등급":"film_rate", "장르":"genre", "국가":"nation", "상영시간":"run_time",
    "년도":"year"})
final_eng_df


Out[5]:
title rating(y) avg_rating lee_rating eval_count wish_count cmt_count director actors film_rate genre nation run_time year 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
0 스포트라이트 3.5 4.22683 4.5 13,025 9,796 2,585 토마스 맥카시 [마이클 키튼, 마크 러팔로, 레이첼 맥아담스] 15세 관람가 드라마 미국 128 2015 7 10 14 83 50 1472 454 4509 4318 2108
1 찌라시 : 위험한 소문 2.5 2.99629 NaN 58,122 3,166 965 김광식 [김강우, 정진영, 박성웅] 15세 관람가 드라마 한국 121 2013 1312 2238 2150 6749 6597 9397 16842 1367 9011 2459
2 비포 미드나잇 4.0 3.90119 NaN 66,296 33,565 1,539 리처드 링클레이터 [에단 호크, 줄리 델피, 시머스 데이비-피츠패트릭] 청소년 관람불가 로맨스/멜로 미국 108 2013 228 316 956 1513 2367 7526 9953 7289 21200 14948
3 더 웹툰: 예고살인 2.0 2.62241 NaN 67,031 1,079 712 김용균 [이시영, 엄기준, 문가영] 15세 관람가 공포 한국 104 2013 3615 4063 5424 8133 11525 6501 17566 765 7099 2340
4 트랜센던스 3.0 3.31175 NaN 68,174 9,510 2,439 월리 피스터 [조니 뎁, 레베카 홀, 모건 프리먼] 12세 관람가 SF 미국, 영국 119 2014 787 1612 1329 6635 5251 13675 15493 4620 14473 4299
5 인간중독 2.0 2.27068 NaN 71,711 1,780 1,801 김대우 [송승헌, 임지연, 온주완] 청소년 관람불가 드라마 한국 132 2014 6464 7653 7810 9750 15110 5136 13452 717 3879 1740
6 헝거게임: 모킹제이 2.5 3.52048 NaN 74,705 7,661 2,829 프란시스 로렌스 [제니퍼 로렌스, 리암 헴스워스, 조쉬 허처슨] 15세 관람가 판타지 미국 123 2014 627 994 895 5484 3262 16857 15539 5451 17810 7786
7 인턴 3.5 3.90317 NaN 74,444 10,389 7,696 낸시 마이어스 [로버트 드 니로, 앤 해서웨이, 르네 루소] 12세 관람가 코미디 미국 121 2015 68 215 134 2333 892 16408 8537 13171 23202 9484
8 뷰티 인사이드 2.0 3.61165 NaN 78,615 6,108 7,895 백종열 [이현우, 한효주, 김대명] 12세 관람가 로맨스/멜로 한국 127 2015 294 764 475 5541 2612 19241 13621 8633 20943 6491
9 검은 사제들 4.0 3.60711 NaN 79,275 4,026 7,954 장재현 [김윤석, 강동원, 박소담] 15세 관람가 스릴러 한국 108 2015 268 495 398 4124 1916 23240 14162 7177 23118 4377
10 내부자들 4.5 3.86041 NaN 81,082 5,085 8,404 우민호 [이병헌, 조승우, 백윤식] 청소년 관람불가 범죄 한국 130 2015 159 280 244 2816 1133 17798 9406 13980 26694 8572
11 사일런트 힐 3.0 3.34497 NaN 83,358 5,629 841 크리스토프 갱스 [라다 미첼, 로리 홀든, 숀 빈] 청소년 관람불가 공포 캐나다, 일본, 미국, 프랑스 124 2006 833 1109 3363 3894 8095 9721 22115 3029 22544 8655
12 마션 3.5 4.01025 4.0 93,331 8,067 10,234 리들리 스콧 [맷 데이먼, 제시카 차스테인, 제프 다니엘스] 12세 관람가 SF 미국 142 2015 69 186 141 1441 691 17710 6399 20209 35774 10711
13 시간 여행자의 아내 3.0 3.66282 NaN 96,957 21,133 1,044 로베르트 슈벤트케 [에릭 바나, 레이첼 맥아담스, 알렉스 페리스] 12세 관람가 로맨스/멜로 미국 107 2009 246 535 1604 3179 4844 12990 21657 6560 31673 13669
14 군도:민란의 시대 3.5 3.14855 NaN 102,482 7,671 7,200 윤종빈 [하정우, 강동원, 이경영] 15세 관람가 액션 한국 137 2014 1196 2669 1647 12924 7522 26156 28380 3269 16006 2713
15 씬 시티 3.5 3.56793 NaN 101,752 8,883 1,061 프랭크 밀러 [브루스 윌리스, 미키 루크, 제시카 알바] 청소년 관람불가 범죄 미국 123 2005 558 782 3799 2620 8100 9690 22607 5442 31937 16217
16 끝까지 간다 4.0 3.86662 3.5 116,851 6,526 6,115 김성훈 [이선균, 조진웅, 신동미] 15세 관람가 범죄 한국 111 2013 201 472 353 2972 1644 26814 12364 17296 42627 12108
17 빅 히어로 4.0 3.95044 NaN 119,876 10,304 5,545 크리스 윌리엄스 [라이언 포터, 스콧 애짓, 제이미 정] 전체 관람가 애니메이션 미국 108 2014 403 544 543 3478 1960 21940 12859 19271 36988 21890
18 루시 3.0 3.10815 NaN 122,449 9,728 6,180 뤽 베송 [스칼렛 요한슨, 모건 프리먼, 최민식] 청소년 관람불가 액션 미국, 프랑스 90 2014 2579 4574 3428 15836 12048 23538 28387 6242 19359 6458
19 버킷 리스트 - 죽기 전에 꼭 하고 싶은 것들 3.5 3.94196 NaN 127,387 40,384 1,187 롭 라이너 [잭 니콜슨, 모건 프리먼, 숀 헤이즈] 12세 관람가 드라마 미국 96 2007 254 390 1390 2259 3414 13299 20407 10470 44832 30672
20 킬러들의 수다 3.5 3.36549 NaN 132,497 5,907 598 장진 [신현준, 정재영, 신하균] 15세 관람가 코미디 한국 120 2001 772 1366 4549 5349 12560 14382 38527 3664 38626 12702
21 암살 4.0 3.94286 NaN 142,933 5,514 10,405 최동훈 [전지현, 이정재, 하정우] 15세 관람가 액션 한국 140 2015 179 434 323 3557 1445 30103 14994 26425 45653 19820
22 베테랑 3.5 4.00765 3.5 156,282 5,621 12,327 류승완 [황정민, 유아인, 유해진] 15세 관람가 액션 한국 124 2015 236 414 319 2903 1417 31166 12063 31427 52650 23687
23 메이즈 러너 2.5 3.69728 NaN 159,950 6,841 5,961 웨스 볼 [딜런 오브라이언, 토마스 생스터, 윌 폴터] 12세 관람가 액션 미국 113 2014 617 1414 1039 8592 4641 37161 26216 16663 44106 19501
24 디 워 0.5 1.98421 NaN 267,408 484 2,215 심형래 [제이슨 베어, 아만다 브룩스, 크레이그 로빈슨] 12세 관람가 판타지 한국 90 2007 35355 14910 65926 16272 56686 8712 46132 1406 14679 7330
25 건축학개론 3.0 3.58254 NaN 636,441 6,750 3,231 이용주 [엄태웅, 한가인, 이제훈] 12세 관람가 로맨스/멜로 한국 118 2012 3472 5626 14338 21799 43984 61959 159911 22984 199358 103010
26 어거스트 러쉬 3.5 3.94234 NaN 450,272 13,246 1,565 커스틴 쉐리단 [프레디 하이모어, 조나단 리스 마이어스, 케리 러셀] 전체 관람가 드라마 미국 113 2007 1275 1918 5987 8455 16750 36516 74932 28263 149635 126541
27 브루스 올마이티 3.5 3.79117 NaN 314,274 9,659 1,323 톰 새디악 [짐 캐리, 모건 프리먼, 제니퍼 애니스턴] 12세 관람가 코미디 미국 100 2003 620 1089 3393 6469 10671 35734 64547 16868 120436 54447
28 색, 계 4.0 3.55195 NaN 178,290 9,805 1,245 이안 [양조위, 탕웨이, 왕리홍] 청소년 관람불가 로맨스/멜로 미국, 중국, 대만, 홍콩 157 2007 978 1517 5044 5093 13926 18714 43671 9587 53611 26149
29 펄프 픽션 3.5 3.93998 NaN 65,199 17,580 1,466 쿠엔틴 타란티노 [존 트라볼타, 사무엘 L. 잭슨, 우마 서먼] 청소년 관람불가 범죄 미국 154 1994 113 158 1300 720 2506 5159 9866 6283 22912 16182
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
514 광해, 왕이 된 남자 4.0 4.02419 NaN 740,618 8,495 2,878 추창민 [이병헌, 류승룡, 한효주] 15세 관람가 드라마 한국 131 2012 1780 2773 6653 13707 19218 64363 104992 51875 254822 220435
515 7번방의 선물 4.0 3.97763 NaN 718,646 6,212 3,769 이환경 [류승룡, 갈소원, 박신혜] 15세 관람가 코미디 한국 127 2012 7418 6659 16716 18252 32781 47612 94642 46504 183835 264227
516 도둑들 4.0 3.76309 NaN 710,614 4,949 2,893 최동훈 [김윤석, 김혜수, 이정재] 15세 관람가 액션 한국 135 2012 2414 4207 8829 20367 31241 76738 148730 34423 243595 140070
517 말죽거리 잔혹사 3.0 3.37415 NaN 284,807 2,659 1,122 유하 [권상우, 이정진, 한가인] 15세 관람가 액션 한국 116 2004 1829 3355 7344 12887 25527 32512 85617 7965 81038 26733
518 포화 속으로 3.0 3.30031 1.5 295,020 1,733 872 이재한 [차승원, 권상우, 김승우] 12세 관람가 전쟁 한국 120 2010 2911 4867 11753 14956 31202 27829 86515 6797 75137 33053
519 스파이더맨 2 3.0 3.67278 NaN 331,860 2,607 920 샘 레이미 [토비 맥과이어, 커스틴 던스트, J.K. 시몬스] 12세 관람가 판타지 미국 126 2004 830 1776 4077 8713 17108 35702 85251 11654 111257 55492
520 센과 치히로의 행방불명 5.0 4.27281 NaN 647,024 7,048 3,539 미야자키 하야오 [최덕희, 김영선, 성선녀] 전체 관람가 애니메이션 일본 126 2001 866 1078 3894 4560 9284 34269 59920 57238 207706 268209
521 나비 효과 5.0 4.04594 NaN 298,343 22,950 1,720 에릭 브레스 [애쉬튼 커쳐, 에이미 스마트, 에릭 스톨츠] 청소년 관람불가 스릴러 미국 113 2004 664 792 3439 3622 8155 21522 40860 24174 105567 89548
522 셔터 아일랜드 4.0 3.80457 NaN 219,885 18,106 2,104 마틴 스콜세지 [레오나르도 디카프리오, 마크 러팔로, 벤 킹슬리] 15세 관람가 스릴러 미국 138 2010 599 829 4282 3894 10539 20787 40458 17404 77939 43154
523 트루먼 쇼 5.0 4.22021 NaN 428,668 22,765 3,243 피터 위어 [짐 캐리, 로라 린니, 노아 엠머리히] 15세 관람가 드라마 미국 102 1998 695 708 3046 3291 6914 25142 41245 46248 144162 157217
524 이프 온리 3.0 4.03853 NaN 366,089 21,471 1,733 길 정거 [제니퍼 러브 휴이트, 폴 니콜스, 루시 대번포트] 15세 관람가 로맨스/멜로 미국, 영국 96 2004 906 1305 4836 5549 12228 25338 53239 24528 116785 121375
525 공동경비구역 JSA 5.0 3.89998 NaN 321,863 13,833 1,301 박찬욱 [오동진, 은미, 원호섭] 15세 관람가 드라마 한국 110 2000 694 900 3390 4234 9629 27473 55591 21992 131500 66460
526 본 슈프리머시 4.0 4.14620 NaN 233,050 11,009 1,049 폴 그린그래스 [맷 데이먼, 프랑카 포텐테, 브라이언 콕스] 15세 관람가 액션 미국, 독일 110 2004 415 428 2088 2035 4293 15706 27495 16559 82502 81529
527 초능력자 2.0 2.85195 NaN 272,508 2,429 1,194 김민석 [강동원, 고수, 정은채] 15세 관람가 스릴러 한국 114 2010 5817 8388 21666 21128 49212 21120 83282 3237 42724 15934
528 블라인드 2.0 3.40819 3.0 284,610 3,631 785 안상훈 [김하늘, 유승호, 조희봉] 청소년 관람불가 스릴러 한국 111 2011 1550 2868 8508 11249 26329 26360 84131 7054 83611 32950
529 스쿨 오브 락 3.0 3.79351 3.5 297,396 10,288 1,430 리처드 링클레이터 [잭 블랙, 조앤 쿠삭, 사라 실버맨] 전체 관람가 코미디 미국, 독일 108 2003 840 1236 4372 5781 12211 30984 58886 15726 110000 57360
530 500일의 썸머 5.0 3.87432 4.5 290,351 30,515 4,145 마크 웹 [조셉 고든-레빗, 주이 디샤넬, 클락 그레그] 15세 관람가 로맨틱 코미디 미국 95 2009 881 1279 5666 5313 12680 27087 47612 23477 96953 69403
531 쇼생크 탈출 4.0 4.42741 NaN 458,522 26,688 3,182 프랭크 다라본트 [팀 로빈스, 모건 프리먼, 밥 건톤] 15세 관람가 드라마 미국 142 1994 749 601 3589 2135 5289 15286 28854 43314 119334 239371
532 러브 레터 5.0 3.97103 4.5 226,169 20,212 2,464 이와이 슌지 [나카야마 미호, 토요카와 에츠시, 카시와바라 타카시] 전체 관람가 로맨스/멜로 일본 117 1995 560 737 4162 2818 8782 15123 36934 15101 73481 68471
533 범죄와의 전쟁 : 나쁜놈들 전성시대 4.0 3.99282 NaN 464,647 15,638 2,243 윤종빈 [최민식, 하정우, 조진웅] 청소년 관람불가 범죄 한국 133 2011 1008 1419 5099 6578 13383 37959 69027 31844 170676 127654
534 악마는 프라다를 입는다 4.0 3.83566 NaN 485,522 12,069 2,109 데이빗 프랭클 [앤 해서웨이, 메릴 스트립, 스탠리 투치] 12세 관람가 로맨틱 코미디 미국 109 2006 939 1584 4630 9278 16019 51499 97439 26902 179984 97248
535 이끼 3.0 3.28881 3.5 274,059 5,396 967 강우석 [정재영, 박해일, 유해진] 청소년 관람불가 스릴러 한국 163 2010 1916 3245 9614 12825 30131 27166 85827 6469 72477 24389
536 리얼 스틸 1.0 3.69244 NaN 315,856 5,589 1,423 숀 레비 [휴 잭맨, 에반젤린 릴리, 다코타 고요] 12세 관람가 SF 미국 127 2011 1088 1966 5026 9465 17349 33556 71885 14244 104337 56940
537 레옹 4.0 4.29233 NaN 384,705 31,362 4,414 뤽 베송 [장 르노, 나탈리 포트만, 게리 올드만] 청소년 관람불가 범죄 프랑스, 미국 133 1994 533 614 2792 2673 5691 19824 33805 41942 114507 162324
538 내가 살인범이다 2.0 3.53845 NaN 309,470 8,553 1,353 정병길 [정재영, 박시후, 정해균] 청소년 관람불가 스릴러 한국 119 2012 2153 3498 8194 12583 22331 32122 74889 11681 95499 46520
539 말아톤 4.0 3.60102 NaN 375,039 2,092 799 정윤철 [조승우, 김미숙, 안내상] 전체 관람가 드라마 한국 115 2005 1174 2050 5835 10014 20412 44313 100190 15177 128117 47757
540 클래식 5.0 3.85321 NaN 314,513 15,380 1,829 곽재용 [손예진, 조승우, 조인성] 12세 관람가 로맨스/멜로 한국 132 2003 970 1401 5735 5904 13933 25697 60021 18274 104168 78410
541 아이언맨 3 4.0 4.10486 NaN 564,090 7,039 2,794 세인 블랙 [로버트 다우니 주니어, 기네스 팰트로우, 가이 피어스] 12세 관람가 SF 미국, 중국 129 2013 1198 1666 4521 8740 12696 46867 73291 37416 180392 197303
542 어린 신부 3.0 2.97457 NaN 341,757 782 757 김호준 [김래원, 문근영, 김인문] 12세 관람가 로맨틱 코미디 한국 115 2004 4791 7747 21333 21986 54695 26642 116168 3589 65017 19789
543 내 아내의 모든 것 4.0 3.65453 NaN 461,916 8,540 1,931 민규동 [임수정, 이선균, 류승룡] 15세 관람가 로맨틱 코미디 한국 121 2012 1717 3095 7827 14038 25019 51010 107155 18351 161720 71984

544 rows × 24 columns

director, actors features 띄어쓰기 없앰


In [6]:
df4 = final_eng_df[["director", "actors"]].applymap(lambda x: x.replace(" ",""))
df5 = df4.applymap(lambda x: str(x).replace("[","")).applymap(lambda x: str(x).replace("]",""))
df5


Out[6]:
director actors
0 토마스맥카시 마이클키튼,마크러팔로,레이첼맥아담스
1 김광식 김강우,정진영,박성웅
2 리처드링클레이터 에단호크,줄리델피,시머스데이비-피츠패트릭
3 김용균 이시영,엄기준,문가영
4 월리피스터 조니뎁,레베카홀,모건프리먼
5 김대우 송승헌,임지연,온주완
6 프란시스로렌스 제니퍼로렌스,리암헴스워스,조쉬허처슨
7 낸시마이어스 로버트드니로,앤해서웨이,르네루소
8 백종열 이현우,한효주,김대명
9 장재현 김윤석,강동원,박소담
10 우민호 이병헌,조승우,백윤식
11 크리스토프갱스 라다미첼,로리홀든,숀빈
12 리들리스콧 맷데이먼,제시카차스테인,제프다니엘스
13 로베르트슈벤트케 에릭바나,레이첼맥아담스,알렉스페리스
14 윤종빈 하정우,강동원,이경영
15 프랭크밀러 브루스윌리스,미키루크,제시카알바
16 김성훈 이선균,조진웅,신동미
17 크리스윌리엄스 라이언포터,스콧애짓,제이미정
18 뤽베송 스칼렛요한슨,모건프리먼,최민식
19 롭라이너 잭니콜슨,모건프리먼,숀헤이즈
20 장진 신현준,정재영,신하균
21 최동훈 전지현,이정재,하정우
22 류승완 황정민,유아인,유해진
23 웨스볼 딜런오브라이언,토마스생스터,윌폴터
24 심형래 제이슨베어,아만다브룩스,크레이그로빈슨
25 이용주 엄태웅,한가인,이제훈
26 커스틴쉐리단 프레디하이모어,조나단리스마이어스,케리러셀
27 톰새디악 짐캐리,모건프리먼,제니퍼애니스턴
28 이안 양조위,탕웨이,왕리홍
29 쿠엔틴타란티노 존트라볼타,사무엘L.잭슨,우마서먼
... ... ...
514 추창민 이병헌,류승룡,한효주
515 이환경 류승룡,갈소원,박신혜
516 최동훈 김윤석,김혜수,이정재
517 유하 권상우,이정진,한가인
518 이재한 차승원,권상우,김승우
519 샘레이미 토비맥과이어,커스틴던스트,J.K.시몬스
520 미야자키하야오 최덕희,김영선,성선녀
521 에릭브레스 애쉬튼커쳐,에이미스마트,에릭스톨츠
522 마틴스콜세지 레오나르도디카프리오,마크러팔로,벤킹슬리
523 피터위어 짐캐리,로라린니,노아엠머리히
524 길정거 제니퍼러브휴이트,폴니콜스,루시대번포트
525 박찬욱 오동진,은미,원호섭
526 폴그린그래스 맷데이먼,프랑카포텐테,브라이언콕스
527 김민석 강동원,고수,정은채
528 안상훈 김하늘,유승호,조희봉
529 리처드링클레이터 잭블랙,조앤쿠삭,사라실버맨
530 마크웹 조셉고든-레빗,주이디샤넬,클락그레그
531 프랭크다라본트 팀로빈스,모건프리먼,밥건톤
532 이와이슌지 나카야마미호,토요카와에츠시,카시와바라타카시
533 윤종빈 최민식,하정우,조진웅
534 데이빗프랭클 앤해서웨이,메릴스트립,스탠리투치
535 강우석 정재영,박해일,유해진
536 숀레비 휴잭맨,에반젤린릴리,다코타고요
537 뤽베송 장르노,나탈리포트만,게리올드만
538 정병길 정재영,박시후,정해균
539 정윤철 조승우,김미숙,안내상
540 곽재용 손예진,조승우,조인성
541 세인블랙 로버트다우니주니어,기네스팰트로우,가이피어스
542 김호준 김래원,문근영,김인문
543 민규동 임수정,이선균,류승룡

544 rows × 2 columns

count feature들 쉼표 없앰, type을 실수로 변경


In [7]:
count_df = final_eng_df[['eval_count', 'wish_count', 'cmt_count']].applymap(
    lambda x: x.replace(",", ""),).astype(float)
count_df


Out[7]:
eval_count wish_count cmt_count
0 13025 9796 2585
1 58122 3166 965
2 66296 33565 1539
3 67031 1079 712
4 68174 9510 2439
5 71711 1780 1801
6 74705 7661 2829
7 74444 10389 7696
8 78615 6108 7895
9 79275 4026 7954
10 81082 5085 8404
11 83358 5629 841
12 93331 8067 10234
13 96957 21133 1044
14 102482 7671 7200
15 101752 8883 1061
16 116851 6526 6115
17 119876 10304 5545
18 122449 9728 6180
19 127387 40384 1187
20 132497 5907 598
21 142933 5514 10405
22 156282 5621 12327
23 159950 6841 5961
24 267408 484 2215
25 636441 6750 3231
26 450272 13246 1565
27 314274 9659 1323
28 178290 9805 1245
29 65199 17580 1466
... ... ... ...
514 740618 8495 2878
515 718646 6212 3769
516 710614 4949 2893
517 284807 2659 1122
518 295020 1733 872
519 331860 2607 920
520 647024 7048 3539
521 298343 22950 1720
522 219885 18106 2104
523 428668 22765 3243
524 366089 21471 1733
525 321863 13833 1301
526 233050 11009 1049
527 272508 2429 1194
528 284610 3631 785
529 297396 10288 1430
530 290351 30515 4145
531 458522 26688 3182
532 226169 20212 2464
533 464647 15638 2243
534 485522 12069 2109
535 274059 5396 967
536 315856 5589 1423
537 384705 31362 4414
538 309470 8553 1353
539 375039 2092 799
540 314513 15380 1829
541 564090 7039 2794
542 341757 782 757
543 461916 8540 1931

544 rows × 3 columns

rating(y) 부분 수정

  • 왓챠에서 기존엔 1,2,3,4,5 점 체제였으므로 이에 맞춤
  • 0.5 => 1, 1.5, 2.5, 3.5, 4.5 => 내림

In [8]:
final_eng_df.replace({0.5:1,
                      1.5:1,
                      2.5:2,
                      3.5:3,
                      4.5:4,
                     }, inplace=True)

In [9]:
final_eng_df['rating(y)'].values


Out[9]:
array([ 3.,  2.,  4.,  2.,  3.,  2.,  2.,  3.,  2.,  4.,  4.,  3.,  3.,
        3.,  3.,  3.,  4.,  4.,  3.,  3.,  3.,  4.,  3.,  2.,  1.,  3.,
        3.,  3.,  4.,  3.,  3.,  4.,  4.,  4.,  4.,  4.,  4.,  3.,  3.,
        4.,  4.,  5.,  3.,  4.,  5.,  4.,  3.,  4.,  4.,  4.,  4.,  4.,
        4.,  4.,  4.,  4.,  2.,  4.,  3.,  2.,  4.,  3.,  2.,  1.,  1.,
        2.,  2.,  2.,  1.,  2.,  3.,  5.,  3.,  3.,  2.,  4.,  3.,  2.,
        3.,  5.,  4.,  3.,  3.,  2.,  3.,  1.,  3.,  3.,  2.,  3.,  1.,
        1.,  2.,  2.,  1.,  2.,  1.,  2.,  2.,  3.,  4.,  3.,  4.,  1.,
        4.,  3.,  4.,  3.,  4.,  2.,  4.,  3.,  4.,  3.,  1.,  2.,  2.,
        2.,  1.,  3.,  3.,  3.,  3.,  4.,  2.,  4.,  3.,  3.,  4.,  3.,
        4.,  3.,  1.,  2.,  2.,  4.,  4.,  3.,  1.,  2.,  2.,  3.,  2.,
        4.,  2.,  5.,  4.,  5.,  3.,  4.,  3.,  5.,  3.,  3.,  3.,  3.,
        3.,  3.,  4.,  2.,  3.,  3.,  4.,  3.,  2.,  2.,  3.,  5.,  5.,
        4.,  2.,  5.,  4.,  3.,  1.,  3.,  3.,  3.,  2.,  3.,  3.,  3.,
        4.,  2.,  4.,  1.,  2.,  2.,  4.,  2.,  3.,  2.,  3.,  4.,  3.,
        3.,  3.,  2.,  4.,  3.,  3.,  5.,  1.,  3.,  4.,  4.,  2.,  2.,
        1.,  4.,  3.,  3.,  4.,  3.,  3.,  1.,  3.,  2.,  3.,  3.,  2.,
        2.,  2.,  3.,  3.,  3.,  3.,  5.,  3.,  2.,  3.,  3.,  4.,  2.,
        3.,  3.,  4.,  2.,  3.,  3.,  5.,  3.,  4.,  1.,  4.,  1.,  1.,
        4.,  4.,  4.,  5.,  3.,  3.,  5.,  2.,  2.,  3.,  5.,  4.,  4.,
        4.,  3.,  3.,  1.,  4.,  3.,  4.,  3.,  3.,  3.,  3.,  3.,  2.,
        1.,  3.,  5.,  3.,  3.,  3.,  2.,  1.,  4.,  3.,  3.,  3.,  4.,
        4.,  4.,  1.,  3.,  1.,  1.,  1.,  4.,  3.,  4.,  3.,  1.,  1.,
        1.,  3.,  4.,  3.,  2.,  4.,  3.,  3.,  2.,  4.,  3.,  4.,  3.,
        3.,  3.,  3.,  3.,  2.,  3.,  3.,  3.,  3.,  3.,  4.,  3.,  5.,
        3.,  3.,  3.,  5.,  3.,  4.,  4.,  4.,  3.,  4.,  3.,  3.,  3.,
        4.,  3.,  3.,  4.,  5.,  4.,  4.,  4.,  4.,  4.,  4.,  4.,  4.,
        3.,  3.,  4.,  3.,  4.,  4.,  5.,  4.,  4.,  5.,  5.,  5.,  3.,
        3.,  5.,  4.,  4.,  4.,  4.,  4.,  3.,  5.,  5.,  3.,  5.,  3.,
        3.,  3.,  3.,  4.,  3.,  3.,  4.,  2.,  2.,  2.,  1.,  3.,  3.,
        4.,  3.,  1.,  4.,  3.,  3.,  2.,  2.,  3.,  2.,  1.,  3.,  1.,
        1.,  2.,  1.,  1.,  3.,  4.,  4.,  2.,  1.,  1.,  1.,  2.,  2.,
        4.,  5.,  5.,  4.,  1.,  3.,  2.,  1.,  4.,  4.,  5.,  4.,  3.,
        4.,  4.,  4.,  3.,  1.,  2.,  2.,  1.,  3.,  4.,  3.,  3.,  4.,
        4.,  4.,  3.,  3.,  3.,  2.,  3.,  2.,  2.,  3.,  3.,  2.,  3.,
        3.,  3.,  1.,  1.,  4.,  4.,  3.,  4.,  3.,  1.,  1.,  1.,  1.,
        4.,  1.,  4.,  4.,  3.,  3.,  2.,  1.,  4.,  5.,  4.,  5.,  1.,
        1.,  1.,  5.,  2.,  5.,  3.,  3.,  1.,  5.,  2.,  1.,  1.,  1.,
        5.,  5.,  3.,  3.,  4.,  4.,  4.,  5.,  5.,  4.,  3.,  3.,  2.,
        2.,  3.,  4.,  2.,  4.,  4.,  5.,  4.,  4.,  4.,  3.,  3.,  3.,
        5.,  5.,  4.,  5.,  3.,  5.,  4.,  2.,  2.,  3.,  5.,  4.,  5.,
        4.,  4.,  3.,  1.,  4.,  2.,  4.,  5.,  4.,  3.,  4.])

최종 final_eng_df 완성


In [10]:
final_eng_df = pd.concat([final_eng_df.ix[:,:'lee_rating'], count_df, df5, final_eng_df.ix[:,'film_rate':]], axis=1)

final_eng_df.tail(2)


Out[10]:
title rating(y) avg_rating lee_rating eval_count wish_count cmt_count director actors film_rate genre nation run_time year 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
542 어린 신부 3 2.97457 NaN 341757 782 757 김호준 김래원,문근영,김인문 12세 관람가 로맨틱 코미디 한국 115 2004 4791 7747 21333 21986 54695 26642 116168 3589 65017 19789
543 내 아내의 모든 것 4 3.65453 NaN 461916 8540 1931 민규동 임수정,이선균,류승룡 15세 관람가 로맨틱 코미디 한국 121 2012 1717 3095 7827 14038 25019 51010 107155 18351 161720 71984

In [11]:
final_eng_df.describe()


Out[11]:
rating(y) avg_rating lee_rating eval_count wish_count cmt_count run_time year 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
count 544.000000 544.000000 79.000000 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000
mean 3.068015 3.523105 3.278481 223929.727941 7645.349265 1625.865809 117.976103 2006.522059 1487.737132 2022.419118 5881.650735 6941.125000 14355.235294 21001.687500 46972.729779 12159.170956 67247.323529 45860.656250
std 1.114515 0.475370 0.973188 158144.758766 7751.561753 2007.170921 18.524817 5.523387 2152.590573 1943.604448 5739.493759 5248.786627 11500.217844 14318.018144 32565.661357 12809.702655 53650.563685 53221.358839
min 1.000000 1.224700 1.000000 5841.000000 52.000000 67.000000 62.000000 1978.000000 7.000000 10.000000 14.000000 83.000000 50.000000 38.000000 242.000000 11.000000 50.000000 57.000000
25% 2.000000 3.279778 3.000000 97290.000000 2132.000000 587.000000 106.000000 2004.000000 495.500000 741.500000 2410.000000 3259.500000 6115.250000 9667.750000 21047.250000 2997.500000 25210.500000 9819.000000
50% 3.000000 3.620460 4.000000 186910.000000 5049.000000 1000.500000 116.000000 2007.000000 927.000000 1403.000000 4360.500000 5485.000000 10975.500000 18502.000000 40461.500000 7268.500000 52302.500000 25122.000000
75% 4.000000 3.867070 4.000000 314562.750000 10635.500000 1758.250000 127.250000 2011.000000 1670.500000 2577.250000 7449.000000 9348.250000 19889.000000 29311.500000 65592.750000 17125.750000 99452.500000 64507.000000
max 5.000000 4.427410 5.000000 740618.000000 40384.000000 15881.000000 199.000000 2016.000000 35355.000000 14910.000000 65926.000000 32443.000000 65440.000000 76738.000000 185491.000000 71713.000000 261018.000000 329120.000000

In [12]:
final_eng_df.describe(include='all')


Out[12]:
title rating(y) avg_rating lee_rating eval_count wish_count cmt_count director actors film_rate genre nation run_time year 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
count 544 544.000000 544.000000 79.000000 544.000000 544.000000 544.000000 544 544 541 544 544 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000 544.000000
unique 542 NaN NaN NaN NaN NaN NaN 348 531 4 12 47 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
top 천녀유혼 NaN NaN NaN NaN NaN NaN 크리스토퍼놀란 다니엘래드클리프,엠마왓슨,루퍼트그린트 15세 관람가 액션 한국 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
freq 2 NaN NaN NaN NaN NaN NaN 7 7 203 87 213 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
mean NaN 3.068015 3.523105 3.278481 223929.727941 7645.349265 1625.865809 NaN NaN NaN NaN NaN 117.976103 2006.522059 1487.737132 2022.419118 5881.650735 6941.125000 14355.235294 21001.687500 46972.729779 12159.170956 67247.323529 45860.656250
std NaN 1.114515 0.475370 0.973188 158144.758766 7751.561753 2007.170921 NaN NaN NaN NaN NaN 18.524817 5.523387 2152.590573 1943.604448 5739.493759 5248.786627 11500.217844 14318.018144 32565.661357 12809.702655 53650.563685 53221.358839
min NaN 1.000000 1.224700 1.000000 5841.000000 52.000000 67.000000 NaN NaN NaN NaN NaN 62.000000 1978.000000 7.000000 10.000000 14.000000 83.000000 50.000000 38.000000 242.000000 11.000000 50.000000 57.000000
25% NaN 2.000000 3.279778 3.000000 97290.000000 2132.000000 587.000000 NaN NaN NaN NaN NaN 106.000000 2004.000000 495.500000 741.500000 2410.000000 3259.500000 6115.250000 9667.750000 21047.250000 2997.500000 25210.500000 9819.000000
50% NaN 3.000000 3.620460 4.000000 186910.000000 5049.000000 1000.500000 NaN NaN NaN NaN NaN 116.000000 2007.000000 927.000000 1403.000000 4360.500000 5485.000000 10975.500000 18502.000000 40461.500000 7268.500000 52302.500000 25122.000000
75% NaN 4.000000 3.867070 4.000000 314562.750000 10635.500000 1758.250000 NaN NaN NaN NaN NaN 127.250000 2011.000000 1670.500000 2577.250000 7449.000000 9348.250000 19889.000000 29311.500000 65592.750000 17125.750000 99452.500000 64507.000000
max NaN 5.000000 4.427410 5.000000 740618.000000 40384.000000 15881.000000 NaN NaN NaN NaN NaN 199.000000 2016.000000 35355.000000 14910.000000 65926.000000 32443.000000 65440.000000 76738.000000 185491.000000 71713.000000 261018.000000 329120.000000

In [13]:
final_eng_df['wish_count'].min()


Out[13]:
52.0

In [14]:
final_eng_df.to_csv("../resource/preprocess_df2.csv", index=False)