Word2vec 모델을 학습시키고 사용해보는 것이 목표

  • 나무위키 덤프 활용 - 정제 - 텍스트로 된 순수 문장 얻기
  • 형태소 분석 - 형태소 분류
  • 말뭉치(Corpus) 데이터 준비
  • 말뭉치를 활용해서 Word2vec 모델 학습
  • Word2vec 모델 활용

In [6]:
import ijson

In [44]:
input_filename = '/Users/swkim/Data/namuwiki180326/namuwiki_20180326.json'
output_filename = '/Users/swkim/Data/namuwiki180326/_namuwiki_20180326_mini.txt'

In [56]:
input_file = open(input_filename, 'r', encoding='utf-8')
texts = ijson.items(input_file, 'item.text')

In [43]:
for index, text in zip(range(10), texts):
    print(strip_wiki_literal(text))







 
틀:다른 뜻2, other1=뺄셈, rd1=뺄셈, other2=문장부호, rd2=붙임표 ) 
[목차]
== 개요 ==
U+002D. 명칭은 HYPHEN-MINUS이며, 아스키 코드와 유니코드에서 역할이 굉장히 애매한 문자이다.
== 상세 ==
이 글자는 하이픈(hyphen)으로도 쓰일 수 있고, 빼기 기호로도 쓰일 수 있고, 간혹 en dash로도 쓰일 수 있다. 초창기의 타자기와 컴퓨터는 고정폭 글꼴을 썼기 때문에 딱히 하이픈과 빼기 기호, en dash의 구분이 필요하지 않았고, 그래서 ASCII에서는 그 셋을 따로 구분하지 않았다. 하지만 조판과 그래픽 디자인에서는 하이픈, en dash, 빼기 기호가 별도의 문자로 존재하며, 실제로 유니코드에도 하이픈(‐ U+2010 HYPHEN), en dash(– U+2013 EN DASH), 빼기 기호(− U+2212 MINUS SIGN) 셋이 따로 배당돼 있다. 그러므로 현재는 원칙적으로 이 기호를 써서는 안 된다. 이 기호를 쓰는 것은 -을 ㅡ(한글 자모, eu)로 바꾸는 거나 마찬가지이기 때문. 그런데도 hyphen-minus는 현재도 널리 쓰이는데, 이는 알다시피 키보드로 입력하기 간편하고, 대부분의 문자 코드에서 똑같은 위치에 존재하기 때문이다.
대부분의 프로그래밍 언어는 ASCII 문자만 쓰기 때문에, 뺄셈과 음수를 나타낼 때 − U+2212 MINUS SIGN을 사용하지 않고 hyphen-minus를 사용한다.
MS 워드에서는 foo - bar와 같이 단어 + 공백 + hyphen-minus + 공백 + 단어를 쓸 경우, 중간의 hyphen-minus를 자동으로 en dash로 바꿔 준다(즉 foo – bar). foo 이는 일본어 가타카나 표기에서 장음()을 사용하는 것을 수입한 것이며, 원칙적으로 굳이 표기하자면 장음 부호(ː)를 쓰는 것이 맞다. 장음 표기와 붙임표 참고. 그러나 이 쌍점은 사실상 전문적인 발음 표기법에서나 쓰이며 일상적으로 무언가, 특히 의성어를 일부러 길게 늘려 부른다는 뉘앙스를 강조할 때는 전혀 쓰이지 않는다. 즉 실상을 전혀 반영하지 못하는 규정이라는 것.
EVE 온라인에서 널섹성계의 이름이 yk-a76 이런식으로 지어지는데 이쪽에선 하이픈 보다는 '택'으로 부르는 편이다. '와이케이택에이세븐식스' 이런식으로. 이렇게 다 부르기보단 '와이케이택' 처럼 앞의 몇글자만 부르는게 대부분이지만.
한국에선 흔히 '다시'라는 명칭으로 불리고 있다. 버스 번호나 주소를 읽을 때 건물번호에 이것이 들어가면 이렇게 읽는 경우가 종종 있다. 예를 들면 200-8은 '이백 다시 팔'. 대시(dash)에서 유래한 듯. 대한민국 해군에서는 특이하게 이 부호를 '테크'라고 읽는다. 군번을 읽을 때 00-00000를 00 다시 00000이 아닌 00 '테크' 00000으로 읽는 식. 이렇게 읽는 특별한 이유를 아시는 분은 추가바람.
일본어 표기를 할때 원어에 하이픈이 있다면 로 대체된다. Ex) .
프랑스어에서는 대명사의 도치가 일어날 때 하이픈을 쓴다. 또는 그냥 단어를 만드는 하나의 방식이기도 하다. 이는 불어만이 아니라 로마자를 기반으로 하는 많은 언어들에서 나타나는 현상. 물론 디테일한 부분에서는 차이가 있다.
나무위키에서 -를 4개 이상 10개 이하 쓰면 아래와 같은 수평줄이 만들어진다.
== 여담 ==
나무위키 문서 중 주소상으로는 아스키 코드로 1번째다.
틀:문단 가져옴/문단, title=대시, version=74, paragraph=2)

사운드 볼텍스의 수록곡. 작곡은 (페노레리).
사운드 볼텍스 플로어 '여름이다! 방학이다! 자유연구 오리지널곡 컨테스트'의 당선곡이다.
* 곡 목록으로 돌아가기
* SKILL ANALYZER 수록
* EXHAUST : KAC 2013 B그룹(2013.10.31 ~ 2013.11.25), Skill Level 08 B코스(2015.8.21 ~ 2016.2.5)
{{|
처음 뵙겠습니다. 페노레리라고 합니다.
이번 곡 채용, 정말로 감사합니다! 진심으로 기쁘게 생각합니다.
평소에는 보컬로이드라든가 인스트로라든가 클래식이라든가, 아무거나 만들고 있는 사람입니다.
곡명에서 짐작하셨을것 같습니다만, 다른 세계에서 사는 여성의 마음 속을 외치는 곡이 되었습니다.
지시부분에 많이 있는, 변박이라든가, 셔플 비트 등등... 많이 있는 곡이므로 다양한 측면에서 즐길 수 있는 것이 아닐까 하고 생각합니다.
많이 플레이해 주셨으면 감사하겠습니다. 그럼 여러분, 춤추며 즐겨보세요~~~
페노레리
-당선자 코멘트-
|}}
EXH 패턴 얼티밋 체인 영상

 
[목차]
BMS OF FIGHTERS 2013 참가곡.
SP HYPER 패턴 영상.
== 소개 ==
BOF2012에서  -Parallel World-로 총점 17위를 기록하며 이름을 알리기 시작한 daisan이 작곡, 영상, 패턴 모두 1인 제작으로 만든 작품. 장르 표기는 Dirt Art로, 사실상 리퀴드 펑크 계열 드럼 앤 베이스 악곡이라고 볼 수 있다.
리듬게임의 특성을 잘 살린 배치와 악곡으로, 적절한 배치와 daisan 특유의 악곡 전개가 만나 시너지를 이루었다고 볼 수 있다. 대회장에서의 위치 역시 위쪽에 위치하여 포지션상으로도 유리한 위치를 점했고, 결국 7위라는 높은 순위를 획득했다. 다만 차세대 유망주라는 평가까지 받았던 daisan은 G2R2014의 Divinity Garden을 시작으로 커리어가 퇴보하고 있는 상황이다.
== 대회 결과 ==
총점 : 98640 (105 임프레션)
중앙값 : 950.00 / 1000.00
평점 : 939.43 / 1000.00
개인전 스코어 순위 : 7위
개인전 중앙값 순위 : 28위

 
[목차]
나무위키에 등재되어 있는 가장 작은 수이자 가장 큰 음의 정수
== 정수 ==
-2보다 크고 0보다 작은 정수.
한 함수의 역함수를 표현할 때 함수 기호에 위첨자 -1을 붙인다. 행렬도 마찬가지로 역행렬을 표현할 때 위첨자 -1을 붙인다.
어떤 수의 역수도 그 수의 -1승으로 표현할 수 있다.
허수단위 i를 제곱하면 -1이 된다.
== EZ2AC와 EZ2ON의 수록곡 ==
Minus 1 문서 참조.
== 버스 번호에 따라붙는 숫자 ==
부번호, 지선번호라고 불리운다. 주로 X-1번과 같은 형태로 쓰인다.
부번호가 붙은 노선의 특징은 크게 본선과는 달리 특정 지선 구간을 운행하기 위해 새 노선으로 신설할 때, 기존 장거리 노선을 한지점을 두고 분할할 때, 순환노선의 외선순환 내선순환을 구분하기 위해, 신설부터 본선과는 연관이 없는 전혀 다른 노선을 만들 때(...)로 크게 총 네가지를 꼽을 수 있다. 노선이 더 생기면 -2이상의 더 높은 숫자로 신설되기도 한다. 광주시와 이천시가 대표적. 심지어 파주에는 -1-1도 있다!
상술한 특징 외에도 노선이 어느 지역을 경유하거나 혹은 출발/도착지가 다르거나 등의 경우의 수가 무궁무진하다.
현재 경기도 최대 지선번호 노선은 광주시의 38-84번. 범위를 넓히면 남원시의 2-294번까지도 있다. 더 높은 숫자가 있다면 추가바람.
읽는 방법은 X'다시1'번으로 읽는다. 예시로 1005-1번은 '천 오 다시 일'번으로 읽는다.
== TV채널 일부 ==
디지털 컨버터를 이용하여  지상파방송을 직접수신하거나 캐이블 또는 유선방송에서 디지털 hd급의 화질을 제공하는 채널이다. 
일반적인 아날로그방식의 tv에서는 지원하지 않는 채널로 방송사업자에 따라 농어촌에 위치한 셋톱박스를 사용하지 않는 소규모 유선방송 업체들은 -1번의 채널들을 사용하여 디지털 방송을 공급하는 경우도 있다.
단 주택에 안테나가 직접설치되어 있거나 아파트의 공동수상기를 이용하는경우 지상파는 -1번을 무조건 수신할 수 있다.






[목차]
== 개요 ==
Rejet 사와 오토메이트 사가 합작하여 제작한 오토메 게임. 이 때문에 홈페이지가 2개이며, 게임판 메인 홈페이지는 오토메이트 쪽이다.
== 스토리 ==
||무대는 전국에서도 글러먹었다고 확정받은 학생들을 모아놓은 학원인 '시게조() 학원.'
주인공은 이 학교에 입학하자마자 학교가 폐교될 것이라는 선언을 받는다.
너무도 글러먹은 전개들에서 살아날 방법은 단 하나. "학생들과 사랑을 하는 것".
주인공 역시 커플이 되기 위해 재빨리 남자를 찾아보지만, 체질적으로 글러먹은 것들에게 사랑받는 그녀의 주변에는 글러먹은 남자들만 차례차례로 나타난다.||
== 등장인물 ==
* 야오토메 레이() (CV: 없음)
본작의 주인공. 외견 및 성격은 극히 평범한 고등학생이다.
그러나 영 글러먹은 남자들을 끌어들이는 유감스러운 재능을 갖고 있다. 그 덕분에 불운한 일에 말려들어가는 일도 적지 않다.
학원의 존속을 위해 글러먹은 남자와 사귀게 되지만.......
* 카자하라 마야() (CV: 오카모토 노부히코)
183cm, 80kg, O형. 
모두를 이끄는 반장 타입의 청년. 그러나 외모는 남자다운데 목소리가 귀여운 것이 글러먹은 점. 
자신의 목소리에 콤플렉스가 있기에 적어도 목소리 이외의 부분만이라도 남자다워지려 하고 있다.
* 사에키 이쿠사() (CV: 노지마 켄지)
180cm 65kg, B형.
얼굴, 성격, 두뇌, 운동신경 모두 뛰어난 '미스터 퍼펙트.'
그러나 너무 완벽한 나머지 한 사람으로서의 재미있는 구석은 별로 없다는 것이 단점이다.
* 쿠라모치 아오바() (CV: KENN)
175cm, 57kg, AB형.
모든 행동을 점을 쳐서 결정하는 Spiritual 타입의 남자.
행운의 색에 집착하며 액일(언럭키 데이)에는 사고가 나는 것을 두려워해 집 밖으로 한 발자국도 나가지 않는다.
레이를 걱정해서 점을 쳐서 이런저런 어드바이스를 해 주고 있다.
* 토나미 오토히코() (CV: 시모노 히로)
160cm, 50kg, O형.
얼굴은 잘생겼지만 신체비율 5.5등신에 신장 160cm. 이 때문에 별명은 피요히코(병아리히코).
자신의 키에 엄청난 컴플렉스가 있기에 신장차를 극복하려고 농구부에 들어가 레귤러를 목표로 하고 있다.
* 니지오카 리온() (CV: 키무라 료헤이)
174cm, 54kg, AB형.
치장하는 것을 너무 좋아한 나머지 그 정도가 심하게 에스컬레이트된 남자아이.
특유의 패션이나 머리색 등 센스가 무척 기묘하다. 덕분에 그가 뭘 하든 일단 그 패션에 먼저 눈길이 가 버린다.
* 이츠키 마리오() (CV: 미야타 코우키)
169cm, 56kg, B형.
잦은 전학과 해외생활 때문에 방언과 외국어가 섞인 이상한 일본어를 구사하는 귀국자녀. 
자신도 자기 말투가 이상하다는 건 잘 알고 있다. 여기에 여러 번 전학을 다녔던 것도 있어서 친구를 사귀는 것이 서투르다.
* 우타노 쥰() (CV: 오노 유우키)
176cm, 61kg, A형.
통상 도짓코의 약 100배 이상의 슈퍼 언럭키 보이(…). 만날 때마다 뭔가 불행한 꼴을 당하고 있기에 어떤 의미에서는 지루하지 않은 타입.
같이 다니다 보면 그의 불운에 휘말려 버릴지도 모른다고 한다.
* 난죠 케이마() (CV: 모리쿠보 쇼타로)
178cm, 57kg, O형.
작사와 작곡에 재능을 보이는 락(Rock)소년.
음악을 사랑하고 음악에 심취하며 음악의 길을 걸으려 하고 있지만 아쉽게도 그는 초절정 음치이다.
노래를 부르는 것에서 삶의 의미를 느끼기 때문에 보컬 자리를 양보하려 하지 않는다. 그 때문에 밴드는 해산.


In [34]:
import re

# We want only plain texts, so strip wiki grammer.
# Refer this link to know more about grammar. https://namu.wiki/w/%EB%82%98%EB%AC%B4%EC%9C%84%ED%82%A4:%EB%AC%B8%EB%B2%95%20%EB%8F%84%EC%9B%80%EB%A7%90

# Use regular expression to capture some pattern

# see http://stackoverflow.com/questions/2718196/find-all-chinese-text-in-a-string-using-python-and-regex
chinese = re.compile(u'[⺀-⺙⺛-⻳⼀-⿕々〇〡-〩〸-〺〻㐀-䶵一-鿃豈-鶴侮-頻並-龎]', re.UNICODE)
japanese = re.compile(u'[\u3000-\u303f\u3040-\u309f\u30a0-\u30ff\uff00-\uff9f\u4e00-\u9faf\u3400-\u4dbf]', re.UNICODE)

# hangul = re.compile('[^ ㄱ-ㅣ가-힣]+') # 한글과 띄어쓰기를 제외한 모든 글자
# hangul = re.compile('[^ \u3131-\u3163\uac00-\ud7a3]+')  # 위와 동일
# result = hangul.sub('', s) # 한글과 띄어쓰기를 제외한 모든 부분을 제거


def strip_wiki_literal(text):               
    text = re.sub(r"\{\{\{#\!html[^\}]*\}\}\}", '', text, flags=re.IGNORECASE|re.MULTILINE|re.DOTALL) # remove html
    text = re.sub(r"#redirect .*", '', text, flags=re.IGNORECASE) # remove redirect
    text = re.sub(r"\[\[분류:.*", '', text) # remove 분류
    text = re.sub(r"\[\[파일:.*", '', text) # remove 파일
    text = re.sub(r"\* 상위 문서 ?:.*", '', text) # remove 상위문서        
    text = re.sub(r"\[youtube\(\w+\)\]", '', text, flags=re.IGNORECASE) # remove youtube
    text = re.sub(r"\[include\(([^\]|]*)(\|[^]]*)?\]", r'\1', text, flags=re.IGNORECASE) # remove include
    text = re.sub(r"\[\[(?:[^\]|]*\|)?([^\]|]+)\]\]", r'\1', text) # remove link
    text = re.sub(r"\[\*([^\]]*)\]", '', text) # remove 각주
    text = re.sub(r"\{\{\{([^\ }|]*) ([^\}|]*)\}\}\}", r'\2', text) # remove text color/size
    text = re.sub(r"'''([^']*)'''", r'\1', text) # remove text bold
    text = re.sub(r"(~~|--)([^']*)(~~|--)", '', text) # remove strike-through
    text = re.sub(r"\|\|(.*)\|\|", '', text) # remove table
    text = re.sub(r"\n\s*\n*", '\n', text) # remove empty line                       
    text = chinese.sub('', text) # remove chinese
    text = japanese.sub('', text) # remove japanese
    return text

In [55]:
# output_filename = '/Users/swkim/Data/namuwiki180326/_namuwiki_20180326_mini.txt'

item_limit = 10000
minimum_length = 500

with open(output_filename, 'w', encoding='utf-8') as output_file:
    for index, text in zip(range(item_limit), texts):
        if (len(text) > minimum_length):
            try:
                a_line = strip_wiki_literal(text)
                output_file.write(a_line + '\n')
            except UnicodeEncodeError as e:
                print("UnicodeEncodeError ({0}) : {1}".format(e, text))


---------------------------------------------------------------------------
UnicodeEncodeError                        Traceback (most recent call last)
<ipython-input-55-49053e9865ea> in <module>()
     10                 a_line = strip_wiki_literal(text)
---> 11                 output_file.write(a_line + '\n')
     12             except:

UnicodeEncodeError: 'utf-8' codec can't encode characters in position 36054-36055: surrogates not allowed

During handling of the above exception, another exception occurred:

NameError                                 Traceback (most recent call last)
<ipython-input-55-49053e9865ea> in <module>()
     11                 output_file.write(a_line + '\n')
     12             except:
---> 13                 print("UnicodeEncodeError ({0}) : {1}".format(e, text))

NameError: name 'e' is not defined

In [ ]: