konlpy는 한국어 정보처리를 위한 파이썬 패키지이다.
konlpy는 다음과 같은 다양한 형태소 분석, 태깅 라이브러리를 파이썬에서 쉽게 사용할 수 있도록 모아놓았다.
konlpy 는 다음과 같은 기능을 제공한다.
In [4]:
from konlpy.corpus import kolaw
kolaw.fileids()
Out[4]:
In [6]:
c = kolaw.open('constitution.txt').read()
print(c[:100])
In [9]:
from konlpy.corpus import kobill
kobill.fileids()
Out[9]:
In [11]:
d = kobill.open('1809890.txt').read()
print(d[:100])
In [7]:
x = [u"한글", {u"한글 키": [u"한글 밸류1", u"한글 밸류2"]}]
print(x)
In [8]:
from konlpy.utils import pprint
pprint(x)
In [14]:
from konlpy.utils import concordance
idx = concordance(u'대한민국', c, show=True)
In [15]:
idx
Out[15]:
konlpy는 tag 서브패키지에서 형태소 분석을 위한 5개의 클래스를 제공한다.
Kkma
Hannanum
Twitter
Komoran
Mecab
이 클래스는 다음과 같은 메서드를 대부분 제공한다.
morphs
: 형태소 추출nouns
: 명사 추출pos
: pos 태깅
In [41]:
from konlpy.tag import *
hannanum = Hannanum()
kkma = Kkma()
twitter = Twitter()
In [27]:
pprint(hannanum.nouns(c[:65]))
In [33]:
pprint(kkma.nouns(c[:65]))
In [38]:
pprint(twitter.nouns(c[:65]))
In [29]:
pprint(hannanum.morphs(c[:65]))
In [39]:
pprint(kkma.morphs(c[:65]))
In [42]:
pprint(twitter.morphs(c[:65]))
In [28]:
pprint(hannanum.pos(c[:65]))
In [43]:
pprint(kkma.pos(c[:65]))
In [44]:
pprint(twitter.pos(c[:65]))