※ このノートブックの文字コードが UTF-8 であるため、mecab の charset を UTF-8 に設定する必要があります。詳しくは文字コード変更を参照してください。
下記の条件さえ揃っていれば、特にあらかじめに設定する必要はなく、natto-py は自動的に mecab ライブラリーを特定し、バインディングをします。
HKEY_CURRENT_USER\Software\MeCab
というキーが設定していること万が一、mecab ライブラリーが見つからず EnvironmentError
などが発生した場合、次の環境変数設定を行う必要があります。
MECAB_CHARSET=utf8
とするMECAB_PATH
とする
In [1]:
from natto import MeCab
nm = MeCab()
print(nm)
In [2]:
text = "ピンチの時には必ずヒーローが現れる。"
print(nm.parse(text))
Python with 文を使用すれば、コンテキストが正常に終了しても例外が起きても MeCab
ライブラリーの参照が自動的に破棄されるので、勧めます。
In [3]:
with MeCab() as nm:
print(nm.parse(text))
In [4]:
# -F / --node-format オプションでノードの出力フォーマットを指定する
#
# %m ... 形態素の表層文
# %f[0] ... 品詞
# %h ... 品詞 ID (IPADIC)
# %f[8] ... 発音
#
with MeCab(r"-F%m,%f[0],%h,%f[8]") as nm:
for n in nm.parse(text, as_nodes=True):
print(n.feature)
以上。