In [1]:
from janome.tokenizer import Tokenizer

In [2]:
t = Tokenizer()

In [3]:
s = 'すもももももももものうち'

In [4]:
print(type(t.tokenize(s)))


<class 'list'>

In [5]:
print(type(t.tokenize(s)[0]))


<class 'janome.tokenizer.Token'>

In [6]:
for token in t.tokenize(s):
    print(token)


すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ

In [7]:
print(type(t.tokenize(s, stream=True)))


<class 'generator'>

In [8]:
for token in t.tokenize(s, stream=True):
    print(token)


すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ

In [9]:
token = t.tokenize('走れ')[0]

In [10]:
print(type(token))


<class 'janome.tokenizer.Token'>

In [11]:
print(token)


走れ	動詞,自立,*,*,五段・ラ行,命令e,走る,ハシレ,ハシレ

In [12]:
print(token.surface)


走れ

In [13]:
print(token.part_of_speech)


動詞,自立,*,*

In [14]:
print(token.part_of_speech.split(','))


['動詞', '自立', '*', '*']

In [15]:
print(token.part_of_speech.split(',')[0])


動詞

In [16]:
print(token.infl_type)


五段・ラ行

In [17]:
print(token.infl_form)


命令e

In [18]:
print(token.base_form)


走る

In [19]:
print(token.reading)


ハシレ

In [20]:
print(token.phonetic)


ハシレ

In [21]:
s = '走れと言われたので走ると言った'

In [22]:
for token in t.tokenize(s):
    print(token)


走れ	動詞,自立,*,*,五段・ラ行,命令e,走る,ハシレ,ハシレ
と	助詞,格助詞,引用,*,*,*,と,ト,ト
言わ	動詞,自立,*,*,五段・ワ行促音便,未然形,言う,イワ,イワ
れ	動詞,接尾,*,*,一段,連用形,れる,レ,レ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
ので	助詞,接続助詞,*,*,*,*,ので,ノデ,ノデ
走る	動詞,自立,*,*,五段・ラ行,基本形,走る,ハシル,ハシル
と	助詞,格助詞,引用,*,*,*,と,ト,ト
言っ	動詞,自立,*,*,五段・ワ行促音便,連用タ接続,言う,イッ,イッ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ

In [23]:
print(t.tokenize(s, wakati=True))


['走れ', 'と', '言わ', 'れ', 'た', 'ので', '走る', 'と', '言っ', 'た']

In [24]:
t_wakati = Tokenizer(wakati=True)

In [25]:
print(t_wakati.tokenize(s))


['走れ', 'と', '言わ', 'れ', 'た', 'ので', '走る', 'と', '言っ', 'た']

In [26]:
print([token.surface for token in t.tokenize(s)])


['走れ', 'と', '言わ', 'れ', 'た', 'ので', '走る', 'と', '言っ', 'た']

In [27]:
print([token.base_form for token in t.tokenize(s)])


['走る', 'と', '言う', 'れる', 'た', 'ので', '走る', 'と', '言う', 'た']

In [28]:
print([token.part_of_speech.split(',')[0] for token in t.tokenize(s)])


['動詞', '助詞', '動詞', '動詞', '助動詞', '助詞', '動詞', '助詞', '動詞', '助動詞']

In [29]:
print([token.surface for token in t.tokenize(s)
       if token.part_of_speech.startswith('動詞')])


['走れ', '言わ', 'れ', '走る', '言っ']

In [30]:
print([token.surface for token in t.tokenize(s)
       if not token.part_of_speech.startswith('動詞')])


['と', 'た', 'ので', 'と', 'た']

In [31]:
print([token.surface for token in t.tokenize(s)
       if token.part_of_speech.startswith('動詞,自立')])


['走れ', '言わ', '走る', '言っ']

In [32]:
print([token.surface for token in t.tokenize(s)
       if token.part_of_speech.split(',')[0] in ['動詞', '助動詞']])


['走れ', '言わ', 'れ', 'た', '走る', '言っ', 'た']