In [3]:
import jieba
import jieba.analyse

In [4]:
s = "此外,公司拟对全资子公司吉林欧亚置业有限公司增资4.3亿元,增资后,吉林欧亚置业注册资本由7000万元增加到5亿元。吉林欧亚置业主要经营范围为房地产开发及百货零售等业务。目前在建吉林欧亚城市商业综合体项目。2013年,实现营业收入0万元,实现净利润-139.13万元。"
for x, w in jieba.analyse.extract_tags(s, withWeight=True):
    print('%s %s' % (x, w))


Building prefix dict from /usr/lib/python3/dist-packages/jieba/dict.txt ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 4.225765705108643 seconds.
Prefix dict has been built succesfully.
欧亚 0.7300142700289363
吉林 0.659038184373617
置业 0.4887134522112766
万元 0.3392722481859574
增资 0.33582401985234045
7000 0.25435675538085106
139.13 0.25435675538085106
2013 0.25435675538085106
4.3 0.25435675538085106
实现 0.19900979900382978
综合体 0.19480309624702127
经营范围 0.19389757253595744
亿元 0.1914421623587234
在建 0.17541884768425534
全资 0.17180164988510638
注册资本 0.1712441526
百货 0.16734460041382979
零售 0.1475057117057447
子公司 0.14596045237787234
营业 0.13920178509021275

In [5]:
import pymongo

db = pymongo.MongoClient().mfw_crawler

logs_col = db['logs-10030']

In [13]:
logs = logs_col.find(limit=100)
log_text = logs[100]['text_content']

In [12]:
for x, w in jieba.analyse.extract_tags(log_text, withWeight=True):
    print('%s %s' % (x, w))


酒店 0.46736945056688317
瑞吉 0.45575359981730207
亚龙湾 0.4412697011788857
度假 0.43266867344250104
三亚 0.38344752602247173
童宝 0.18029812740025136
石梅湾 0.17528984608357773
威斯汀 0.16109965051344782
加井岛 0.13021531423351487
万宁 0.12376458398563049
机场 0.05020585518062841
先生 0.04661958579254294
我们 0.041201600771977376
海鲜 0.03655796618903225
房间 0.03408986349707582
超级 0.03180804026170926
大堂 0.025862971516099707
免税店 0.024761701110808543
不错 0.02333225989078341
凤凰 0.02296848112530792

In [14]:
for x, w in jieba.analyse.textrank(log_text, withWeight=True):
    print('{} {}'.format(x, w))


酒店 1.0
三亚 0.7191685618778029
度假 0.6677786528348395
瑞吉 0.6086505021735603
亚龙湾 0.601503165777763
是 0.44183442295425013
去 0.2597696020883801
加井岛 0.25331023474428765
吃 0.2404843438640427
有 0.22952313579170258