In [1]:
import re
import jieba
import jieba.analyse
from zhihu import *
#from textrank_ch import *

为什么大多数高中宁愿学习衡中,而不愿学习理念更加先进的人大附中等?https://www.zhihu.com/question/47145647


In [2]:
q = Question('47145647')
if not q.is_json_exist():
    q.get_data_from_api()
    q.save_to_json()
    #q.save_to_pickle()
else:
    q.get_data_from_json()

In [3]:
question_title_answers_all_content = q.questions['title']+'\n'

In [4]:
for a in q.answers['items']:
    question_title_answers_all_content = question_title_answers_all_content + a['content']+'\n'

In [5]:
question_title_answers_all_content = re.sub('<[^>]+>','',question_title_answers_all_content)

In [6]:
print question_title_answers_all_content[:200]


为什么大多数高中宁愿学习衡中,而不愿学习理念更加先进的人大附中等?
赞同@赵乾 ,在这里举个实际例子。去年单位与某学校(人大附中北京四中中关村23八一小学史家小学这个级别的)合作,给他们开军事类的选修课,最后布置的作业是一篇作文,我与海军/我与海洋。收上来的作文也是我们批改,下面是部分作文节选。----------------------------------------------------
kw = extractKeyphrases(question_title_answers_all_content)

In [7]:
# tf-idf 
jieba.analyse.set_stop_words("stop_words.txt")
kw = jieba.analyse.extract_tags(question_title_answers_all_content, topK=20, withWeight=True)


Building prefix dict from the default dictionary ...
Loading model from cache c:\users\lxp\appdata\local\temp\jieba.cache
Loading model cost 0.410 seconds.
Prefix dict has been built succesfully.

In [8]:
for k,w in kw:
    print k,w


衡水 0.127023080563
学校 0.123100160896
人大附中 0.117049837021
衡中 0.107354676643
学生 0.101474078324
高考 0.10078628285
素质教育 0.0824123499355
高中 0.074000719517
中学 0.0661604316699
老师 0.0562691736251
学习 0.0561536240507
教育 0.0539526075276
模式 0.0519233497557
北京 0.0443467973502
肉糜 0.0344136411818
资源 0.034172925337
孩子 0.0337204477759
成绩 0.0323115880411
生源 0.0318429801738
大学 0.0307499912758

In [9]:
# textrank
for x, w in jieba.analyse.textrank(question_title_answers_all_content, withWeight=True):
    print('%s %s' % (x, w))


学校 1.0
学生 0.861362946538
衡水 0.625340076903
高考 0.619918722889
教育 0.517480804568
中学 0.488460036075
老师 0.473771408367
学习 0.468097441887
北京 0.452475262494
衡中 0.440717083224
模式 0.437138756926
素质教育 0.341720357547
孩子 0.328384188147
资源 0.268431351328
大学 0.250855085349
成绩 0.220382960685
河北 0.190939288551
家长 0.168129409488
只能 0.165304489531
中国 0.163523779223