第0000题

将你的 QQ 头像(或者微博头像)右上角加上红色的数字,类似于微信未读信息数量那种提示效果。 类似于图中效果


In [20]:
from PIL import Image, ImageDraw, ImageFont
# from IPython.display import Image as Ipython_img
img_path = r"C:\Users\jiang\Desktop\pic.jpg"
font_path = "c:/Windows/fonts/SIMHEI.ttf"
picture = Image.open(img_path, mode='r')
fnt = ImageFont.truetype(font_path, 60)
draw = ImageDraw.Draw(picture)
draw.text((picture.size[0] - 40, 0), "4",font=fnt, fill=(255,0,0,255))
picture.save(r"C:\Users\jiang\Desktop\test.jpg", 'jpeg')
picture # display


Out[20]:

第0001题

做为 Apple Store App 独立开发者,你要搞限时促销,为你的应用生成激活码(或者优惠券),使用 Python 如何生成 200 个激活码(或者优惠券)?


In [3]:
import numpy as np, string
def gen_tickets(tickets_num, tickets_len):
    idx = np.random.randint(0, 25, tickets_num * tickets_len)
    letters = np.array(list(string.ascii_uppercase))
    s = letters[idx].tostring()
    return [s[i*tickets_len : (i+1)*tickets_len] for i in range(tickets_num)]

## 测试
print gen_tickets(5, 100)


['DXJWBMUBRUJJEUWVYSXIQRAEKYKLCIGWTXQOFBAWSNMCIGBTXREFRPSJFPECCHMPEHJUCDVESOBKVMWLLHJSQVPWHJYULMJUSCNT', 'WHVQISBKMRJFKDQTSBFYALTJHBIBSNKWWPYXBSICUJMLNVUUTJPNLYBFBGVXKPFBGWPBXRUYXMWASUOOPPFWPNVPBNIDKGGYXJDT', 'LKWOJKYSMKIXTCSDUKRVNSTWGKEDMDGUWUEUJUFNNTLKHKWBWGVPNYIUQILXEDGLSLOPQFRDJAKVASORDLSRTOTOPYHAUYGFSDNS', 'DYGJWXUGOXYJMSVYCFNAMOARLPWCOJXCPQADFEDDWBQXNOUJHOPECNALKDNSSBNKDYODHYPEXOPBQGPWYESQOYKEFFQYSKAULPYW', 'VJDKKBVDETJXUEASFGUPENEVCNMTKLXYSTMBNQWKIOAPFLGAKHVYGLVRULEVLBPFTJUQDMDNQJROKBEPQSOXJCUHDDIXBBSQHXIO']

第0002题

将 0001 题生成的 200 个激活码(或者优惠券)保存到 MySQL 关系型数据库中。


In [5]:
import numpy as np, string
def gen_a_ticket(tickets_len):
    idx = np.random.randint(0, 25, tickets_len)
    letters = np.array(list(string.ascii_uppercase))
    s = letters[idx].tostring()
    yield s

import MySQLdb
db = MySQLdb.connect("localhost", "root", "******", "database_for_python")
cursor = db.cursor()
cursor.execute("DROP TABLE IF EXISTS python_tickets")
sql = """CREATE TABLE python_tickets(
            num INT,
            ticket_code CHAR(100))"""
cursor.execute(sql)

for i in range(1, 201):
    ticket = gen_a_ticket(100).next()
    sql = "INSERT INTO python_tickets VALUES ('%d', '%s')" % (i, ticket)
    cursor.execute(sql)
    db.commit()
db.close()

第0003题

将 0001 题生成的 200 个激活码(或者优惠券)保存到 Redis 非关系型数据库中。


In [17]:
import numpy as np, string
def gen_a_ticket(tickets_len):
    idx = np.random.randint(0, 25, tickets_len)
    letters = np.array(list(string.ascii_uppercase))
    s = letters[idx].tostring()
    yield s

import redis
rd = redis.Redis(host='localhost', port=6379, db=0)
for i in range(1, 201):
    ticket = gen_a_ticket(100).next()
    rd.set(i, ticket)
rd.save()

# test
print rd.get(55)


BXDOGQPIPQPMEDPLOJRAOAFUOFJPMBMWANNVFDYMFGXFKRQKWBYQOOJRQGTIJYEQKOKBYTSXILDFULVNHYAKQYRKMILWMCPNXAKQ

第0004题

任一个英文的纯文本文件,统计其中的单词出现的个数。


In [41]:
#coding=utf-8
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
vectorizer = CountVectorizer()
text_path = r"C:\Users\jiang\Desktop\Github_Pages.txt"  #utf-8 without BOM
with open(text_path, 'r') as f:
    s = f.readlines()
    X = vectorizer.fit_transform(s)
words = vectorizer.get_feature_names()
counts = np.sum(X.toarray(), 0).tolist()
results = sorted(zip(words, counts), key=lambda x:x[1], reverse=True)
for word, count in results: # print results
    print word, count


you 20
the 18
to 17
if 11
your 11
and 10
file 10
or 10
pages 9
as 8
github 8
with 8
in 7
that 7
have 6
jekyll 6
layout 6
page 6
these 6
by 5
can 5
don 5
ll 5
markdown 5
now 5
repository 5
site 5
we 5
all 4
an 4
are 4
be 4
default 4
for 4
from 4
index 4
of 4
on 4
any 3
build 3
config 3
doesn 3
existing 3
features 3
files 3
may 3
publishing 3
readme 3
theme 3
title 3
use 3
website 3
adding 2
additional 2
affect 2
at 2
changes 2
content 2
elsewhere 2
exclude 2
expect 2
explicitly 2
feel 2
few 2
front 2
get 2
how 2
it 2
just 2
like 2
look 2
matter 2
more 2
most 2
need 2
re 2
set 2
shouldn 2
sites 2
software 2
specify 2
such 2
there 2
three 2
via 2
100th 1
above 1
activate 1
add 1
advanced 1
again 1
allow 1
already 1
although 1
appears 1
assign 1
authoring 1
automatically 1
based 1
begin 1
begins 1
behind 1
bring 1
browse 1
browser 1
but 1
clicks 1
commit 1
context 1
continue 1
control 1
course 1
create 1
customizable 1
customizations 1
dependency 1
directive 1
directory 1
disable 1
dissimilar 1
docs 1
document 1
documentation 1
doing 1
each 1
easily 1
either 1
exact 1
example 1
exist 1
experience 1
explicit 1
familiar 1
far 1
fewer 1
find 1
first 1
folder 1
given 1
gotchas 1
h1 1
h2 1
h3 1
happy 1
heading 1
headings 1
html 1
implemented 1
improvements 1
interested 1
interface 1
iterates 1
its 1
know 1
layouts 1
line 1
list 1
matches 1
md 1
metadata 1
minimal 1
namely 1
navigate 1
needing 1
nojekyll 1
not 1
null 1
one 1
open 1
opting 1
optional 1
other 1
overriding 1
own 1
places 1
please 1
plugins 1
possible 1
potential 1
process 1
project 1
publish 1
questions 1
quickly 1
reason 1
rendered 1
requires 1
root 1
safely 1
saving 1
scenes 1
separated 1
serve 1
settings 1
should 1
simplify 1
simply 1
so 1
some 1
source 1
specified 1
step 1
steps 1
styles 1
tabs 1
them 1
things 1
those 1
through 1
titles 1
top 1
touch 1
transparent 1
two 1
unset 1
unstyled 1
us 1
users 1
values 1
vendored 1
want 1
web 1
what 1
when 1
which 1
while 1
will 1
within 1
would 1
yaml 1

第0005题

你有一个目录,装了很多照片,把它们的尺寸变成都不大于 iPhone5 分辨率的大小。


In [9]:
from PIL import Image
import os
imgs_path = r"C:\Users\jiang\Desktop\pictures"
for root, dirs, files in os.walk(imgs_path):
    for f in files:
        img = Image.open(os.path.join(root, f))
        img = img.resize([64, 100]).save(os.path.join(root, 'rs_' + f), 'jpeg')

第0006题

你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。


In [130]:
from bs4 import BeautifulSoup
import urllib2
def get_links_from_url(url):
    html_page = urllib2.urlopen(url)
    links = BeautifulSoup(html_page).findAll('a')
    links = [i.get('href') for i in links if i.get('href') and not i.get('href').startswith('javascript:')] # 去掉javascript开头的
    proto, rest = urllib2.splittype(url)
    domain = urllib2.splithost(rest)[0]
    links = map(lambda i: proto + '://' + domain + i if i[0] == '/' else url + i if i[0] == '#' else i, links) # 把链接补全
    return links

def get_article_links():
    url = "http://www.jianshu.com/"
    links = get_links_from_url(url)
    links = [i for i in links if i.startswith('http://www.jianshu.com/c/')] # 类别
    links_class = list(set(links))
    links_article = list()
    for link in links_class:
        links = get_links_from_url(link)
        links = [i for i in links if i.startswith('http://www.jianshu.com/p/') and not i.endswith('#comments')] # 文章
        links = list(set(links))
        links_article.extend(links)
    links_article = list(set(links_article))
    return links_article

from goose import Goose
from goose.text import StopWordsChinese
import os

def save_articles_from_links(links, articles_path):
    g = Goose({'stopwords_class': StopWordsChinese})
    for url in links:
        article = g.extract(url=url)
        valid_title = map(lambda i : " " if not (
                             (u'\u4e00' <= i <=u'\u9fff') or 
                             (u'\u0030' <= i <=u'\u0039') or
                             (u'\u0041' <= i <= u'\u005a') or 
                             (u'\u0061' <= i <= u'\u007a') ) else i, article.title)
        valid_title = ''.join(valid_title)
        article_file = os.path.join(articles_path, valid_title + '.txt')
        with open(article_file, 'w') as f:
            f.write(article.cleaned_text.encode('utf-8'))

# 从简书网站中提取文章,存入本地文件中
articles_path = r"C:\Users\jiang\Desktop\articles"
links = get_article_links()
save_articles_from_links(links, articles_path)

# 由TF-IDF判断词的重要性
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
import jieba
import os

vectorizer=CountVectorizer()
transformer=TfidfTransformer()
articles_path = r"C:\Users\jiang\Desktop\articles"
corpus = []
titles = []
for root, dirs, files in os.walk(articles_path):
    for title in files:
        titles.append(title)
        file_name = os.path.join(root, title)
        with open(file_name) as f:
            s = f.read()
            words = jieba.lcut(s, cut_all=True)
            s = ' '.join(words)
            corpus.append(s)

vectorizer=CountVectorizer()
transformer=TfidfTransformer()
tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))
word=vectorizer.get_feature_names()
weight=tfidf.toarray()
for i in range(len(weight)):
    print "-------------------------------------------------------------------------------------"
    print "文章", i, ":", titles[i].decode('gbk')
    w = weight[i][::]
    tmp = zip(word, w)
    tmp = sorted(tmp, key=lambda i : i[1], reverse=True)
    print "最重要的词:"
    for j in range(5):
        print "word:", tmp[j][0], "TF-IDF:", tmp[j][1]


-------------------------------------------------------------------------------------
文章 0 :  上班这点事儿 专题投稿要求及首页推荐须知 3 0.txt
最重要的词:
word: 文章 TF-IDF: 0.34914252357
word: 主编 TF-IDF: 0.29861176383
word: 上班 TF-IDF: 0.282449358375
word: 推荐 TF-IDF: 0.178387012477
word: 原创 TF-IDF: 0.177840660974
-------------------------------------------------------------------------------------
文章 1 :  婚誓轻许 韶华不负 第七十三章 倾诉 你要听话知不知道 .txt
最重要的词:
word: 知道 TF-IDF: 0.258822098297
word: 抑郁 TF-IDF: 0.20662776956
word: 怎么 TF-IDF: 0.170551908394
word: 怎样 TF-IDF: 0.153088165202
word: 不知 TF-IDF: 0.145092207038
-------------------------------------------------------------------------------------
文章 2 :  年味大作战 别让你的年味 只剩俗气 .txt
最重要的词:
word: 腊肉 TF-IDF: 0.466418318534
word: 味儿 TF-IDF: 0.423319796494
word: 风味 TF-IDF: 0.186567327414
word: 牛肉 TF-IDF: 0.141106598831
word: 过年 TF-IDF: 0.128142208302
-------------------------------------------------------------------------------------
文章 3 :  影视天堂 专题投稿要求及首页推荐须知.txt
最重要的词:
word: 文章 TF-IDF: 0.30214106361
word: 专题 TF-IDF: 0.299664473
word: 推荐 TF-IDF: 0.272422248182
word: 影视 TF-IDF: 0.262188081994
word: 影视天堂 TF-IDF: 0.224859312082
-------------------------------------------------------------------------------------
文章 4 :  时事热闻 专题投稿及首页推荐须知.txt
最重要的词:
word: 投稿 TF-IDF: 0.240789498281
word: 时事 TF-IDF: 0.206153528974
word: 主编 TF-IDF: 0.201535346647
word: 专题 TF-IDF: 0.192631598625
word: 文章 TF-IDF: 0.188511152044
-------------------------------------------------------------------------------------
文章 5 :  更少 但更好 的精要主义.txt
最重要的词:
word: 精要 TF-IDF: 0.21705339357
word: 行业 TF-IDF: 0.197723677556
word: 更少 TF-IDF: 0.187616167807
word: 思考 TF-IDF: 0.154674494565
word: 自己 TF-IDF: 0.152741774219
-------------------------------------------------------------------------------------
文章 6 :  极简秦汉西凉史 Ch 6 霍去病两战河西走廊 赵充国深入湟中平叛 彻底铲断匈奴右臂.txt
最重要的词:
word: 匈奴 TF-IDF: 0.551647892038
word: 霍去病 TF-IDF: 0.315227366879
word: 河西 TF-IDF: 0.236420525159
word: 赵充国 TF-IDF: 0.157613683439
word: 部落 TF-IDF: 0.157613683439
-------------------------------------------------------------------------------------
文章 7 :  西游伏妖篇 是一曲葬歌 也许星爷只能用来回忆吧 .txt
最重要的词:
word: 周星驰 TF-IDF: 0.51516410785
word: 星驰 TF-IDF: 0.51516410785
word: 电影 TF-IDF: 0.291392563664
word: 西游 TF-IDF: 0.142781532245
word: 喜剧 TF-IDF: 0.140088485468
-------------------------------------------------------------------------------------
文章 8 :  语言 翻译 专题投稿及首页推荐须知.txt
最重要的词:
word: 翻译 TF-IDF: 0.424922809798
word: 外文 TF-IDF: 0.250248357502
word: 译文 TF-IDF: 0.214307006982
word: 语言 TF-IDF: 0.185291944097
word: 文章 TF-IDF: 0.181969231766
-------------------------------------------------------------------------------------
文章 9 :  运动 健身 专题投稿要求及首页推荐须知.txt
最重要的词:
word: 运动 TF-IDF: 0.522796096938
word: 推广 TF-IDF: 0.22429171957
word: 健身 TF-IDF: 0.217198902896
word: 主编 TF-IDF: 0.195054759323
word: 减肥 TF-IDF: 0.185866313526
-------------------------------------------------------------------------------------
文章 10 :  连载  蜂巢 第十六章  未知领域 .txt
最重要的词:
word: 男人 TF-IDF: 0.363402219121
word: 小弟 TF-IDF: 0.348777007457
word: 刀疤 TF-IDF: 0.292164137528
word: ged TF-IDF: 0.212483009111
word: 11 TF-IDF: 0.194711868247
-------------------------------------------------------------------------------------
文章 11 :  连载 不一样的幸福 八 .txt
最重要的词:
word: 班车 TF-IDF: 0.246958768629
word: 妻子 TF-IDF: 0.232375137914
word: 丈夫 TF-IDF: 0.149977217233
word: 那人 TF-IDF: 0.142310476436
word: 咱家 TF-IDF: 0.123479384315
-------------------------------------------------------------------------------------
文章 12 :  连载 静待彼岸花开时 十三 .txt
最重要的词:
word: 生日 TF-IDF: 0.144277141013
word: 英语 TF-IDF: 0.13054819299
word: 一个 TF-IDF: 0.130067216124
word: 特别 TF-IDF: 0.125468784355
word: 一杯 TF-IDF: 0.118297312433
-------------------------------------------------------------------------------------
文章 13 :  连载 魇城 史前战争 十一 死亡谷.txt
最重要的词:
word: 淤泥 TF-IDF: 0.225917628611
word: 山谷 TF-IDF: 0.184038714283
word: 岩石 TF-IDF: 0.184038714283
word: 死亡 TF-IDF: 0.168558266467
word: 泥沼 TF-IDF: 0.122692476189
-------------------------------------------------------------------------------------
文章 14 : 12 干货 100种手势绘画参考.txt
最重要的词:
word: 绘画 TF-IDF: 0.372098507644
word: 人物 TF-IDF: 0.281913815158
word: 画人 TF-IDF: 0.242497343317
word: 姿势 TF-IDF: 0.183057079335
word: 五官 TF-IDF: 0.161664895545
-------------------------------------------------------------------------------------
文章 15 : 379分 我的翻译硕士备考之路 .txt
最重要的词:
word: 翻译 TF-IDF: 0.407700625539
word: 写作 TF-IDF: 0.167099855743
word: 英语 TF-IDF: 0.161458934056
word: 练习 TF-IDF: 0.149039016052
word: 传媒 TF-IDF: 0.130452152978
-------------------------------------------------------------------------------------
文章 16 : 不逃票逗虎是规矩 不冷眼嘲讽是人情.txt
最重要的词:
word: 老虎 TF-IDF: 0.296530850126
word: 事件 TF-IDF: 0.269117142432
word: 道德 TF-IDF: 0.215293713945
word: 我们 TF-IDF: 0.202281016003
word: 规则 TF-IDF: 0.138607527314
-------------------------------------------------------------------------------------
文章 17 : 乘风破浪 为什么有些人不好好写影评却要攻击导演.txt
最重要的词:
word: 批评 TF-IDF: 0.185078671465
word: 电影 TF-IDF: 0.181696973466
word: 女权 TF-IDF: 0.161240707364
word: 导演 TF-IDF: 0.148306639846
word: 平等 TF-IDF: 0.143173663452
-------------------------------------------------------------------------------------
文章 18 : 二十岁 如何确保毕业后 不做个loser .txt
最重要的词:
word: 专业 TF-IDF: 0.297620048212
word: 二十岁 TF-IDF: 0.252732570645
word: 考研 TF-IDF: 0.228179529804
word: 十岁 TF-IDF: 0.200051175398
word: 二十 TF-IDF: 0.165700842723
-------------------------------------------------------------------------------------
文章 19 : 于曼丽 人生若只如初见.txt
最重要的词:
word: 从不 TF-IDF: 0.153118628395
word: 搭档 TF-IDF: 0.149818351537
word: 此生 TF-IDF: 0.149818351537
word: 不曾 TF-IDF: 0.148645778931
word: 同是 TF-IDF: 0.140658668267
-------------------------------------------------------------------------------------
文章 20 : 什么叫过年 一家人肉身聚集就叫过年么 .txt
最重要的词:
word: ada TF-IDF: 0.789338517408
word: 有用 TF-IDF: 0.172418487261
word: 父母 TF-IDF: 0.150206824235
word: 自己 TF-IDF: 0.1102107632
word: 咨询 TF-IDF: 0.0993096815183
-------------------------------------------------------------------------------------
文章 21 : 今年我20岁 想跟你聊聊.txt
最重要的词:
word: 定要 TF-IDF: 0.176900453463
word: 一定 TF-IDF: 0.17439567735
word: 打工 TF-IDF: 0.149497444696
word: 模仿 TF-IDF: 0.149497444696
word: 交朋友 TF-IDF: 0.131493156424
-------------------------------------------------------------------------------------
文章 22 : 从农村孩子命运的死循环里 如何让他们跨越固有阶层翻开人生新篇章 .txt
最重要的词:
word: 孩子 TF-IDF: 0.299399424307
word: 结婚 TF-IDF: 0.172859193446
word: 弟妹 TF-IDF: 0.168209375837
word: 妹妹 TF-IDF: 0.158722960818
word: 十岁 TF-IDF: 0.153229469684
-------------------------------------------------------------------------------------
文章 23 : 你为什么找不到陪你去健身的人 .txt
最重要的词:
word: 健身 TF-IDF: 0.25904784424
word: 技能 TF-IDF: 0.251480626434
word: 主动 TF-IDF: 0.208587664149
word: 社交 TF-IDF: 0.207823338397
word: 朋友 TF-IDF: 0.206007527308
-------------------------------------------------------------------------------------
文章 24 : 你可知道 我曾经历过怎样的孤独 .txt
最重要的词:
word: 他们 TF-IDF: 0.299805012494
word: 孩子 TF-IDF: 0.220414770313
word: 福利院 TF-IDF: 0.175431512445
word: 福利 TF-IDF: 0.151639131442
word: 但是 TF-IDF: 0.145369973861
-------------------------------------------------------------------------------------
文章 25 : 你捉奸的时候 会涂几号色口红 .txt
最重要的词:
word: 丈夫 TF-IDF: 0.362763316897
word: 小三 TF-IDF: 0.327352329554
word: 爱情 TF-IDF: 0.189569623214
word: 正室 TF-IDF: 0.177780141134
word: 西湖 TF-IDF: 0.163676164777
-------------------------------------------------------------------------------------
文章 26 : 你活着 又不是为了取悦别人.txt
最重要的词:
word: 朋友圈 TF-IDF: 0.400376606889
word: 一味 TF-IDF: 0.26469666229
word: 朋友 TF-IDF: 0.262383932938
word: 别人 TF-IDF: 0.255994565283
word: 爱情 TF-IDF: 0.207721723011
-------------------------------------------------------------------------------------
文章 27 : 你的人格完善程度决定着你的发展高度.txt
最重要的词:
word: 人格 TF-IDF: 0.158412262472
word: 我们 TF-IDF: 0.145839322997
word: 成功 TF-IDF: 0.140478502199
word: 客服 TF-IDF: 0.134525142789
word: 是否 TF-IDF: 0.127109065788
-------------------------------------------------------------------------------------
文章 28 : 你违反规则 我没妥协 于是他们舆论开始撕裂.txt
最重要的词:
word: 你们 TF-IDF: 0.397710852248
word: 我们 TF-IDF: 0.341620813992
word: 法则 TF-IDF: 0.328106385502
word: 规则 TF-IDF: 0.306733783491
word: 围墙 TF-IDF: 0.262485108402
-------------------------------------------------------------------------------------
文章 29 : 关于写作 我有一个蠢问题.txt
最重要的词:
word: 问题 TF-IDF: 0.28805935588
word: 文友 TF-IDF: 0.204854035373
word: 注册 TF-IDF: 0.204854035373
word: 提问 TF-IDF: 0.177071311553
word: 大姐 TF-IDF: 0.168127272203
-------------------------------------------------------------------------------------
文章 30 : 写作 是一场个人修行.txt
最重要的词:
word: 写作 TF-IDF: 0.213334383004
word: 不再 TF-IDF: 0.204184086711
word: 文字 TF-IDF: 0.198037367012
word: 敏感 TF-IDF: 0.129315335992
word: 不合时宜 TF-IDF: 0.0856525886411
-------------------------------------------------------------------------------------
文章 31 : 减肥六年终成功 终于有资格说说心得了.txt
最重要的词:
word: 减肥 TF-IDF: 0.508666591581
word: 体重 TF-IDF: 0.162655366737
word: 锻炼 TF-IDF: 0.135776865275
word: 没有 TF-IDF: 0.135736834391
word: 身体 TF-IDF: 0.1167132765
-------------------------------------------------------------------------------------
文章 32 : 减肥教会我的事 如何成为更好的自己 .txt
最重要的词:
word: 不怕 TF-IDF: 0.145684892074
word: 梦想 TF-IDF: 0.139023604059
word: 也好 TF-IDF: 0.125270077505
word: 日复一日 TF-IDF: 0.122570040664
word: 一个 TF-IDF: 0.117864595744
-------------------------------------------------------------------------------------
文章 33 : 减重20斤的体会 姑娘 不减肥你不会死 但再不减肥你就老了.txt
最重要的词:
word: 减肥 TF-IDF: 0.586434412921
word: 试过 TF-IDF: 0.165051699136
word: 肥胖 TF-IDF: 0.137543082614
word: 散步 TF-IDF: 0.119516136866
word: 喝水 TF-IDF: 0.110034466091
-------------------------------------------------------------------------------------
文章 34 : 又是一个春节将至 孩子妈妈 你在天堂还好吗 .txt
最重要的词:
word: 天堂 TF-IDF: 0.368235139922
word: 春节 TF-IDF: 0.331022585853
word: 孩子 TF-IDF: 0.305582522706
word: 七夕 TF-IDF: 0.260590541862
word: 最最 TF-IDF: 0.156354325117
-------------------------------------------------------------------------------------
文章 35 : 发现更广阔的电影世界 影视专题主编推荐作者.txt
最重要的词:
word: 推荐 TF-IDF: 0.446195176173
word: 作者 TF-IDF: 0.384591412077
word: 主编 TF-IDF: 0.297066666967
word: 文章 TF-IDF: 0.211709541843
word: 电影 TF-IDF: 0.206431454951
-------------------------------------------------------------------------------------
文章 36 : 听说 你要开始练瑜伽了 .txt
最重要的词:
word: 瑜伽 TF-IDF: 0.753981284636
word: 练习 TF-IDF: 0.32003834207
word: 健身房 TF-IDF: 0.152634400149
word: 老师 TF-IDF: 0.149989689678
word: 健身 TF-IDF: 0.142691910665
-------------------------------------------------------------------------------------
文章 37 : 听说你又在写自嗨的读书笔记 .txt
最重要的词:
word: 笔记 TF-IDF: 0.483891180224
word: 读书笔记 TF-IDF: 0.29510944006
word: 读书 TF-IDF: 0.228437126067
word: 阅读 TF-IDF: 0.210298041103
word: 快速 TF-IDF: 0.156196334647
-------------------------------------------------------------------------------------
文章 38 : 味漠视规则的逃票者而壮烈牺牲的老虎 您一路走好.txt
最重要的词:
word: 老虎 TF-IDF: 0.51253175288
word: 死者 TF-IDF: 0.31600910862
word: 逃票 TF-IDF: 0.180576633497
word: 动物园 TF-IDF: 0.177414837536
word: 动物 TF-IDF: 0.174033719493
-------------------------------------------------------------------------------------
文章 39 : 和一位少年相约1998  乘风破浪 里的和解 女权和爱情.txt
最重要的词:
word: 和解 TF-IDF: 0.167824467095
word: 江湖 TF-IDF: 0.163545691028
word: 少年 TF-IDF: 0.154457057652
word: 电影 TF-IDF: 0.133797863939
word: 爱情 TF-IDF: 0.121483865094
-------------------------------------------------------------------------------------
文章 40 : 哪有什么好运 不过是在拼命努力罢了.txt
最重要的词:
word: 韩语 TF-IDF: 0.358529835524
word: 同学 TF-IDF: 0.183662062719
word: 月儿 TF-IDF: 0.159346593566
word: 学习 TF-IDF: 0.140162933556
word: 口中 TF-IDF: 0.139161354437
-------------------------------------------------------------------------------------
文章 41 : 四处举债的岁月.txt
最重要的词:
word: 借了 TF-IDF: 0.422898403168
word: 小弟 TF-IDF: 0.266984676766
word: 妻子 TF-IDF: 0.22957213116
word: 200 TF-IDF: 0.196831414571
word: 那里 TF-IDF: 0.160872497116
-------------------------------------------------------------------------------------
文章 42 : 在少林寺工作时一种怎样的体验 .txt
最重要的词:
word: 少林 TF-IDF: 0.488033321998
word: 工作 TF-IDF: 0.158907238871
word: 武学 TF-IDF: 0.154608754139
word: 武术 TF-IDF: 0.154608754139
word: 文化 TF-IDF: 0.135936513708
-------------------------------------------------------------------------------------
文章 43 : 坚持一件事到底有多难.txt
最重要的词:
word: 坚持 TF-IDF: 0.247004665412
word: 老妹 TF-IDF: 0.213061884155
word: 写作 TF-IDF: 0.185735179889
word: 工作 TF-IDF: 0.170322057519
word: 多难 TF-IDF: 0.159796413116
-------------------------------------------------------------------------------------
文章 44 : 夏目友人帐第一回 猫和友人帐.txt
最重要的词:
word: 猫咪 TF-IDF: 0.363029974566
word: 妖怪 TF-IDF: 0.25930712469
word: 名字 TF-IDF: 0.246086135601
word: 铃子 TF-IDF: 0.190988241534
word: 等待 TF-IDF: 0.172814415641
-------------------------------------------------------------------------------------
文章 45 : 大学毕业后 孤独就成了奢侈品.txt
最重要的词:
word: 孤独 TF-IDF: 0.637883864353
word: 少年 TF-IDF: 0.147003981401
word: 时候 TF-IDF: 0.126332751105
word: 条件 TF-IDF: 0.10705362713
word: 平静 TF-IDF: 0.104943152491
-------------------------------------------------------------------------------------
文章 46 : 大梦过半 三十 不能寐.txt
最重要的词:
word: 家长 TF-IDF: 0.233915819359
word: 自己 TF-IDF: 0.172628962121
word: 时候 TF-IDF: 0.153562496488
word: 但是 TF-IDF: 0.137556267197
word: 肯定 TF-IDF: 0.12134383702
-------------------------------------------------------------------------------------
文章 47 : 如何在大学里保持持续的学习热情.txt
最重要的词:
word: 自控力 TF-IDF: 0.37534092574
word: 自控 TF-IDF: 0.36589097559
word: 学习 TF-IDF: 0.211035591992
word: 手机 TF-IDF: 0.170244490453
word: 奖励 TF-IDF: 0.162618211373
-------------------------------------------------------------------------------------
文章 48 : 如何成为月入十万的斜杠青年 上 .txt
最重要的词:
word: 斜杠 TF-IDF: 0.476769712174
word: 资产 TF-IDF: 0.371884571417
word: ppt TF-IDF: 0.258926480939
word: 青年 TF-IDF: 0.158180675413
word: 交换 TF-IDF: 0.130556032432
-------------------------------------------------------------------------------------
文章 49 : 如果真有下辈子 我希望我们还是老样子.txt
最重要的词:
word: 外公 TF-IDF: 0.219154260939
word: 记得 TF-IDF: 0.15050381897
word: 一二年 TF-IDF: 0.119019392631
word: 九个 TF-IDF: 0.119019392631
word: 二年级 TF-IDF: 0.119019392631
-------------------------------------------------------------------------------------
文章 50 : 室友啊室友 谢谢你们孤立我 .txt
最重要的词:
word: 室友 TF-IDF: 0.412660736357
word: 孤立 TF-IDF: 0.28886251545
word: 松子 TF-IDF: 0.134465914539
word: 七七 TF-IDF: 0.123798220907
word: 排挤 TF-IDF: 0.123798220907
-------------------------------------------------------------------------------------
文章 51 : 年年岁岁 最爱看的依旧是86版的西游和87版的红楼.txt
最重要的词:
word: 西游 TF-IDF: 0.268528932097
word: 角色 TF-IDF: 0.19154946239
word: 作品 TF-IDF: 0.18818677659
word: 红楼 TF-IDF: 0.171609311146
word: 一个角 TF-IDF: 0.161117359258
-------------------------------------------------------------------------------------
文章 52 : 张幼仪 面对失去的爱情 最有效的治愈与最精彩的报复是   .txt
最重要的词:
word: 徐志摩 TF-IDF: 0.580830792916
word: 志摩 TF-IDF: 0.580830792916
word: 陆小曼 TF-IDF: 0.141948222016
word: 婚姻 TF-IDF: 0.115623377213
word: 林徽因 TF-IDF: 0.110404172679
-------------------------------------------------------------------------------------
文章 53 : 当了三天面试官 我总结出以下几点经验.txt
最重要的词:
word: 面试 TF-IDF: 0.627217033648
word: 面试官 TF-IDF: 0.295972024806
word: 部门 TF-IDF: 0.207944684378
word: 老乡 TF-IDF: 0.142671011816
word: 展示 TF-IDF: 0.117092582509
-------------------------------------------------------------------------------------
文章 54 : 当二流大学的学生跑进名校招聘会后 我学会了什么 .txt
最重要的词:
word: 面试 TF-IDF: 0.320738354122
word: 名校 TF-IDF: 0.262422289736
word: 学校 TF-IDF: 0.255185757742
word: 二流 TF-IDF: 0.222851409651
word: 实习 TF-IDF: 0.183479964781
-------------------------------------------------------------------------------------
文章 55 : 当视钱如粪的我遇上了爱钱如命的男朋友.txt
最重要的词:
word: 同学 TF-IDF: 0.423955411991
word: 礼物 TF-IDF: 0.196451794054
word: 自己 TF-IDF: 0.149727331386
word: 赚钱 TF-IDF: 0.141799712749
word: prada TF-IDF: 0.132981078497
-------------------------------------------------------------------------------------
文章 56 : 彩铅一一花.txt
最重要的词:
word: 00 TF-IDF: 0.0
word: 000 TF-IDF: 0.0
word: 0304 TF-IDF: 0.0
word: 04 TF-IDF: 0.0
word: 07 TF-IDF: 0.0
-------------------------------------------------------------------------------------
文章 57 : 微课实录  第2课 迷茫 3小时看清人生发展 .txt
最重要的词:
word: 目标 TF-IDF: 0.341505627106
word: 我们 TF-IDF: 0.214281188877
word: 生命 TF-IDF: 0.175041369033
word: 训练 TF-IDF: 0.161187059309
word: 反思 TF-IDF: 0.156478517577
-------------------------------------------------------------------------------------
文章 58 : 心理专题投稿指南 我这么好的文章 你为什么不收录进心理专题 为什么不推荐上首页 .txt
最重要的词:
word: 文章 TF-IDF: 0.461854109134
word: 心理 TF-IDF: 0.285929980738
word: 首页 TF-IDF: 0.176344110482
word: 专题 TF-IDF: 0.168553300825
word: 推荐 TF-IDF: 0.168553300825
-------------------------------------------------------------------------------------
文章 59 : 情感 亲爱的婆婆 我想对您说.txt
最重要的词:
word: 婆婆 TF-IDF: 0.535943774864
word: 我们 TF-IDF: 0.252835897028
word: 媳妇 TF-IDF: 0.246476282869
word: 小孩 TF-IDF: 0.181750602955
word: 一点 TF-IDF: 0.115822539897
-------------------------------------------------------------------------------------
文章 60 : 我就是那只被击毙的老虎.txt
最重要的词:
word: 人类 TF-IDF: 0.451122850128
word: 规则 TF-IDF: 0.369851388134
word: 你们 TF-IDF: 0.221330355301
word: 遵守 TF-IDF: 0.152162269124
word: 动物 TF-IDF: 0.134336166168
-------------------------------------------------------------------------------------
文章 61 : 我还要画很多画 人生还很长2.txt
最重要的词:
word: 00 TF-IDF: 0.0
word: 000 TF-IDF: 0.0
word: 0304 TF-IDF: 0.0
word: 04 TF-IDF: 0.0
word: 07 TF-IDF: 0.0
-------------------------------------------------------------------------------------
文章 62 : 所谓的 第二段恋爱 .txt
最重要的词:
word: 00 TF-IDF: 0.0
word: 000 TF-IDF: 0.0
word: 0304 TF-IDF: 0.0
word: 04 TF-IDF: 0.0
word: 07 TF-IDF: 0.0
-------------------------------------------------------------------------------------
文章 63 : 抢红包 神补刀.txt
最重要的词:
word: 经理 TF-IDF: 0.44090996308
word: 红包 TF-IDF: 0.42071965651
word: 抢到 TF-IDF: 0.259589935499
word: 哈哈 TF-IDF: 0.241130797345
word: 哈哈哈 TF-IDF: 0.238995676267
-------------------------------------------------------------------------------------
文章 64 : 敢不敢从年初开始 做几件年尾才能见成效的事.txt
最重要的词:
word: 一年 TF-IDF: 0.252901809696
word: 六年 TF-IDF: 0.248410731731
word: 老师 TF-IDF: 0.241434462043
word: 紧急 TF-IDF: 0.189857399747
word: 十年 TF-IDF: 0.156482360357
-------------------------------------------------------------------------------------
文章 65 : 日更带给我种种美好体验 为什么我不坚持了 .txt
最重要的词:
word: 文章 TF-IDF: 0.240577215218
word: 一篇 TF-IDF: 0.157193433461
word: 自己 TF-IDF: 0.142792214991
word: 完成 TF-IDF: 0.122389270079
word: 写作 TF-IDF: 0.118658694727
-------------------------------------------------------------------------------------
文章 66 : 日语专业毕业生 日语翻译 不 中间还有一段长长的路.txt
最重要的词:
word: 日语 TF-IDF: 0.401588259477
word: 翻译 TF-IDF: 0.374710399874
word: 行业 TF-IDF: 0.169289264257
word: 会议 TF-IDF: 0.132742282983
word: 一个 TF-IDF: 0.132209614664
-------------------------------------------------------------------------------------
文章 67 : 春晚为什么不好看了 .txt
最重要的词:
word: 春晚 TF-IDF: 0.333177948078
word: 小品 TF-IDF: 0.310515164966
word: 观众 TF-IDF: 0.288995186092
word: 语言 TF-IDF: 0.168040207905
word: 尴尬 TF-IDF: 0.15645146853
-------------------------------------------------------------------------------------
文章 68 : 春晚小品不好笑我可以忍 但大过年出来恶心人就不对了.txt
最重要的词:
word: 小品 TF-IDF: 0.371820903841
word: 生育 TF-IDF: 0.18591045192
word: 女性 TF-IDF: 0.174850713049
word: 节目 TF-IDF: 0.127975551626
word: 孩子 TF-IDF: 0.126854157016
-------------------------------------------------------------------------------------
文章 69 : 曾经执着 一直执着    西游伏妖篇 观后感.txt
最重要的词:
word: 唐僧 TF-IDF: 0.372285639882
word: 西游 TF-IDF: 0.20682535549
word: 伏妖 TF-IDF: 0.191421222638
word: 师徒 TF-IDF: 0.17623504728
word: 片子 TF-IDF: 0.150274109034
-------------------------------------------------------------------------------------
文章 70 : 最好的时机就是当下.txt
最重要的词:
word: 我们 TF-IDF: 0.248597572681
word: 智慧 TF-IDF: 0.171382033171
word: 经典 TF-IDF: 0.162458083248
word: 家人 TF-IDF: 0.148377134984
word: 一大早 TF-IDF: 0.125078962774
-------------------------------------------------------------------------------------
文章 71 : 有味方可成道.txt
最重要的词:
word: 味道 TF-IDF: 0.444592658231
word: 二者 TF-IDF: 0.19631861798
word: 温顺 TF-IDF: 0.19631861798
word: 植物 TF-IDF: 0.154118780547
word: 驯顺 TF-IDF: 0.130879078653
-------------------------------------------------------------------------------------
文章 72 : 有种欢愉叫运动.txt
最重要的词:
word: 运动 TF-IDF: 0.199803442539
word: 想象 TF-IDF: 0.18051461732
word: 好象 TF-IDF: 0.16131508357
word: 体育 TF-IDF: 0.151788960563
word: 摔倒 TF-IDF: 0.148517343
-------------------------------------------------------------------------------------
文章 73 : 朝夕要有你 余生才完整 七 .txt
最重要的词:
word: 话剧 TF-IDF: 0.185565972346
word: 终点 TF-IDF: 0.154638310288
word: 表演 TF-IDF: 0.142233859956
word: 男孩 TF-IDF: 0.129084612721
word: 话剧表演 TF-IDF: 0.113051076618
-------------------------------------------------------------------------------------
文章 74 : 杀鸡者亦有敬畏心.txt
最重要的词:
word: 咯咯 TF-IDF: 0.333370447851
word: 三爷 TF-IDF: 0.277808706543
word: 雪白 TF-IDF: 0.222246965234
word: 商贩 TF-IDF: 0.166685223926
word: 随即 TF-IDF: 0.153461449648
-------------------------------------------------------------------------------------
文章 75 : 李叔同 从公子哥到高僧 绚烂至极的平淡.txt
最重要的词:
word: 弘一 TF-IDF: 0.427502477744
word: 李叔同 TF-IDF: 0.408915413494
word: 法师 TF-IDF: 0.290912186899
word: 弘一法师 TF-IDF: 0.223044770997
word: 僧人 TF-IDF: 0.119787371076
-------------------------------------------------------------------------------------
文章 76 : 板绘.txt
最重要的词:
word: 图画 TF-IDF: 0.384443827442
word: 画技 TF-IDF: 0.384443827442
word: 默哀 TF-IDF: 0.384443827442
word: 惊心 TF-IDF: 0.353944432975
word: 难题 TF-IDF: 0.353944432975
-------------------------------------------------------------------------------------
文章 77 : 林觉民 生当复归来 死当长相思.txt
最重要的词:
word: 平安 TF-IDF: 0.144970010856
word: 不怕 TF-IDF: 0.14277529324
word: 民主 TF-IDF: 0.115976008685
word: 行李 TF-IDF: 0.106775189774
word: 穿着 TF-IDF: 0.105647751312
-------------------------------------------------------------------------------------
文章 78 : 正月初三赏雪忙.txt
最重要的词:
word: 放飞 TF-IDF: 0.210168628936
word: 除夕 TF-IDF: 0.193495150366
word: 一岁 TF-IDF: 0.181665129053
word: 减少 TF-IDF: 0.172489051639
word: 天空 TF-IDF: 0.148318171912
-------------------------------------------------------------------------------------
文章 79 : 每个灵魂都有一片伤 二 28I婚姻地狱.txt
最重要的词:
word: 屈辱 TF-IDF: 0.178101836726
word: 婆婆 TF-IDF: 0.175405532599
word: 伴侣 TF-IDF: 0.129792765025
word: 自己 TF-IDF: 0.125331330166
word: 婚姻 TF-IDF: 0.118695407522
-------------------------------------------------------------------------------------
文章 80 : 每逢佳节胖三斤 但好消息是      .txt
最重要的词:
word: 动作 TF-IDF: 0.321606248947
word: 运动 TF-IDF: 0.298852542286
word: 健身 TF-IDF: 0.269604907514
word: 健美 TF-IDF: 0.240654100077
word: 健美操 TF-IDF: 0.240654100077
-------------------------------------------------------------------------------------
文章 81 : 比健身更重要的是背后的坚持 主动  乐观 .txt
最重要的词:
word: 健身 TF-IDF: 0.698490268331
word: 主动 TF-IDF: 0.236812915154
word: 坚持 TF-IDF: 0.144940888943
word: 甲线 TF-IDF: 0.104186219984
word: 马甲 TF-IDF: 0.104186219984
-------------------------------------------------------------------------------------
文章 82 : 比老虎更可怕的是人言.txt
最重要的词:
word: 动物园 TF-IDF: 0.23840938499
word: 动物 TF-IDF: 0.210479266264
word: 老虎 TF-IDF: 0.190727507992
word: 事件 TF-IDF: 0.173095116114
word: 死者 TF-IDF: 0.163794281218
-------------------------------------------------------------------------------------
文章 83 : 没事别想不开去创业公司.txt
最重要的词:
word: 创业 TF-IDF: 0.605878192988
word: 公司 TF-IDF: 0.514628709171
word: 自己 TF-IDF: 0.10984679999
word: 很难说 TF-IDF: 0.0780487880036
word: 难说 TF-IDF: 0.0780487880036
-------------------------------------------------------------------------------------
文章 84 : 没有整容 你还会是那个甜心教主吗 .txt
最重要的词:
word: 教主 TF-IDF: 0.377516787812
word: 甜心 TF-IDF: 0.209731548785
word: 台湾 TF-IDF: 0.164648523271
word: 少女 TF-IDF: 0.154474196359
word: 明星 TF-IDF: 0.131718818617
-------------------------------------------------------------------------------------
文章 85 : 灵魂只能独行.txt
最重要的词:
word: 亲戚 TF-IDF: 0.302529187083
word: 麻将 TF-IDF: 0.267274239285
word: 打麻将 TF-IDF: 0.243792729831
word: 独处 TF-IDF: 0.243792729831
word: ktv TF-IDF: 0.174137664165
-------------------------------------------------------------------------------------
文章 86 : 爱情败在现实的路上 .txt
最重要的词:
word: 老婆 TF-IDF: 0.277142465155
word: 我们 TF-IDF: 0.173796320357
word: 恋爱 TF-IDF: 0.167803962463
word: 城市 TF-IDF: 0.138814615363
word: 老妈 TF-IDF: 0.138571232577
-------------------------------------------------------------------------------------
文章 87 : 爸 您到底要干嘛.txt
最重要的词:
word: 孩子 TF-IDF: 0.239723977694
word: 父亲 TF-IDF: 0.181382358716
word: 老爸 TF-IDF: 0.154615612782
word: 父母 TF-IDF: 0.151373170733
word: 舒服 TF-IDF: 0.139398457937
-------------------------------------------------------------------------------------
文章 88 : 王佩写作私密群招募 来聊聊 好中文的样子 .txt
最重要的词:
word: 中文 TF-IDF: 0.336877240767
word: 编剧 TF-IDF: 0.251136214287
word: 晚会 TF-IDF: 0.176836574556
word: 老师 TF-IDF: 0.173439848819
word: 写作 TF-IDF: 0.169850770577
-------------------------------------------------------------------------------------
文章 89 : 画画打卡第二十六天.txt
最重要的词:
word: 教程 TF-IDF: 0.442107120176
word: 画画 TF-IDF: 0.39411136526
word: 初学者 TF-IDF: 0.294738080117
word: 学者 TF-IDF: 0.294738080117
word: 初学 TF-IDF: 0.262740910173
-------------------------------------------------------------------------------------
文章 90 : 画画打卡第四十八天.txt
最重要的词:
word: 00 TF-IDF: 0.0
word: 000 TF-IDF: 0.0
word: 0304 TF-IDF: 0.0
word: 04 TF-IDF: 0.0
word: 07 TF-IDF: 0.0
-------------------------------------------------------------------------------------
文章 91 : 看了 太空旅客 后 我只想知道他们为什么没生小孩 .txt
最重要的词:
word: 休眠 TF-IDF: 0.227090933646
word: 飞船 TF-IDF: 0.227090933646
word: 电影 TF-IDF: 0.210022796907
word: 主角 TF-IDF: 0.186377481637
word: 他们 TF-IDF: 0.178064260001
-------------------------------------------------------------------------------------
文章 92 : 突然有一天 别人不再说你内向.txt
最重要的词:
word: 内向 TF-IDF: 0.408993999027
word: 他们 TF-IDF: 0.185501536194
word: 孩子 TF-IDF: 0.171737235478
word: 外向 TF-IDF: 0.170860390391
word: 默默 TF-IDF: 0.168809118832
-------------------------------------------------------------------------------------
文章 93 : 简友常见问题汇总.txt
最重要的词:
word: 专题 TF-IDF: 0.525874057703
word: 文章 TF-IDF: 0.375758270087
word: 主编 TF-IDF: 0.209592692587
word: 投稿 TF-IDF: 0.200332974363
word: 提现 TF-IDF: 0.165356299287
-------------------------------------------------------------------------------------
文章 94 : 简年11  九儿 这首歌只有四句词 却听哭了很多人.txt
最重要的词:
word: 高粱 TF-IDF: 0.340898539649
word: 歌曲 TF-IDF: 0.26154479906
word: 热烈 TF-IDF: 0.156926879436
word: 情怀 TF-IDF: 0.133810200381
word: key TF-IDF: 0.11363284655
-------------------------------------------------------------------------------------
文章 95 : 简年11 我是如何在学完韩语一年后 挣回当时16000的报名费 .txt
最重要的词:
word: 韩语 TF-IDF: 0.407341458466
word: 学习 TF-IDF: 0.204743894604
word: 学费 TF-IDF: 0.144622502526
word: 标题 TF-IDF: 0.142819915716
word: 爸妈 TF-IDF: 0.142819915716
-------------------------------------------------------------------------------------
文章 96 : 简年12  张扬是因为骨子里的自卑.txt
最重要的词:
word: 总是 TF-IDF: 0.185362164213
word: 自卑 TF-IDF: 0.178700297037
word: 自信 TF-IDF: 0.1687579803
word: 很多 TF-IDF: 0.166164155307
word: 说起 TF-IDF: 0.164446963847
-------------------------------------------------------------------------------------
文章 97 : 简年12 也谈写文.txt
最重要的词:
word: 忠实 TF-IDF: 0.230082665769
word: 白鹿原 TF-IDF: 0.186895566018
word: 每个 TF-IDF: 0.18077986763
word: 起笔 TF-IDF: 0.172068428253
word: 文字 TF-IDF: 0.144040424961
-------------------------------------------------------------------------------------
文章 98 : 简年12 写作是什么 .txt
最重要的词:
word: 写作 TF-IDF: 0.448392927492
word: 体现 TF-IDF: 0.271799047386
word: 写出 TF-IDF: 0.239957265388
word: 个人 TF-IDF: 0.212877640132
word: 一个 TF-IDF: 0.179304895665
-------------------------------------------------------------------------------------
文章 99 : 简年12 我强烈建议各国联合出资给太平洋加个盖.txt
最重要的词:
word: 水仙 TF-IDF: 0.29303804902
word: 动物 TF-IDF: 0.278991834008
word: 人类 TF-IDF: 0.257647576228
word: 太平洋 TF-IDF: 0.209312892157
word: 应该 TF-IDF: 0.191526239447
-------------------------------------------------------------------------------------
文章 100 : 简年12 我招聘遇到过的各种奇葩 第三季 .txt
最重要的词:
word: 应聘 TF-IDF: 0.349054672269
word: 面试 TF-IDF: 0.274023324878
word: 总监 TF-IDF: 0.27148696732
word: 简历 TF-IDF: 0.243576288781
word: 公司 TF-IDF: 0.149174842132
-------------------------------------------------------------------------------------
文章 101 : 素描眼睛教程 超详细步骤 .txt
最重要的词:
word: 轮廓 TF-IDF: 0.346342999328
word: 眼睛 TF-IDF: 0.285420564576
word: step1 TF-IDF: 0.1880936891
word: step3 TF-IDF: 0.1880936891
word: step7 TF-IDF: 0.1880936891
-------------------------------------------------------------------------------------
文章 102 : 绘画游戏01 今天画了个球 更新获奖名单 .txt
最重要的词:
word: 今天 TF-IDF: 0.421058544543
word: 示众 TF-IDF: 0.245867105435
word: 熬夜 TF-IDF: 0.231347940594
word: 名单 TF-IDF: 0.212522105059
word: 专题 TF-IDF: 0.198582449907
-------------------------------------------------------------------------------------
文章 103 : 给心理专题投稿一定要先看这里 .txt
最重要的词:
word: 心理 TF-IDF: 0.32293034245
word: 主编 TF-IDF: 0.265551558415
word: 文章 TF-IDF: 0.248390324758
word: 理论 TF-IDF: 0.186164863315
word: 方面 TF-IDF: 0.168874190983
-------------------------------------------------------------------------------------
文章 104 : 自然美育第一期 植物皇冠.txt
最重要的词:
word: 植物 TF-IDF: 0.304578708071
word: 采集 TF-IDF: 0.274766831412
word: 包子 TF-IDF: 0.21981346513
word: 皇冠 TF-IDF: 0.208910443948
word: 材料 TF-IDF: 0.192336781989
-------------------------------------------------------------------------------------
文章 105 : 茉莉花.txt
最重要的词:
word: 浓妆 TF-IDF: 0.351610313068
word: 浓妆艳抹 TF-IDF: 0.351610313068
word: 艳抹 TF-IDF: 0.351610313068
word: 一个身 TF-IDF: 0.323715726469
word: 相比 TF-IDF: 0.28857270352
-------------------------------------------------------------------------------------
文章 106 : 萧伯纳与马份.txt
最重要的词:
word: 译法 TF-IDF: 0.217498709246
word: 中国 TF-IDF: 0.185990197349
word: 译名 TF-IDF: 0.181248924372
word: 翻译 TF-IDF: 0.153491085286
word: 归化 TF-IDF: 0.144999139497
-------------------------------------------------------------------------------------
文章 107 : 虚空断章 第四章 空渊罪孽 01.txt
最重要的词:
word: 妮塔 TF-IDF: 0.424096898622
word: 阿卡 TF-IDF: 0.424096898622
word: 巫师 TF-IDF: 0.130150558282
word: 星辰 TF-IDF: 0.130150558282
word: 露露 TF-IDF: 0.106024224656
-------------------------------------------------------------------------------------
文章 108 : 蜉蝣轻浅 松鹤同芳.txt
最重要的词:
word: 长生 TF-IDF: 0.310132632641
word: 千年 TF-IDF: 0.254531249298
word: 师兄 TF-IDF: 0.214146471418
word: 古树 TF-IDF: 0.15506631632
word: 相思 TF-IDF: 0.15506631632
-------------------------------------------------------------------------------------
文章 109 : 被时间压抑在心灵深处的痛   无法回避的 早期伤害 .txt
最重要的词:
word: 伤害 TF-IDF: 0.32574607656
word: 生命 TF-IDF: 0.306578585466
word: 自己 TF-IDF: 0.288729692879
word: 我们 TF-IDF: 0.177227692324
word: 平衡 TF-IDF: 0.171291516827
-------------------------------------------------------------------------------------
文章 110 : 语言文化 8种西餐鸡蛋的做法和叫法.txt
最重要的词:
word: 鸡蛋 TF-IDF: 0.498264766664
word: 蛋黄 TF-IDF: 0.383280589741
word: 煎蛋 TF-IDF: 0.268296412819
word: 做法 TF-IDF: 0.157282525395
word: 蛋清 TF-IDF: 0.153312235897
-------------------------------------------------------------------------------------
文章 111 : 走出舒适区这句话 根本就是错的.txt
最重要的词:
word: 舒适 TF-IDF: 0.769757219617
word: 走出 TF-IDF: 0.159539834585
word: 生活 TF-IDF: 0.15267588549
word: 鸡汤 TF-IDF: 0.151696864857
word: 进取 TF-IDF: 0.122832158499
-------------------------------------------------------------------------------------
文章 112 : 过年了 送你们一朵玫瑰.txt
最重要的词:
word: 00 TF-IDF: 0.0
word: 000 TF-IDF: 0.0
word: 0304 TF-IDF: 0.0
word: 04 TF-IDF: 0.0
word: 07 TF-IDF: 0.0
-------------------------------------------------------------------------------------
文章 113 : 这个女人有毒.txt
最重要的词:
word: 多姆 TF-IDF: 0.319653679408
word: 奥多 TF-IDF: 0.319653679408
word: 奥多姆 TF-IDF: 0.319653679408
word: 赛季 TF-IDF: 0.228895593413
word: 球队 TF-IDF: 0.177585377449
-------------------------------------------------------------------------------------
文章 114 : 这个春节我们最疯狂的事 就是环深圳跑了一百公里.txt
最重要的词:
word: 公里 TF-IDF: 0.489661777341
word: 深圳 TF-IDF: 0.43900711072
word: 百公里 TF-IDF: 0.275097898138
word: 完成 TF-IDF: 0.13192229126
word: 我们 TF-IDF: 0.129235119194
-------------------------------------------------------------------------------------
文章 115 : 这些上的外语大神 是你我皆要仰望的榜样.txt
最重要的词:
word: 英语 TF-IDF: 0.325404222828
word: 学习 TF-IDF: 0.233349233592
word: 语言学 TF-IDF: 0.189921381793
word: 语言 TF-IDF: 0.184480472311
word: nba TF-IDF: 0.179812488661
-------------------------------------------------------------------------------------
文章 116 : 这支笔 是我唯一喜欢的玩具.txt
最重要的词:
word: 故事 TF-IDF: 0.168093316603
word: 真实 TF-IDF: 0.163302342295
word: 画家 TF-IDF: 0.163016025333
word: 需要 TF-IDF: 0.136736569356
word: 否定 TF-IDF: 0.13309234962
-------------------------------------------------------------------------------------
文章 117 : 连载风云录.txt
最重要的词:
word: 连载 TF-IDF: 0.714673723925
word: 作者 TF-IDF: 0.263815753238
word: 专题 TF-IDF: 0.166949290924
word: 分享 TF-IDF: 0.157795251693
word: 作品 TF-IDF: 0.139124409104
-------------------------------------------------------------------------------------
文章 118 : 那些成功人士不会告诉你的秘密.txt
最重要的词:
word: 规划 TF-IDF: 0.315722057727
word: 职业 TF-IDF: 0.281630519768
word: 职业规划 TF-IDF: 0.235988981883
word: 单位 TF-IDF: 0.13334769847
word: 工作 TF-IDF: 0.125378127675
-------------------------------------------------------------------------------------
文章 119 : 非英专生英语学习的自我修养  英语单词背了这么多 为什么不学点方法论 .txt
最重要的词:
word: 英语 TF-IDF: 0.545396235454
word: 学习 TF-IDF: 0.251849054485
word: 社团 TF-IDF: 0.160613003267
word: 坚持 TF-IDF: 0.142310606785
word: 演讲 TF-IDF: 0.12424744512
-------------------------------------------------------------------------------------
文章 120 : 马克笔想画就画丨系红蝴蝶结的精灵女孩.txt
最重要的词:
word: 侧面 TF-IDF: 0.324119383236
word: 步骤 TF-IDF: 0.324119383236
word: 精灵 TF-IDF: 0.324119383236
word: 轮廓 TF-IDF: 0.324119383236
word: 造型 TF-IDF: 0.324119383236

第0007题

有个目录,里面是你自己写过的程序,统计一下你写过多少行代码。包括空行和注释,但是要分别列出来。


In [31]:
code_path = r'C:\Users\jiang\Documents\MATLAB' #matlab files
import os
file_count, code_line_count, blank_line_count, comment_line_count = 0, 0, 0, 0
for root, dirs, files in os.walk(code_path):
    for f in files:
        if f.endswith('.m'):
            file_count += 1
            with open(os.path.join(root, f), 'r') as cur_f:
                for line in cur_f:
                    if line.strip().startswith('%'):
                        comment_line_count += 1
                    elif line.isspace():
                        blank_line_count += 1
                    else:
                        code_line_count += 1
print "file_count, code_line_count, blank_line_count, comment_line_count: "
print file_count, code_line_count, blank_line_count, comment_line_count


file_count, code_line_count, blank_line_count, comment_line_count: 
893 36136 10000 18544

第0008题

一个HTML文件,找出里面的正文。


In [23]:
from goose import Goose
from goose.text import StopWordsChinese
url = "http://www.jianshu.com/p/05cfea46e4fd"
html_doc = r"C:\Users\jiang\Desktop\2016年人工智能领域的总结与思考:未来将面临的五大考验 - 简书.html"
with open(html_doc.decode('utf8'), 'r') as f:
    words = f.read()
g = Goose({'stopwords_class': StopWordsChinese})
article = g.extract(raw_html=words)
print(article.title)
print(article.cleaned_text)


2016年人工智能领域的总结与思考:未来将面临的五大考验
写了143754字 , 被682人关注 , 获得了1119个喜欢

这两天,有朋友感慨道:“2016年对人工智能来说是意义非凡的一年,或许在技术领域的感知并不明显,在商业层面的「成功」却是前所未有的。”是呀,从年初AlphaGo和李世石的围棋大战,再到一场场和人工智能有关的发布会。不管怎样,人工智能终于跳出了实验室的禁锢,成为活跃在科技领域的核心力量。 今天,投投就与你分享一篇有关人工智能的好文,内容来源于前段时间「投资人说」联合「华兴逐鹿X」的一场线下交流会,当时我们邀请了几位人工智能领域的行业专家深度聊了聊自己对此的认识。为了让你读到最新的行业真知,投投在文中适当融合了一些人工智能领域权威人士的最新观点,希望能对你有所启发。

每当一个事物兴起的时候,随之而来的就是大量的观点与推测,其中最受欢迎的往往是那些最大胆的;而后每增加一个论据,都会让我们对这个观点更加深信无疑。就像从Alpha Go战胜李世石后,人工智能在舆论中强势回暖,而后李彦宏在世界互联网大会上的言论,也再度加强了人们对它的关注。

不仅百度,马化腾在2015年6月的演讲中也说道:人工智能是我最想做的事情。马云也在2015年5月内部信中写道:未来三十年云计算、大数据、人工智能等技术将会让无数的梦想成真。

目前国际互联网巨头纷纷入场, 亚马逊的 Alexa、苹果的 Siri、微软的 Cortana,作为人工智能的第一块敲门砖,已经被较为广泛的使用;搜索、翻译、地图、无人车,深度学习的影子无处不在,人工智能正在重构人类的生活。

同时,伴随互联网的高速发展和底层技术的不断进步,人工智能所需的「能源」正在不断完善。

1)数据量: 2000年至今,互联网及移动互联网的高速发展使得数据实现了量的积累,据IDC预测,2020年全球的大数据总量将为40ZB,其中有七成将会以图片和视频的形式进行存储,这为人工智能的发展提供了丰厚的土壤。

2)深度学习算法:多伦多大学教授Geoffrey Hinton(致力于神经网络和深度学习研究)的学生在业内知名的图像识别比赛ImageNet中利用深度学习的算法将识别错误率一举降低了10%,甚至超过了谷歌,深度学习进而名声大噪。2015年,微软亚洲研究院视觉计算组在该项比赛中夺冠,将系统错误率降低至3.57%,已经超过了人眼。

3)高性能计算:GPU响应速度快、对能源需求低,可以平行处理大量琐碎信息,并在高速状态下分析海量数据,有效满足人工智能发展的需求。

4)基础设施成本:云计算的普及和GPU的广泛使用,极大提升了运算效率,也在一定程度上降低了运营成本。IDC报告显示,数据基础设施成本正在迅速下降,从2010年的每单位9美元下降到了2015年的0.2美元。

与此同时,巨头和创业公司也相继投入资源和成本进行商业化探索,但技术本身尚有足够大的成长空间,当前仍处于早期阶段。

技术层:包括有关机器识别与深度学习的算法和技术设计;

在极客帮创投创始合伙人蒋涛看来,大公司在这三个层面赢家通吃,而小公司只能依靠单点突破,以及在传统行业优势上进行突围。

大公司(100亿市值以上)的主战场在于争夺未来人工智能的制高点,这分为两个方向,第一个方向是争夺未来人工智能的入口,包括家居的入口、汽车的入口等等,这些未来的入口扮演着比较重要的交互作用,例如Google的语音交互,百度的百度大脑。

第二个方向是生态系统的竞争,入口很容易切换,那么就要通过生态提高切换成本,通过开源技术,通过推荐算法,当然也要依靠于物联网的延伸与发展。而像京东、当当这类的大公司,他们最大的竞争力在物流和海量的数据上,所以在技术上可以购买,但并不那么着急。

小公司的主战场在垂直领域的应用,通过人工智能的浪潮来改进尚未完成移动化的行业。例如金融行业,它在人工智能时代的市场规模、空间应该会比移动时代更加广大;例如企业级的服务,现在在国内处在非常落后的状态。蒋涛说:“相对来说容易做的事情已经做完了,剩下的事情都是硬骨头,但我相信还会有跑出来大的公司,当然有数据的公司会更容易跑出来。”

实际上,目前人工智能的应用和落地方式还极其有限。几乎所有人工智能的最新进展都是通过一种类型来完成:输入数据(A)快速生成简单的回应(B),举个例子:

这么一个简单的输入 A 和输出 B 将改变许多行业,而构建由 A→B 的技术被称为监督学习。A→B 系统发展速度很快,这其中深度学习很大程度上受大脑的工作原理启发。但A→B 系统距离科幻片中存在情感的机器人还差得很远,人类的智能也远远比 A→B 系统高级得多。

那么 A→B 这个系统能做什么?关于其颠覆性影响,这里列一个法则:如果人类进行一项思考时间少于一秒的任务,那么不远的将来或许我们能用人工智能自动化完成这项任务。

百度首席科学家吴恩达表示,人们在人工智能应用方面已经做了很多有价值的研究:在监控视频中检测可疑行为、汽车即将撞到行人时自动急刹车、自动删除网上的黄暴内容,上述任务均可在一秒之内完成。当然,这些技术更适合与大的产业业务相结合。

互联网实现了基础设施可以跑、数据可以连,人工智能其实在另外一个维度上提升了我们整个的应用效率,它试图解决的是生产资料及劳动力上的问题。人工智能是产业智能化升级的强大工具,正在改变包括通信、医疗、教育等在内的所有领域。

通信网络一般有两大任务,一个是网络的控制,一个是网络的管理和维护。网络控制就是怎么样在一个通信网络中进行有效地资源调度,从而提高网络的使用效率,更好地服务于用户。网络管理和维护就是准确理解网络需求,进行最优化的网络设计及部署;并能够实时感知网络状况,及时排除故障。而人工智能会使得未来的通信网络越来越不需要人,整个网络的控制基本是全自动的,只需要很少的专家参与就可以把整个通信网络的事情全部搞定。

李彦宏在介绍百度人工智能在医疗领域的应用时,提到四个层次,分别是O2O服务、智能问诊、基因分析与精准医疗、新药研发。

第一个层次:百度医生现在已经有50万的医生参与咨询,累计有800万人通过百度医生平台来获得相关的医疗服务。

第二个层次:在智能问诊的小测试中,百度医生的诊断和北大国际医院的医生诊断,在80%的情况下是一致的,而且它可能在一些比较罕见的情况下表现更好。当然这些技术除了对大量的医疗知识进行机器学习外,也需要对病人表述的理解能力不断地提升。

第三个层次:用基因来进行治病,最大的一个问题是大多数已知的基因导致的疾病都是单基因导致的,而这些病又大多是罕见病,大多常见病是多基因导致的。通过大量的计算,人工智能可以帮助医生搞清楚一个病是由哪些基因共同作用导致的。

第四个层次:今天已知的、有可能形成药的小分子化合物大概是10的33次方那么多,这可能比全宇宙所有的原子加起来还要多。这样的一个量,怎样用它的分子式跟产生疾病的蛋白去合在一起,用来治病?怎样对未知的那些分子式进行大量的筛选,找到有效的新药?计算机科学、人工智能能够在这方面有所帮助。

教育行业其实是一个试错成本非常高的行业,谁也不会拿孩子的成绩来做实验。医疗行业同样如此,的确人工智能可以在图像识别及诊断分析上给出建议,不过一旦出现医疗纠纷或因此而耽误了病人的病情,责任由谁来承担。

另一个方面,这两个行业决策链条很长。它涉及的利益方很多,教育行业有学校、老师、家长、学生,在医疗行业就是医院、医生、病人。同时,这两个行业又是国家相对高度管制的行业。

德联资本合伙人贾静表示,无论教育及医疗这两个行业有多少困难,资本还是非常关注。因为为教育及健康买单的用户,付费意愿及能力都非常强。这条路虽然曲折,但前途特别光明。

实际上,教育行业要比医疗行业走得更靠前一些。目前在教育行业,已经有许多人工智能技术应用。比如人工智能深度参与到教、学、练、测、评的环节中,加快个性化教学的进程。但这需要积累大量真实有效的数据,谁能在整个教育环节积累到足够多的数据就有可能跑到前面。

另一方面,教育行业一直想解决的问题是如何在供给侧做到规模又经济,老师该怎么培训和管理。那么人工智能介入教育行业,以前由老师来解决的问题,可能70%-80%由人工智能来解决。这就从生产成本上进行了改革,根本上解决了生产资料和劳动力的分配问题,而不只是交易成本最小化。所以人工智能带给行业的变革,要比移动互联网大得多。

几年前出来的一些人工智能公司,技术发展已经相对成熟,比如科大讯飞,当年刚出来做的产品并不是那么流畅,但现在做得已经不错了。所以,技术差别不大的情况下,想要从技术上突破还是比较困难的,那就需要找到一个能够激发用户极致体验的点,看用户的体验是不是超过了用户对产品的期待。

比如做语音命令,亚马逊Echo的一系列产品,拿到中国后就变成了纯音响,用户觉得这和漫步者差不多,它产生不了「哇」的这种感受,没有这些感受就没有办法转换成购买。一旦归类错了,大家不会考虑花更多的钱来买一个同类的产品。

华创资本合伙人熊伟铭表示,在To C领域可以突破的将会是无人车,但会涉及到监管问题。政府是否允许无人车在公路上跑,出了事故是算机器的责任还是人的责任,人们会有一些常识性的担心。人类出于本能,对同类的信心要远远超出那些我们不了解其原理的事物。比如在医疗领域,虽然医生资源十分短缺,但依然不会允许机器给人看病。没有数据能证明机器的误诊率和医生的误诊率是不一样的,也阻碍了它进一步的发展及商用化。

这个鸿沟不是不可能逾越,而是需要很长的周期。就像汽车确实比马车更先进,但也经历了1865年英国议会针对蒸汽汽车制订的「红旗法案」这种看起来很荒唐的阶段,而未来无人车可能要经历一样的道路。这其中,除了信心,制度监管要占60%的因素。比如现在是不允许无人车在公路上运行,无论这辆无人车做了多少实验,比如医疗领域,数据不能出医院这一类法规还是大量存在。

如果无人车这么难的事都实现了,可能包括看病或者政府的行政事务会慢慢放开。创业者要找一个行政环节最弱的点先切入,慢慢到一些行政壁垒很高的市场中去。

熊伟铭是也最早看移动互联网领域的投资人之一,他说:“现在无人车的发展已经非常了不起了,这可能还只是一个小开始,但它发展到中期可能已经超过了移动互联网的小高峰。”虽然人工智能大潮可能不会像移动互联网这么密集地爆发,但会比移动互联网持续时间更长,一波接一波,发展到最后,这个领域会有巨大的成长和收获。

在此他也给创业者提出建议,无论创业者进入到To B还是To C的领域都要选好市场及切入点,因为在机器学习上,它解决的是提高内部效率的问题。“你会活得更好一点,但这并不能改变你所从事的行业或领域的市场大小。原来需要100个人干的事现在只需要10个人,但是一个公司能解决1000人的问题,那你加上人工智能的技术也只能解决那1000人的问题,只不过原来能赚10元,现在能赚100元。”

在这场讨论中,我们还得出以下结论:目前人工智能虽处于寒武纪的大爆发阶段,但也很可能再度面临寒潮。具体来说,人工智能可能会面临这五大考验:

目前人工智能在学习上遵循的理论依然是上个世纪80年代提出的,人们并没有从本质上理解人类的学习原理,从监督学习到无监督学习的方法还在探索。如果将人工智能比作建造太空火箭,计算能力和数据是燃料,理论就是发动机。如果你有许多燃料但只拥有小功率发动机,你的火箭大概无法飞离地面。如果你拥有大功率发动机但只有一点点燃料,你的火箭即使飞上天也无法进入轨道。

目前的人工智能技术多数都要依靠形态匹配,在监督式学习下,输入训练数据,每组训练数据有一个明确的标识或结果。人们将预测结果与「训练数据」的实际结果进行比较,不断调整预测模型,直到模型的预测结果达到一个预期的准确率。

而无监督学习中,计算机无需人类帮助的情况下,像人类一样自己学习知识。计算机并不被告知怎么做,而是采用一定的激励制度来训练机器人培养出正确的分类。无监督学习方式是机器人工智能发展的关键技能之一。“目前朝着良性的趋势发展,但还未达到我们希望的阶段。”微软亚洲研究院院长芮勇表示。

许多输入的数据其实都经过了人脑抽象,但大家看不到,就好比你看到地面上的竹子每一根都是独立的,但它的地下茎联系是非常紧密的。若要完成形式化知识结构的搭建,是需要很多知识的,而机器中没有人脑中的背景知识,所以数据中蕴含的信息是不完整的,继而计算不出正确的结果。

如果将这些信息补足,是有可能用机器处理的。但同时要看到的是这些信息很难补足,一方面是因为很多人脑中的知识难以形式化,另一方面,补什么补多少才能达到特定的效果,很难衡量。并且人脑输出的信息带宽太小,很难通过一个人来补足机器中没有的知识,而多人协同又存在知识相互不兼容的问题。所以知识太多,知识难以形式化,人脑输出太慢,成为了知识表达的三大障碍。

海云数据的首席数据科学家赵丹表示,目前大公司基本上通过知识图谱来解决知识表达的问题,但这不是根本的解决方法。知识图谱虽然能在小的特定领域解决一部分数据稀疏问题,但图谱本身也有稀疏的问题,并且依赖人工构建,规模有限。迁移学习也能够发挥一定作用,但目前还没有把这些解决技术整合起来,形成一个完整的智能体系的理论架构。

同时赵丹还认为,深度学习的研究一定程度上已经到达瓶颈期,现在到了需要将深度学习现有的成果转化成产品的时候,比如Deepmind前段时间发布的唇语识别成果,再往前比如AlphaGo的博弈策略学习。“而形成产品是件很难的事情,像我们熟知的人脸识别,虽然已有不少创业公司做了好几年,但现在仍然没有生产出成熟的产品。工程上的坑不比研究上的少,如若跨不过去就没有办法做出产品。”

在科学理论上的进步很多是偶然事件,说不准下次会是什么时候。深度学习的成果转换期,到下次深度学习的进步期之间其实还是会有可能出现寒潮。

图像识别方面的成就像一把发令枪,启动了一场人才争夺赛。有人曾说:“这个领域的人才战相当血腥,一流的人才就像NFL足球运动员。”

谷歌在 2011年推出专注深度学习的谷歌大脑计划(Google Brain Project),2013年3月得到了神经网络先驱Geoffrey Hinton的加入,现在有超过1000个深度学习项目。

Facebook在2013年12月聘请了法国神经网络创新者Yann LeCun作为它的新AI实验室的带头人。平均每天使用神经网络翻译来自超过40种语言国家的20亿用户的帖子,这些翻译的内容每天被8000万用户阅读。

百度在2014年4月聘请了谷歌脑计划的前负责人吴恩达作为它的人工智能实验室的领头人,主攻语音识别等关键领域。

但蒋涛指出:现在人工智能领域的理论掌握在顶尖教授手上,但应用的数据在公司手上。顶尖教授一般会有与同行进行交流、发表研究成果的诉求,但公司的研发却要求不能透露商业核心秘密,甚至要将这个科学家雪藏起来,比如苹果现在人工智能的领导者是谁,我们都还不知道。这里面存在天然的冲突,很可能成为制约人工智能发展的瓶颈。

由于人工智能是巨头公司的天下,所以「被并购」是许多初创公司的宿命。当前,谷歌、IBM、雅虎、英特尔、苹果、Salesforce以及国内的百度、阿里等互联网科技巨头公司布局势头「凶猛」,引发了一场全球范围内的人工智能投资收购热潮。

根据风投数据公司CB Insights的统计数据显示,2011年起,拿到融资的人工智能创业公司里面有近一半(140家)都被收购了,其中2016年就有40家。主力买主是谷歌、Twitter、IBM、雅虎、英特尔和苹果,谷歌以11次收购的成绩位列榜首。

然而,一些巨头公司在并购人工智能初创公司的时候却面临着重重问题。专注于大数据人工智能领域投资并购的前海梧桐并购母基金总经理马春峰道出了自己看法:

首先,反观目前国内人工智能企业估值偏高,仅有2~3人的早期初创公司有时开价达1~2亿元,较成熟公司的估值甚至比上市公司还高。这种高估值企业有时甚至让产业投资者难以接受,结果导致某些上市公司和产业基金纷纷出海,布局硅谷、以色列等海外市场。

其次,上市公司在投资初创企业时多对其业绩有要求,这就使得它们在投资并购时倾向于选择较为成熟的AI公司。然而目前国内人工智能领域的创业公司在整体效果上并没有达到上市公司的期望值,许多初创公司的成熟度与上市公司自身业务发展的匹配度也不够高。

所以,现在多数上市公司采取的方式是先在体外投资孵化,待孵化的公司成熟到一定程度时再装进上市公司内部。

另外,有些上市公司自身也存在追逐热点的问题,在并不具备布局大数据、人工智能产业的基因的情况下,但却在积极布局。这使得被投资或并购来的公司不能匹配上市公司的业务、管理能力和战略发展方向,反而导致初创公司的未来发展受到了限制。

这里面的安全不是某一项人工智能产品是否存在风险,而是对强人工智能何时出现的整体的考量。

其中,比较极端的观点来自于未来学家雷·库兹韦尔(Ray Kurzweil ),他提出摩尔定律的扩展定理,认为很多技术处于指数增长中;后来又发表奇点理论,预测技术在突破一个称之为奇点的临界点后将实现爆发性增长,在2045年左右会出现自己思考的人工智能。

当然,在大多数行业专家看来这是个伪命题。吴恩达表示「人工智能毁灭人类论」就是炒作,目前我们的科技还停留在弱人工智能阶段,强人工智能目只存在于科幻片。

对于人工智能的安全性,扎克伯格的观点代表了中国创投界大多数的想法:我们过度担忧人工智能,将阻碍人工智能实际的进步。现在担忧人工智能的安全性,就如同两百年前担心要是以后有飞机了飞机坠毁怎么办一样。我们要先造出飞机,再担心飞机的安全性。

第0009题

一个HTML文件,找出里面的链接。


In [32]:
from bs4 import BeautifulSoup
import urllib2
url = "http://www.jianshu.com/p/05cfea46e4fd"
html_page = urllib2.urlopen(url)
links = BeautifulSoup(html_page).findAll('a')
links = [i.get('href') for i in links if i.get('href') and not i.get('href').startswith('javascript:')] # 去掉javascript开头的
proto, rest = urllib2.splittype(url)
domain = urllib2.splithost(rest)[0]
links = map(lambda i: proto + '://' + domain + i if i[0] == '/' else url + i if i[0] == '#' else i, links) # 把链接补全
for link in links:
    print(link)


http://www.jianshu.com/
http://www.jianshu.com/collections
http://www.jianshu.com/apps/download?utm_medium=top-sugg-down&utm_source=web-other-page
http://www.jianshu.com/sign_up
http://www.jianshu.com/sign_in
http://www.jianshu.com/
http://www.jianshu.com/collections
http://www.jianshu.com/apps
https://itunes.apple.com/cn/app/jian-shu-hei-ye-ban-quan-xin/id1142989247?l=en&mt=8
http://downloads.jianshu.io/apps/haruki/JianShu-2.0.1.apk
http://www.jianshu.com/p/05cfea46e4fd#view-mode-modal
http://www.jianshu.com/sign_in
http://www.jianshu.com/p/05cfea46e4fd#
http://www.jianshu.com/writer#/
http://www.jianshu.com/apps/download?utm_medium=top-sugg-down&utm_source=note-show
http://www.jianshu.com/sign_up
http://www.jianshu.com/sign_in
http://www.jianshu.com/sign_in
http://www.jianshu.com/users/301be822c79b
http://www.jianshu.com/users/301be822c79b
http://www.jianshu.com/sign_in
http://www.jianshu.com/p/05cfea46e4fd#pay-modal
http://www.jianshu.com/sign_in
http://www.jianshu.com/p/05cfea46e4fd#share-weixin-modal
http://cwb.assets.jianshu.io/notes/images/8053102/weibo/image_4fbb9c7422c9.jpg
http://www.jianshu.com/sign_in
http://www.jianshu.com/sign_in
http://www.jianshu.com/collection/V2CqjW
http://www.jianshu.com/collection/V2CqjW
http://www.jianshu.com/sign_in
http://www.jianshu.com/collection/V2CqjW
http://www.jianshu.com/collection/NEt52a
http://www.jianshu.com/collection/NEt52a
http://www.jianshu.com/sign_in
http://www.jianshu.com/collection/NEt52a
http://www.jianshu.com/collection/LLCyGH
http://www.jianshu.com/collection/LLCyGH
http://www.jianshu.com/sign_in
http://www.jianshu.com/collection/LLCyGH
http://www.jianshu.com/users/301be822c79b

第0010题

使用 Python 生成类似于下图中的字母验证码图


In [86]:
import string, random
from PIL import Image, ImageFont, ImageFilter, ImageDraw

def get_random_color():
    return tuple([random.randint(50, 150) for _ in range(3)])

def get_verify_picture():
    font_path = "c:/Windows/fonts/SIMHEI.ttf"
    letters = [random.choice(string.letters) for i in range(4)]
    font = ImageFont.truetype(font_path, 50)
    width, height = 240, 60
    pic = Image.new('RGB', (width, height), (200, 200, 200))
    draw = ImageDraw.Draw(pic)
    for i, letter in enumerate(letters):
        draw.text((60 * i + random.randrange(0, 20), random.randrange(0, 10)), letter, font=font, fill=get_random_color())
    for i in range(5000):
        draw.point((random.randint(0,width), random.randint(0,height)), fill=get_random_color())
    return pic.filter(ImageFilter.BLUR)

get_verify_picture()


Out[86]:

第0011题

敏感词文本文件 filtered_words.txt,里面的内容为以下内容,当用户输入敏感词语时,则打印出 Freedom,否则打印出 Human Rights。

北京 程序员 公务员 领导 牛比 牛逼 你娘 你妈 love sex jiangge


In [ ]:
import sys, locale
filtered_words = r"C:\Users\jiang\Desktop\filtered_words.txt"
filtered_words_dict = {}
with open(filtered_words) as f:
    for line in f:
        word = line.strip()
        if not filtered_words_dict.has_key(word):
            filtered_words_dict[word] = True
while True:
    if filtered_words_dict.has_key(raw_input().decode(sys.stdin.encoding or locale.getpreferredencoding(True)).encode('utf-8')):
        print("Freedom")
    else:
        print("Human Rights")


程序员
Freedom
程序猿
Human Rights

第0012题

敏感词文本文件 filtered_words.txt,里面的内容 和 0011题一样,当用户输入敏感词语,则用 星号 * 替换,例如当用户输入「北京是个好城市」,则变成「**是个好城市」。


In [ ]:
import sys, locale
filtered_words = r"C:\Users\jiang\Desktop\filtered_words.txt"
filtered_words_dict = {}
with open(filtered_words) as f:
    for line in f:
        word = line.strip()
        if not filtered_words_dict.has_key(word):
            filtered_words_dict[word] = True
while True:
    s = raw_input().decode(sys.stdin.encoding or locale.getpreferredencoding(True)).encode('utf-8')
    for key in filtered_words_dict.keys():
        while s.find(key) != -1:
            start = s.find(key)
            if start != -1:
                s = s[: start] + '*' + s[start + len(key) :]
    print s


北京的程序员和公务员的领导是牛比还是牛逼?你娘和你妈 love sex jiangge
*的*和*的*是*还是*?*和* * * *
北京是个好城市
*是个好城市

第 0013 题

用 Python 写一个爬图片的程序,爬这个链接里的日本妹子图片 :-)

参考代码


In [14]:
import requests
import lxml.html

url = "http://tieba.baidu.com/p/2166231880"
path = "C:\\Users\\jiang\\Desktop\\imgs\\"
page = requests.get(url).text
doc = lxml.html.document_fromstring(page)
for idx, el in enumerate(doc.cssselect('img.BDE_Image')):
    with open(path + '%03d.jpg' % idx, 'wb') as f:
        f.write(requests.get(el.attrib['src']).content)

第 0014 题:

纯文本文件 student.txt为学生信息, 里面的内容(包括花括号)如下所示:

{
    "1":["张三",150,120,100],
    "2":["李四",90,99,95],
    "3":["王五",60,66,68]
}

请将上述内容写到 student.xls 文件中,如下图所示:


In [30]:
#encoding:utf-8
#使用pandas进行转换
import pandas as pd

txt_path = r'C:\Users\jiang\Desktop\student.txt'
excel_path = r"C:\Users\jiang\Desktop\student.xls"
with open(txt_path) as f:
    s = eval(f.read(), {})
    for v in s.values():
        for i in range(len(v)):
            if isinstance(v[i], basestring):
                v[i] = str(v[i]).decode('utf-8') #把dict所有的字符串转成'utf-8'编码
s = pd.DataFrame(s).T
s.to_excel(excel_path, 'student', header=False)

第0015题

纯文本文件 city.txt为城市信息, 里面的内容(包括花括号)如下所示:

{
    "1" : "上海",
    "2" : "北京",
    "3" : "成都"
}

请将上述内容写到 city.xls 文件中,如下图所示:


In [2]:
#encoding:utf-8
#使用pandas进行转换
import pandas as pd

txt_path = r'C:\Users\jiang\Desktop\city.txt'
excel_path = r"C:\Users\jiang\Desktop\city.xls"
with open(txt_path) as f:
    s = eval(f.read(), {})
    for k, v in s.items():
        if isinstance(v, basestring):
            s[k] = str(v).decode('utf-8') #把dict中所有的字符串转成'utf-8'编码
s = pd.DataFrame(s, index=[0]).T
s.to_excel(excel_path, 'city', header=False)

第0016题

纯文本文件 numbers.txt, 里面的内容(包括方括号)如下所示:

[
    [1, 82, 65535], 
    [20, 90, 13],
    [26, 809, 1024]
]

请将上述内容写到 numbers.xls 文件中,如下图所示:


In [16]:
#encoding:utf-8
#使用pandas进行转换
import pandas as pd

txt_path = r'C:\Users\jiang\Desktop\numbers.txt'
excel_path = r"C:\Users\jiang\Desktop\numbers.xls"
with open(txt_path) as f:
    s = eval(f.read(), {})
s = pd.DataFrame(s)
s.to_excel(excel_path, 'numbers', header=False, index=False)

第0017题

将第0014题中的 student.xls 文件中的内容写到 student.xml 文件中,如下所示:

<?xml version="1.0" encoding="UTF-8"?>
<root>
<students>
<!-- 
    学生信息表
    "id" : [名字, 数学, 语文, 英文]
-->
{
    "1" : ["张三", 150, 120, 100],
    "2" : ["李四", 90, 99, 95],
    "3" : ["王五", 60, 66, 68]
}
</students>
</root>

In [6]:
import xlrd #使用xlrd读取xls
import json #使用json.dumps()格式化dict输出
xls_path = r'C:\Users\jiang\Desktop\student.xls'
xml_path = r"C:\Users\jiang\Desktop\student.xml"

data = xlrd.open_workbook(xls_path)
with open(xml_path, 'w') as f:
    f.write(r'<?xml version="1.0" encoding="UTF-8"?>')
    f.write("\n<root>\n")
    for sheet in data.sheets():
        f.write('<students>\n<!-- \n\t学生信息表\n\t"id" : [名字, 数学, 语文, 英文]\n-->\n')
        sheet_dict = {}
        for i in range(sheet.nrows):
            sheet_dict[sheet.cell_value(i, 0)] = [sheet.cell_value(i, j) for j in range(1, sheet.ncols)]
        s = json.dumps(sheet_dict, ensure_ascii=False, indent=4, sort_keys=True)
        f.write(s.encode('utf-8'))
        f.write("\n</students>\n")
    f.write("<root>")

第0018题

将第0015题中的 city.xls 文件中的内容写到 city.xml 文件中,如下所示:

<?xmlversion="1.0" encoding="UTF-8"?>
<root>
<citys>
<!-- 
    城市信息
-->
{
    "1" : "上海",
    "2" : "北京",
    "3" : "成都"
}
</citys>
</root>

In [5]:
import xlrd #使用xlrd读取xls
import json #使用json.dumps()格式化dict输出
xls_path = r'C:\Users\jiang\Desktop\city.xls'
xml_path = r"C:\Users\jiang\Desktop\city.xml"

data = xlrd.open_workbook(xls_path)
with open(xml_path, 'w') as f:
    f.write(r'<?xml version="1.0" encoding="UTF-8"?>')
    f.write("\n<root>\n")
    for sheet in data.sheets():
        f.write('<citys>\n<!-- \n\t城市信息\n-->\n')
        sheet_dict = {}
        for i in range(sheet.nrows):
            sheet_dict[sheet.cell_value(i, 0)] = sheet.cell_value(i, 1)
        s = json.dumps(sheet_dict, ensure_ascii=False, indent=4, sort_keys=True)
        f.write(s.encode('utf-8'))
        f.write("\n</citys>\n")
    f.write("<root>")

第0019题

将第0016题中的 numbers.xls 文件中的内容写到 numbers.xml 文件中,如下所示:

<?xml version="1.0" encoding="UTF-8"?>
<root>
<numbers>
<!-- 
    数字信息
-->

[
    [1, 82, 65535],
    [20, 90, 13],
    [26, 809, 1024]
]

</numbers>
</root>

In [9]:
import xlrd #使用xlrd读取xls
import json #使用json.dumps()格式化dict输出
xls_path = r'C:\Users\jiang\Desktop\numbers.xls'
xml_path = r"C:\Users\jiang\Desktop\numbers.xml"

data = xlrd.open_workbook(xls_path)
with open(xml_path, 'w') as f:
    f.write(r'<?xml version="1.0" encoding="UTF-8"?>')
    f.write("\n<root>\n")
    for sheet in data.sheets():
        f.write('<numbers>\n<!-- \n\t数字信息\n-->\n')
        sheet_list = []
        for i in range(sheet.nrows):
            sheet_list.append([sheet.cell_value(i, j) for j in range(sheet.ncols)])
        s = json.dumps(sheet_list, ensure_ascii=False, indent=4, sort_keys=True)
        f.write(s.encode('utf-8'))
        f.write("\n</numbers>\n")
    f.write("<root>")

第0020题

登陆中国联通网上营业厅 后选择「自助服务」 --> 「详单查询」,然后选择你要查询的时间段,点击「查询」按钮,查询结果页面的最下方,点击「导出」,就会生成类似于 2014年10月01日~2014年10月31日通话详单.xls 文件。写代码,对每月通话时间做个统计。


In [1]:
import pandas as pd
xls_path = r'C:\Users\jiang\Desktop\201612_通话详单.xls'
df = pd.read_excel(xls_path.decode('utf-8'))
df = df.to_dict()
ts = df[u'通信时长'].values()

shi, fen, miao = 0, 0, 0
for t in ts:
    try:
        s = t.find(u'时')
        f = t.find(u'分')
        m = t.find(u'秒')
        if s != -1:
            shi += int(t[:s])
        if f != -1:
            fen += int(t[s+1:f])
        if m != -1:
            miao += int(t[f+1:m])
    except:
        pass
fen += miao / 60
miao %= 60
shi += fen / 60
fen %= 60
print("通信时长:%d%d%d秒" % (shi, fen, miao))


通信时长:0时59分11秒

第0021题

通常,登陆某个网站或者 APP,需要使用用户名和密码。密码是如何加密后存储起来的呢?请使用 Python 对密码加密。


In [33]:
import os
from hashlib import sha256
from hmac import HMAC

def encrypt_password(password, salt=None):
    if salt is None:
        salt = os.urandom(8)
    for i in xrange(10):
        result = HMAC(password, salt, sha256).digest()
    return salt + result

def validate_password(hashed, input_password):
    return hashed == encrypt_password(input_password, salt=hashed[:8])

my_password = '12345678'
hashed = encrypt_password(my_password)
print 'my_password:', my_password
print 'hashed: ', hashed
print validate_password(hashed, my_password)
print validate_password(hashed, '1234567')


my_password: 12345678
hashed:  �m���byjJ���=5��S��I�>��o�P}iFAZ!��h�^
True
False

第0022题

iPhone 6、iPhone 6 Plus 早已上市开卖。请查看你写得 第 0005 题的代码是否可以复用。


In [4]:
from PIL import Image
import os
imgs_path = r"C:\Users\jiang\Desktop\pictures"
picture_size = [64, 100]

def change_pic_size(imgs_path, picture_size):
    for root, dirs, files in os.walk(imgs_path):
        for f in files:
            img = Image.open(os.path.join(root, f))
            img = img.resize(picture_size).save(os.path.join(root, 'rs_' + f), 'jpeg')

change_pic_size(imgs_path, picture_size)

第0023题

使用 Python 的 Web 框架,做一个 Web 版本 留言簿 应用。


In [46]:
# 跟随 Flask 的教程,可以做一个微博客应用,和这个差不多:http://docs.jinkan.org/docs/flask/tutorial/index.html
# 最后先看一下 Flask 的快速入门:http://docs.jinkan.org/docs/flask/quickstart.html

# 不想搞web,跳过本题

from flask import Flask
app = Flask(__name__)

@app.route('/')
def index():
    return 'Web 版本 留言簿...'

app.run()

第0024题

使用 Python 的 Web 框架,做一个 Web 版本 TodoList 应用。


In [20]:
# 不想搞web,跳过本题

from flask import Flask
app = Flask(__name__)

@app.route('/')
def index():
    return 'Web 版本 TodoList 应用...'

app.run()

第 0025 题

使用 Python 实现:对着电脑吼一声,自动打开浏览器中的默认网站。

例如,对着笔记本电脑吼一声“百度”,浏览器自动打开百度首页。

关键字:Speech to Text

参考思路:

1: 获取电脑录音-->WAV文件 python record wav

2:录音文件-->文本

STT: Speech to Text

STT API Google API 3:文本-->电脑命令


In [45]:
import speech_recognition as sr
import webbrowser

MY_BING_KEY = "d8b094b351e6444e9e6ff8d922ac64ff" #key from Microsoft : https://www.microsoft.com/cognitive-services/en-us/speech-api
url = {"打开百度" : "www.baidu.com", "打开谷歌" : "www.google.com", "打开知乎" : "www.zhihu.com", "打开博客" : "www.cnblogs.com"}

r = sr.Recognizer()
stop = False
while not stop:
    with sr.Microphone() as source:
        print("正在聆听...")
        audio = r.listen(source)
    
    try:
        text = r.recognize_bing(audio, key=MY_BING_KEY, language='zh-CN').encode('utf-8')
    except:
        text = None
    if url.has_key(text):
        print("你的输入:" + text) 
        webbrowser.open_new_tab(url[text])
    elif text == "停止":
        print("你的输入:" + text) 
        stop = True
    elif text is None:
        print "抱歉,没听懂,请使用普通话。"
    else:
        print("你的输入:" + text + "【抱歉,仅支持: 打开百度、打开谷歌,打开知乎,打开博客】")


正在聆听...
你的输入:打开百度
正在聆听...
你的输入:打开知乎
正在聆听...
你的输入:打开谷歌
正在聆听...
你的输入:打开微博【抱歉,仅支持: 打开百度、打开谷歌,打开知乎,打开博客】
正在聆听...
抱歉,没听懂,请使用普通话。
正在聆听...
抱歉,没听懂,请使用普通话。
正在聆听...
抱歉,没听懂,请使用普通话。
正在聆听...
你的输入:打开博客
正在聆听...
你的输入:停止