自己想到的问题:给足量的文本,如何自动生成一个词典?
如果min{P(A), P(B)} 约等于 P(X),那么凝固程度高。 这里举的是自由程度高不是好事,但实际上,如果自由程度太低,那也不好,这说明现在的词边界并不是真正的词边界。比如取成语中间的两个词,高山仰止,“山仰”两个字,周围只会出现“高”和“止”,显然还需要扩充词的边界。
In [1]:
%pylab inline
import numpy as np
import math
x = np.linspace(0.01, 3, 300)
y = [math.log(_) for _ in x]
plt.plot(x, y, 'r-', linewidth=3, label='log curve')
a = [x[20], x[175]]
b = [y[20], y[175]]
plt.plot(a, b, 'b-', linewidth=2)
plt.plot(a, b, 'b*', markersize=15, alpha=0.75)
plt.legend(loc='upper left')
plt.grid(True)
plt.xlabel('x')
plt.ylabel('log(x)')
Out[1]:
In [3]:
u = np.random.uniform(0, 1, 10000)
# 分了80个格子,每个格子平均125的高度,代表格子表示的x值范围内,大约有125个点
plt.hist(u, 80, facecolor='g', alpha=0.75)
plt.grid(True)
plt.show()
times = 10000
for time in range(times):
u += np.random.uniform(0, 1, 10000)
print len(u)
u /= times
print len(u)
plt.hist(u, 80, facecolor='b', alpha=1)
plt.grid(True)
plt.show()
这是没用词典的结果?
要求$N^{\frac{1}{logN}}$,最简单的方法就是带两个数进去试试。
要保证$|r| < 1$就可以了。
为什么由各自偏导合成的梯度,就是使曲线变化最快的方向?我的理解是,各自的偏导,表示在各自投影面上的切线方向,切线方向就是变化最快的方向,再各自合成,因此梯度就是曲线变化最快的方向(上升最快的方向)。
自然语言描述:函数值取平均大于等于平均的函数值
古典概型的问题,就是要去列基本事件和有效时间的数目,千万不要凭感觉去构造概率值。
TODO: Andrew Ng讲义的相关部分
In [ ]: