1

2

3

4

5

6

自己想到的问题:给足量的文本,如何自动生成一个词典?

7

如果min{P(A), P(B)} 约等于 P(X),那么凝固程度高。 这里举的是自由程度高不是好事,但实际上,如果自由程度太低,那也不好,这说明现在的词边界并不是真正的词边界。比如取成语中间的两个词,高山仰止,“山仰”两个字,周围只会出现“高”和“止”,显然还需要扩充词的边界。

8


In [1]:
%pylab inline
import numpy as np
import math
x = np.linspace(0.01, 3, 300)
y = [math.log(_) for _ in x]
plt.plot(x, y, 'r-', linewidth=3, label='log curve')
a = [x[20], x[175]]
b = [y[20], y[175]]
plt.plot(a, b, 'b-', linewidth=2)
plt.plot(a, b, 'b*', markersize=15, alpha=0.75)
plt.legend(loc='upper left')
plt.grid(True)
plt.xlabel('x')
plt.ylabel('log(x)')


Populating the interactive namespace from numpy and matplotlib
Out[1]:
<matplotlib.text.Text at 0x11181cc90>
9


In [3]:
u = np.random.uniform(0, 1, 10000)
# 分了80个格子,每个格子平均125的高度,代表格子表示的x值范围内,大约有125个点
plt.hist(u, 80, facecolor='g', alpha=0.75)
plt.grid(True)
plt.show()

times = 10000
for time in range(times):
    u += np.random.uniform(0, 1, 10000)
print len(u)
u /= times
print len(u)
plt.hist(u, 80, facecolor='b', alpha=1)
plt.grid(True)
plt.show()


10000
10000
10

11

12

13

14

15

16

这是没用词典的结果?

17

18

19

20

21

22

23

24

25

26

27

28

要求$N^{\frac{1}{logN}}$,最简单的方法就是带两个数进去试试。

29

30

31

32

要保证$|r| < 1$就可以了。

33

34

35

为什么由各自偏导合成的梯度,就是使曲线变化最快的方向?我的理解是,各自的偏导,表示在各自投影面上的切线方向,切线方向就是变化最快的方向,再各自合成,因此梯度就是曲线变化最快的方向(上升最快的方向)。

36

37

38

自然语言描述:函数值取平均大于等于平均的函数值

39

40

41

42

43

44

45

46

古典概型的问题,就是要去列基本事件和有效时间的数目,千万不要凭感觉去构造概率值。

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

TODO: Andrew Ng讲义的相关部分

77

78

79

80

81

82

83

84

85

86


In [ ]: