1

2

closure顾名思义,就是求panda的上义词的所有闭包,因此可以看到有mammal和animal。

3

4

5

6

7

8

9

10

11

关于SVD分解的过程,以及U,S,V的意义,可以看http://web.mit.edu/be.400/www/SVD/Singular_Value_Decomposition.htm,这是能找到的最简单明了的介绍了。

12

13

有人问,为什么用U的值来画图,而不是$U*S$来画,似乎更合理。Socher的解释是,有人试着用$U*S$来画,但是效果差不多。

14

15

16

17

注意take和show,几个不同的时态并没有对应相同的几何位置。

18

19

有人问到距离的度量方式,Socher说对于cosine和inner product,看场景,什么效果好,用哪个。

20

21

22

T is short for Timestamp.

maximize $ j(\theta) $

23

这里分两个vector,也是实践证明优秀的结果。 假设现在的word-in是deep。 $ p(w_O | w_I) = \frac{exp(v'_{learning} * v_{deep})}{\sum_{w=1}^Wexp(v'_{word} * v_{deep})} $ 为什么把它叫"dynamic" logistic regression.

这里从视频的第37分钟开始,有一段在黑板上大约15分钟的推倒,值得看看。

最终结果是$ u_0 - \sum_{x=1}^{W}p(x|c) * u_x $,$c$表示中心词

24

25

26

27

28

29

30

minimize J

i: left word identity

j: right word identity

hat: same as the outside word and centre word has different vectors, left word and right word has different vectors.

$P_ij$, probability of i and j cooccurrence

31

32

33

34

35

36

37

38


In [ ]: