closure顾名思义,就是求panda的上义词的所有闭包,因此可以看到有mammal和animal。
关于SVD分解的过程,以及U,S,V的意义,可以看http://web.mit.edu/be.400/www/SVD/Singular_Value_Decomposition.htm,这是能找到的最简单明了的介绍了。
有人问,为什么用U的值来画图,而不是$U*S$来画,似乎更合理。Socher的解释是,有人试着用$U*S$来画,但是效果差不多。
注意take和show,几个不同的时态并没有对应相同的几何位置。
有人问到距离的度量方式,Socher说对于cosine和inner product,看场景,什么效果好,用哪个。
T is short for Timestamp.
maximize $ j(\theta) $
这里分两个vector,也是实践证明优秀的结果。 假设现在的word-in是deep。 $ p(w_O | w_I) = \frac{exp(v'_{learning} * v_{deep})}{\sum_{w=1}^Wexp(v'_{word} * v_{deep})} $ 为什么把它叫"dynamic" logistic regression.
这里从视频的第37分钟开始,有一段在黑板上大约15分钟的推倒,值得看看。
最终结果是$ u_0 - \sum_{x=1}^{W}p(x|c) * u_x $,$c$表示中心词
minimize J
i: left word identity
j: right word identity
hat: same as the outside word and centre word has different vectors, left word and right word has different vectors.
$P_ij$, probability of i and j cooccurrence
In [ ]: