这节课非常重要,讲的非常快,一点一点反复看视频才能看懂。但是,看懂以后,收获非常大。

1

2

3

利用维基百科做中文摘要?

4

5

6

7

Set up efficient experimental framework!

8

9

10

11

12

13

对这个还需要一个实际的例子理解一下,需要有实际的数字计算过程体会这种non-linear interaction.

14

$s_c$中的c is short for corrupted. $s = 10, s_c = 5$,则J = 0。当所有正确类别评分大于错误类别评分超过1分时,损失函数就为零。如果大的不够多,则说明仍然需要优化。 没有norlization,因此不能作为概率输出。

后面有人提问,再讲到这里。$ \sum_bmax(0, 1 - s_g + s_b)$, sum over about multiple(about 50 windows or so) bad windows for each good window,

15

16

又说到了被人经常提到的方法,对于数学的式子推导,挡住下一行,看自己能不能写出来。 maximize the margin = minimize the loss(J) function。把s和$s_c$带入J,就是完整的损失函数。 $\sum_c{max(0, 1 - s + s_c)}$,取大约50个corrupted window,取太多会overfitting on this single sample.

17

有人问这里为什么只用U去乘而不用softmax。首先,在不需要概率表达的情况下,只用U乘和softmax,会得到一样的正类结果(就是argmax结果相同),因此不必要去做昂贵的exp和normalization的计算。另外,vanishing gradient problem,用上非线性函数或是指数后,越往后传,导数值就会变小。

又有人问,如果一个样本,对应多个正类结果呢?那么训练多个binary classifier,各自归各自训练就行。而且,可以reuse the hidden layer,just train the last layer。

18

19

z = 0.9 和 z = 0.1 时的Local error signal值是一样的? the delta can be interpreted as how important was that $a_i$ for the final error

20

计算其中某一个$W_{ij}$,然后generalize,得到W的式子。

21

22

23

24

25

这里写错了,应该是$\frac{\partial j}{\partial U}$,不是$\frac{\partial s}{\partial U}$

26

27

左下角是之前的推导结果,引申到这里,就是右下角的结果。

28

29

30

这里的总结有错误。如果对应前面的那个网络的图,应该是$\delta^{(1)}=(W^{(2) ^ T} * \delta^{(2)}) \circ f'(z^{(1)})$。具体可以对应lecture notes来看。

31

同上,有相同的错误。如果对应于下图(摘自课程Lecture Notes 3)的标记,这里的总结就是对的。

参考ufldl教程中的标记,Lecture Notes中的标记方法是符合一般认识的。$z^{(l+1)} = W^{(l)} * a^{(l)}+ b^{(l)} $,也就是说,课程ppt的总结,是适用于常规标记下的神经网络的。

这两个式子,就是BP的核心。

对于top layer, $ \delta^{(top)} = \frac{\partial J}{\partial z^{(top)}} $

32

33

34

35

36

37

38

39

40

41


In [ ]: