这节课非常重要，讲的非常快，一点一点反复看视频才能看懂。但是，看懂以后，收获非常大。

1

2

3

利用维基百科做中文摘要？

4

5

6

7

Set up efficient experimental framework!

8

9

10

11

12

13

对这个还需要一个实际的例子理解一下，需要有实际的数字计算过程体会这种non-linear interaction.

14

$s_c$中的c is short for corrupted. $s = 10, s_c = 5$，则J ＝ 0。当所有正确类别评分大于错误类别评分都超过1分时，损失函数就为零。如果大的不够多，则说明仍然需要优化。没有norlization，因此不能作为概率输出。

后面有人提问，再讲到这里。$ \sum_bmax(0, 1 - s_g + s_b)$, sum over about multiple(about 50 windows or so) bad windows for each good window,

15

16

又说到了被人经常提到的方法，对于数学的式子推导，挡住下一行，看自己能不能写出来。 maximize the margin = minimize the loss(J) function。把s和$s_c$带入J，就是完整的损失函数。 $\sum_c{max(0, 1 - s + s_c)}$，取大约50个corrupted window，取太多会overfitting on this single sample.

17

有人问这里为什么只用U去乘而不用softmax。首先，在不需要概率表达的情况下，只用U乘和softmax，会得到一样的正类结果（就是argmax结果相同），因此不必要去做昂贵的exp和normalization的计算。另外，vanishing gradient problem，用上非线性函数或是指数后，越往后传，导数值就会变小。

又有人问，如果一个样本，对应多个正类结果呢？那么训练多个binary classifier，各自归各自训练就行。而且，可以reuse the hidden layer，just train the last layer。

18

19

z = 0.9 和 z = 0.1 时的Local error signal值是一样的？ the delta can be interpreted as how important was that $a_i$ for the final error

20

计算其中某一个$W_{ij}$，然后generalize，得到W的式子。

21

22

23

24

25

这里写错了，应该是$\frac{\partial j}{\partial U}$，不是$\frac{\partial s}{\partial U}$

26

27

左下角是之前的推导结果，引申到这里，就是右下角的结果。

28

29

30

这里的总结有错误。如果对应前面的那个网络的图，应该是$\delta^{(1)}=(W^{(2) ^ T} * \delta^{(2)}) \circ f'(z^{(1)})$。具体可以对应lecture notes来看。

31

同上，有相同的错误。如果对应于下图（摘自课程Lecture Notes 3）的标记，这里的总结就是对的。

参考ufldl教程中的标记，Lecture Notes中的标记方法是符合一般认识的。$z^{(l+1)} = W^{(l)} * a^{(l)}+ b^{(l)} $，也就是说，课程ppt的总结，是适用于常规标记下的神经网络的。

这两个式子，就是BP的核心。

对于top layer, $ \delta^{(top)} = \frac{\partial J}{\partial z^{(top)}} $

32

33

34

35

36

37

38

39

40

41



In [ ]: