forked from shunliz/Machine-Learning
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathback-propagation.md
104 lines (51 loc) · 7.88 KB
/
back-propagation.md
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
卷积神经网络其实是神经网络特征学习的一个典型例子。传统的机器学习算法其实需要人工的提取特征,比如很厉害的SVM。而卷积神经网络利用模板算子的参数也用以学习这个特点,把特征也学习出来了。其实不同的模板算子本质上就是抽象了图像的不同方面的特征。比如提取边缘,提取梯度的算子。用很多卷积核去提取,那就是 提取了很多的特征。一旦把参数w,b训练出来,意味着特征和目标之间的函数就被确定。今天分享下CNN的关键部分,训练方法,即随机梯度下降和误差反向传播。
先说下推导的思路:
(1)说明CNN是一种局部连接和权值共享的网络,这种网络可以看做是特殊的全连接网络,即不连接部分的权值为0。
(2)解释网上常见的pooling层向卷积层,以及卷积层向pooling层的残差反向传播的原理。
在推导CNN反向传播之前,MLP的反向传播是推导基础。
首先定义$$w_{ij}^{(l)}$$为第l层第j个神经元与第l+1层第i个神经元的链接权重,$$z_i^{(l)}$$为第l层第i个神经元的输入,$$a_i^{(l)}$$为第l层第i个神经元的输出,$$b_i^{(l)}$$为第l+1层第i个神经元的偏置,定义$$h_{wb}(x)$$为神经网络在输入层为x时输出层的输出值,定义函数f为神经元的激活函数。神经元网络的前馈传播可表示成
$$
z_i^{(l+1)}=w^{(l)}a^{(l)}+b^{(l)}
$$
$$
a^{(l+1)}=f(z^{(l+1)}
$$
在网络初始化的时候,可以采用高斯分布的随机函数去初始化权重w,然后定义损失函数(loss function)如下:
$$
J(x^{(i)},y^{(i)};w,b)=\frac {1}{2}||h_{wb}(x^{(i)}-y^{(i)}||^2
$$
$$
J(w,b)=\frac {1}{m}\sum_{i=1}^{m}J(x^{(i)},y^{(i)};w,b)+\frac{\lambda }{2}\sum_{l=1}^{n_l-1}\sum_{i=1}^{s_l+1}\sum_{j}^{s_l}(w_{ij}^l)^2
$$
如果J\(w,b\)加权重的平方,是为了减小权重的大小,防止过拟合。神经网络的训练目标就是寻找合适的w,b使得损失函数J\(w,b\)最小。因而可以使用梯度下降法确定w,b.
$$w_{ij}^{(l)}=w{ij}^{(l)}-\frac{\partial J(w,b)}{\partial w_{ij}^{(l)}}$$
$$w_{ij}^{(l)}=w{ij}^{(l)}-\frac {1}{m}\sum_{i=1}^{m}\frac{\partial J(x^{(i)},y^{(i)};w,b)}{\partial w_{ij}^{(l)}}-\lambda w_{ji}^{(l)}$$
$$w_{ij}^{(l)}=w{ij}^{(l)}-\frac {1}{m}\sum_{i=1}^{m}\frac{\partial J(x^{(i)},y^{(i)};w,b)}{\partial z_{ij}^{(l+1)}}\frac{\partial z_{ij}^{(l+1)}}{\partial w_{ij}^{(l)}}-\lambda w_{ji}^{(l)}$$
$$Qz_{ij}^{(l+1)}=\sum_{k=1}^{sl}w_{ik}^{(l)}a_k^{(l)}+b_i^{(l)}$$
$$\therefore w_{ij}^{(l)}=w{ij}^{(l)}-\frac {1}{m}\sum_{i=1}^{m}\frac{\partial J(x^{(i)},y^{(i)};w,b)}{\partial z_{ij}^{(l+1)}}a_{j}^{(l)}-\lambda w_{ji}^{(l)}$$
$$\therefore b_i^{(l)}=b_i{(l)}-\frac {1}{m}\sum_{i=1}^{m}\frac{\partial J(x^{(i)},y^{(i)};w,b)}{\partial z_{ij}^{(l+1)}}$$
因而只需要计算出$$\frac{\partial J(x^{(i)},y^{(i)};w,b)}{\partial z_{ij}^{(l+1)}}$$,梯度下降法就可以计算。残差项定义如下:
$$\delta _i^{(nl)}=\frac{\partial J(x,y;w,b)}{\partial z_i^{(nl)}}=\sum_{k=1}^{S_{nl}}(a_k^{(nl)}-y_k)\frac{\partial a_k^{(nl)}}{\partial z_i^{(nl)}}$$
$$=\sum_{k=1}^{S_{nl}}(a_k^{(nl)}-y_k)\frac{\partial (f(z_k^{(nl)}))}{\partial z_i^{(nl)}}=(a_i^{(nl)}-y_i)f'(z_i^{(nl)})$$
因此前一层的$$\delta_i^{(nl-1)}$$可以计算如下:
$$\delta_i^{(nl-1)}=\frac{\partial J(x,y;w,b)}{\partial z_i^{(nl-1)}}=\sum_{k=1}^{S_{nl}}(a_k^{(nl)}-y_k)\frac{\partial a_k^{(nl)}}{\partial z_i^{(nl-1)}}$$
$$=\sum_{k=1}^{S_{nl}}(a_k^{(nl)}-y_k)\frac{\partial (f(z_k^{(nl)}))}{\partial z_i^{(nl-1)}}=\sum_{k=1}^{S_{nl}}(a_k^{(nl)}-y_k)f'(z_k^{(nl)})\frac{\partial z_k{(nl)}}{\partial z_i^{(nl-1)}}$$
$$=\sum_{k=1}^{S_{nl}}(a_k^{(nl)}-y_k)f'(z_k^{(nl)})\frac{\partial (\sum_{r=1}^{S_{nl}}w_{kr}^{nl-1}f(z_r^{(nl-1)}+b_k^{(nl-1)})}{\partial z_i^{(nl-1)}}$$
$$=\sum_{k=1}^{S_{nl}}(a_k^{(nl)}-y_k)f'(z_k^{(nl)})w_{ki}^{(nl-1)}f'(z_i^{(nl-1)})$$
$$=\sum_{k=1}^{S_{nl}}\delta_k^{(nl-1)}w_{ki}^{(nl-1)}f'(z_i^{(nl-1)})$$
将残差结果带入梯度下降公式:
$$\therefore w_{ij}^{(l)}=w_{ij}^{(l)}-\frac{1}{m}\sum_{k=1}^{m}\delta_i^{(k,l+1)}a_j^{(k,l)}-\lambda w_{ij}^{(l)}$$
$$\therefore b_i^{(l)}=b_i^{(l)}-\frac{1}{m}\sum_{k=1}^{m}\delta_i^{(k,l+1)}$$
从随机梯度下降法训练网络的推导过程可见,残差的反向传播是计算的核心。残差的反向传播用一句话来概况就是“某一层第i个节点的残差等于与该节点有权值连接的后一层所有节点上的残差乘以连接权重的和,最后和乘以激活函数在该节点输入值上的导数”,所以残差在往前传播的时候,只和与该节点有连接的后一层上的残差有关系。
这句话有点绕口,但是正是描述了公式:
$$=\sum_{k=1}^{S_{nl}}\delta_k^{(nl)}w_{ki}^{(nl-1)}f'(z_i^{(nl-1)})$$
下面分析CNN其实是一种特殊的全连接网络![](/images/bp/0111.png)做卷积的本质是后一层的某一节点上的值之与前一层的9个节点有关(以3\*3卷积核为例),如果把n
\*n的图像展开成列向量,长度就是n\*n,那么后一层的节点个数就是(n-3+1\)\*\(n-3+1\),也可以排成只有一列的列向量。这样的网络和MLP的网络是一样的,唯一的区别是非全连接,后一层的输入值之和前一层的九个节点有关系。
![](/images/bp/weqrqwrcqwerqwer.png)我们只需要考虑CNN和MLP不同之处即可,相同的地方参考MLP的反向传播。显然不同之处在于CNN多了卷积计算和pooling。上图右边表示的是max pooling和mean pooling的反向传播示意图,以max pooling为例,其实是把残差直接给了前向传播pooling时值最大的节点。比如2\*2的pooling,那么其实四个权重除了最大值的那个节点连接权重是1,其他三个都是0,那么再次参考残差传播的公式,权重为0,意味着反向残差为0,理解下面的公式,看看你就知道为啥是0了,w只有一个而且还是0,算出来当然是0。
$$=\sum_{k=1}^{S_{nl}}\delta_k^{(nl)}w_{ki}^{(nl-1)}f'(z_i^{(nl-1)})$$
其实pooling层的反向传播其实好理解。不好意理解的是卷积层。
![](/images/bp/qwerqwreqerqer.png)为啥卷积层的反向传播会是残差与卷积核的再卷积。要解释这个还得从残差的反向传播公式说起,
某一层第i个节点的残差等于与该节点有权值连接的后一层所有节点上的残差乘以连接权重的和,最后和乘以激活函数在该节点输入值上的导数”,所以残差在往前传播的时候,只和与该节点有连接的后一层上的残差有关系。前一层的某一节点在卷积核计算过程中影响了后一层的谁,后一层的残差就要参与计算。那么我们通过下图分析下到底卷积核计算,使得一个节点影响了后一层的哪些节点,影响的权重是多少。
![](/images/bp/qewrqwreqrwerqwer.png)上图分析的是红色节点影响了下一层的A11,A12....A33中的哪些节点,权重是多少。中间的星星图,就是具体影响。具体怎么得出这个图的,就是把做左图的3\*3卷积核,往左边,右边,上面,下面,左上,左下,右上,右下,不动,共九个位置。看看红色部分影响到了后面中的哪些节点。根据残差反向传播公式,残差应该如下图计算:
![](/images/bp/weqrqwrcqqwerqwrcwerqwer.png)上图的上半部分就是完全按照计算公式得到的,下图就是传说中的用残差和卷积核做卷积,显然这两个式子是完全相等的。所以可以说,“莫名其妙”的残差卷积其实也是根据残差公式严格推导来的。多个卷积核的情况那还是一样的,多个卷积核与多个残差层逐一卷积后累加和。
至此卷积神经网络的反向传播算法通过解释:局部连接和权值共享转为全连接网络,通过推导pooling层反向和卷积层反向传播与全连接网络具有一致性。两个方面分析将CNN的训练算法完整的归入了统一的公式体系。