吴恩达深度学习视频笔记1-4:《神经网络和深度学习》之《深层神经网络》

时间:2022-12-14 15:20:23

本文总结的是课程一《神经网络和深度学习》的第四周《深层神经网络》,共7小节,本文涵盖其中的6小节。视频请访问deeplearning.ai或者网易云课堂。


4.1 深度神经网络


吴恩达深度学习视频笔记1-4:《神经网络和深度学习》之《深层神经网络》


如图是一个4层的神经网络,包括3个隐藏层。用L表示层数,这里L=4。用带上标ln表示结点的数量,或者说是l层上的单元数量,这里有n[0]=3n[1]=5n[2]=5n[3]=3n[4]= n[L] = 1a[l]表示激活函数,易得a[0]=Xa[L] =y^

 

4.2 深度神经网络的前向传播和反向传播


前向传播:

假设输入是a[l-1],输出是a[l],缓存是z[l]l层的前向传播更新的方程如图所示,右侧是向量化的方程。


吴恩达深度学习视频笔记1-4:《神经网络和深度学习》之《深层神经网络》

Z[l]=W[l] A[1-1]+b[l]

A[l]=g[l](Z[l])


反向传播:

假设输入是da[l],输出是da[l-1]dW[l]db[l]l层的反向传播更新的方程如图所示,右侧是向量化的方程。


吴恩达深度学习视频笔记1-4:《神经网络和深度学习》之《深层神经网络》


dZ[l]= dA[l]*g[l]’(Z[l])   (element-wise product是逐个元素乘积,g[1]’是激活函数的导数)

dW[l]=1/m* dZ[l]A[l-1]T

db[l]= 1/m*np.sum(dZ[l] ,axis=1,keepdim=True)

dA[l-1] = W[l] T dZ[l]

吴恩达深度学习视频笔记1-4:《神经网络和深度学习》之《深层神经网络》


前向传播和反向传播的计算总结如上图所示。前向传播从X开始,利用两个方程,逐步求出预测值y^以及损失函数。根据损失函数,可以得到dA[l]。反向传播dA[l]从开始,利用四个方程,逐步求出dW[l] db[l] 


机器学习算法的复杂性并不来源于代码,而是来源于数据。通常不需要写几千行的代码。

 

4.3 核对矩阵的维度


方程Z[l]=W[l] A[1-1]+b[l]中,Z[l]的维度是(n[l]m) A[1-1]的维度是(n[l-1]m) ,因此可以推导出W[l]的维度是(n[l]n[l-1])b[l]的维度是(n[l]1)


反向传播时,dW的维度和W相同,因此,dW[l]的维度是(n[l]n[l-1])db[l]的维度是(n[l]1)


由正向传播的方程A[l]=g[l](Z[l])知,AZ的维度相同,同时dA的维度和A相同, dZ的维度和Z相同,因此A [l] dA [l] dZ [l]的维度都是(n[l]m)X就是A [0],它的维度是(n[0]m)

 

4.4 深度网络好用的原因


吴恩达深度学习视频笔记1-4:《神经网络和深度学习》之《深层神经网络》


以图像识别人脸为例,这里构建了一个四层的神经网络。神经网络的第一层相当于边缘检测器,用于检测边缘。第二层把第一层输出的边缘结合起来,用于检测人脸的不同部分,比如鼻子、眼睛。第三层把第二层输出的人脸不同部分结合起来,用于检测不同的脸。网络从细节开始,逐步扩大检测区域,直到可以判别整张图像的内容。


语音识别也是同样的道理,浅层网络识别一些低层次的特征,深层网络在此基础上将特征不断组合,从而识别复杂的内容。

 

4.5 搭建深层神经网络块


吴恩达深度学习视频笔记1-4:《神经网络和深度学习》之《深层神经网络》


正向和反向传播计算结构方块图如图所示,绿色线表示正向传播,红色线表示反向传播。正向传播时,会缓存z[l]的值。实际编程中,也会缓存w[l]b[l]的值。反向传播时,根据缓存的值计算da[l],同时也计算出dw[l] db[l],用于更新wb


正向和反向传播计算公式如下图所示,左边方块内是正向传播的公式,右边方块内是反向传播的公式。


吴恩达深度学习视频笔记1-4:《神经网络和深度学习》之《深层神经网络》


 

4.6 参数和超参数


深度神经网络中,参数为wb,超参数包括学习率、迭代次数、隐藏层的数量、各隐藏层的结点数量、激活函数的种类等,他们可以控制参数wb


超参数的选择有很多种不同的可能性。如今的深度学习过程仍然是一个实验性的过程。一般的过程是,先给超参数赋值,看最终work的效果如何,再根据效果调整超参数的值,直到得到最优值。


从业者需要经常尝试多种不同的超参数数值,因为最优的超参数数值是可能随着硬件、数据等的变化而不断变化的。

 

4.7 神经网络和大脑的关系(略,结论是没有关系)


本文总结的是课程一《神经网络和深度学习》的第四周《深层神经网络》,共7小节,本文涵盖其中的6小节。阿蒙将自以为重要的知识点整理成笔记,并不是逐句翻译不足之处请大家斧正。视频请访问deeplearning.ai或者网易云课堂。


更多课程笔记请戳

DL | 吴恩达深度学习工程师微专业笔记之课程一第三周

DL | 吴恩达深度学习工程师微专业笔记之课程一第二周

DL | 吴恩达深度学习工程师微专业笔记之课程一第一周




4.1 深度神经网络


吴恩达深度学习视频笔记1-4:《神经网络和深度学习》之《深层神经网络》


如图是一个4层的神经网络,包括3个隐藏层。用L表示层数,这里L=4。用带上标ln表示结点的数量,或者说是l层上的单元数量,这里有n[0]=3n[1]=5n[2]=5n[3]=3n[4]= n[L] = 1a[l]表示激活函数,易得a[0]=Xa[L] =y^

 

4.2 深度神经网络的前向传播和反向传播


前向传播:

假设输入是a[l-1],输出是a[l],缓存是z[l]l层的前向传播更新的方程如图所示,右侧是向量化的方程。


吴恩达深度学习视频笔记1-4:《神经网络和深度学习》之《深层神经网络》

Z[l]=W[l] A[1-1]+b[l]

A[l]=g[l](Z[l])


反向传播:

假设输入是da[l],输出是da[l-1]dW[l]db[l]l层的反向传播更新的方程如图所示,右侧是向量化的方程。


吴恩达深度学习视频笔记1-4:《神经网络和深度学习》之《深层神经网络》


dZ[l]= dA[l]*g[l]’(Z[l])   (element-wise product是逐个元素乘积,g[1]’是激活函数的导数)

dW[l]=1/m* dZ[l]A[l-1]T

db[l]= 1/m*np.sum(dZ[l] ,axis=1,keepdim=True)

dA[l-1] = W[l] T dZ[l]

吴恩达深度学习视频笔记1-4:《神经网络和深度学习》之《深层神经网络》


前向传播和反向传播的计算总结如上图所示。前向传播从X开始,利用两个方程,逐步求出预测值y^以及损失函数。根据损失函数,可以得到dA[l]。反向传播dA[l]从开始,利用四个方程,逐步求出dW[l] db[l] 


机器学习算法的复杂性并不来源于代码,而是来源于数据。通常不需要写几千行的代码。

 

4.3 核对矩阵的维度


方程Z[l]=W[l] A[1-1]+b[l]中,Z[l]的维度是(n[l]m) A[1-1]的维度是(n[l-1]m) ,因此可以推导出W[l]的维度是(n[l]n[l-1])b[l]的维度是(n[l]1)


反向传播时,dW的维度和W相同,因此,dW[l]的维度是(n[l]n[l-1])db[l]的维度是(n[l]1)


由正向传播的方程A[l]=g[l](Z[l])知,AZ的维度相同,同时dA的维度和A相同, dZ的维度和Z相同,因此A [l] dA [l] dZ [l]的维度都是(n[l]m)X就是A [0],它的维度是(n[0]m)

 

4.4 深度网络好用的原因


吴恩达深度学习视频笔记1-4:《神经网络和深度学习》之《深层神经网络》


以图像识别人脸为例,这里构建了一个四层的神经网络。神经网络的第一层相当于边缘检测器,用于检测边缘。第二层把第一层输出的边缘结合起来,用于检测人脸的不同部分,比如鼻子、眼睛。第三层把第二层输出的人脸不同部分结合起来,用于检测不同的脸。网络从细节开始,逐步扩大检测区域,直到可以判别整张图像的内容。


语音识别也是同样的道理,浅层网络识别一些低层次的特征,深层网络在此基础上将特征不断组合,从而识别复杂的内容。

 

4.5 搭建深层神经网络块


吴恩达深度学习视频笔记1-4:《神经网络和深度学习》之《深层神经网络》


正向和反向传播计算结构方块图如图所示,绿色线表示正向传播,红色线表示反向传播。正向传播时,会缓存z[l]的值。实际编程中,也会缓存w[l]b[l]的值。反向传播时,根据缓存的值计算da[l],同时也计算出dw[l] db[l],用于更新wb


正向和反向传播计算公式如下图所示,左边方块内是正向传播的公式,右边方块内是反向传播的公式。


吴恩达深度学习视频笔记1-4:《神经网络和深度学习》之《深层神经网络》


 

4.6 参数和超参数


深度神经网络中,参数为wb,超参数包括学习率、迭代次数、隐藏层的数量、各隐藏层的结点数量、激活函数的种类等,他们可以控制参数wb


超参数的选择有很多种不同的可能性。如今的深度学习过程仍然是一个实验性的过程。一般的过程是,先给超参数赋值,看最终work的效果如何,再根据效果调整超参数的值,直到得到最优值。


从业者需要经常尝试多种不同的超参数数值,因为最优的超参数数值是可能随着硬件、数据等的变化而不断变化的。

 

4.7 神经网络和大脑的关系(略,结论是没有关系)