一、神经网络构成

人工神经网络模型是仿造生物学的神经元之间的相互连接而成的，相当于很多感知器进行线性组合而成

机器学习笔记（十二）神经网络

每一个感知器可以做一个线性分类，多个感知器组合可以模拟出平滑的曲线分类

机器学习笔记（十二）神经网络

对于一个多层的神经网络，前几层可以看做是特征的层层转换，最后一层输出则可以看做一个线性的模型，所以最后一层所学的线性模型都可以用

机器学习笔记（十二）神经网络

线性模型有

机器学习笔记（十二）神经网络

对于中间层的神经网络来说，每一层可以看做是特征转换函数对于信号S的转换，怎么选择转换函数？如果都是线性函数，则转换结果为线性函数，和一个线性函数效果相同，阶梯函数则很困难最佳化，所以选择S型函数

机器学习笔记（十二）神经网络

最终神经网络可表示为

机器学习笔记（十二）神经网络

二、神经网络学习

怎么学习得到好的权重，使最终的输出和y很接近，使用BP算法（误差逆向传播算法）可以做到。

对于最后一层来说，错误恒量为机器学习笔记（十二）神经网络，利用梯度下降法

三、深度神经网络

深度学习能够做到好，是由于它从最低层的原始特征（raw feature，例如图像的像素），一层一层的逐步提取出具有物理意义的特征（例如图像从原始的像素到简单的线条，再到能够表达图像的部件结构），然后能够组合出可以表达出和原图像信息非常相近的图像，深度学习的困难：模型架构的设计、模型的高复杂度、很困难进行最佳化（神经元很到，容易陷入局部最优）、计算复杂度模型架构问题通常与应用问题相结合，例如对于图片的处理应用卷积神经网络的模型架构；对于模型的复杂度问题，如果有大量的数据资料用来训练，通常不会纠结这个问题，要考虑的是计算复杂度的问题，还有可以利用正则化的方法，例如dropout、denoising方法；对于进行最佳化问题，可以寻找一个好的起始点，即pre-training，并非随机的生成起始点；计算复杂度则可以小批量的利用高性能硬件计算，比如利用GPU；其中最重要的是正则化(regularization)和pre-training，所以这一个深度学习框架重要的两步

机器学习笔记（十二）神经网络

怎么做预训练pre-training得到好的权重起始点？对于神经网络，层与层之间的权重代表的是意义是特征之间的转换过程，转换之后的特征要能表现原有特征表达的信息，所以转换过后的特征再反转换之后，能够还原出原来的特征，这样的转换才是合适的转换，以此可以用自动编码器来确定两层神经元之间的初始连接权重，输入经过编码之后得到输出，输出经解码得到的输出和之前的输入要很相近，这样得到的编码权重可作为两层神经元之间的pre-training权重，以此类推其他层与层之间的初始权重

机器学习笔记（十二）神经网络

所以基本的自动编码器可表示为

机器学习笔记（十二）神经网络

再一个问题，由于深度模型具有很高的模型复杂度，很容易发生过拟合，该怎么避免或者减小过拟合的影响？可以加入条件限制，例如卷积神经网络，每一个神经元不是和整张图片的每一个像素连接，而是把有相关性的像素和神经元进行连接，这样就变为局部连接，大大减少了神经元权重的个数；可以利用权重衰减weight decay的方法来对一些权重进行限制；可以提前停止训练过程，得到较好的局部最优解

通过数据资料、噪声、模型复杂度对过拟合的影响图片来看，机器学习笔记（十二）神经网络

噪声对于过拟合有很大影响，通常现实中数据大都含有噪声，如果能够减少噪声，可以降低过拟合的可能，怎么降低噪声的影响？直接的思想是清除或减少数据的噪声，使数据变得纯净，但对于噪声不容易去除或者找不到噪声污染数据的情况下，怎么降低噪声的影响？在数据中加入一些噪声

我们希望自动编码器具有更强的鲁棒性，当输入加入一些噪声的影响时，输出仍然有干净的结果，即希望得到的g(x)具有一定的抗干扰噪声的能力

机器学习笔记（十二）神经网络

四、radial basis function network 径向基函数神经网络

radial basis function 又叫做gaussin kernel，机器学习笔记（十二）神经网络，

高斯核函数的支持向量机的假设函数可表示为机器学习笔记（十二）神经网络，其中的高斯函数表示测试数据X与训练数据Xn之间的距离，距离小的表示X与Xn相近，可以得到与Xn的标签yn相同的分类，所以gsvm(x)可表示为多个高斯函数所分类别的线性组合，而为线性组合的参数，可以看做是高斯函数所得到的票数，neural work 和 RBF network 的区别？

机器学习笔记（十二）神经网络

假设函数可表示为

机器学习笔记（十二）神经网络，计算X与中心点的距离作为输入，然后送到RBF中得到输出结果，然后再线性组合得到输出层的输入，所以关键是中心点和线性组合的参数

机器学习笔记（十二）神经网络

对于RBF是高斯函数的情况，中心点就是支持向量的点

为了进一步简单，把所有的训练数据都当做中心点机器学习笔记（十二）神经网络，物理意义就是训练数据的每一个点都对测试点有影响，影响力为，若考虑每一个训练数据的影响力都相同，则假设函数变为，距离对应高斯函数衰减很快，距离越大高斯函数值越小，找到最大值（即距离最近）的点所对应的标签作为测试点的分类，即为最近邻法，当选择K个距离最近的情况，即为K近邻法