前言():
{
个人感觉翻译版翻译的有些生硬,现在看回了原版《Neural Networks and Learning Machines (3rd Edition),Simon kaykin》,遇到困难时再参考翻译版。
第一章主要有两个内容,一个是Rosenblatt感知器,另一个是正态环境下的Bayes分类器。
}
正文():
{
线性可分():
{
两类向量线性可分是指存在一个超平面(如果这两类向量是3维的,那么就是平面,2维的话就是一条值线)可以将这两类完全分开。
比如说两类二维向量,类型为男和女,二维分别为身高和头发平均长度。虽然身高和头发平均长度与男女有关系,但无法直接只靠设置身高和头发平均长度的阈值就把它们分开。这种情况就叫线性不可分。
}
Rosenblatt感知器(初步了解):
{
Rosenblatt感知器是只有一个节点的神经网络(或就是个节点不是网络),即是输入节点又是输出节点,其激活函是Heaviside阈值函数(或是别的,书上给的是这个)。
学习算法():
{
每输入Bs个样本向量之后进行一次权值更新,如下:
其中w(n)是第n次(本次)权值更新后的权值向量;M是本次Bs个样本向量中被错误分类的样本向量集合;η(n)是第n次权值更新的学习率;x(i)是M中被错误分类的样本向量;当w(n-1)·x(i)>0时d(i)取-1,否则取1。
这里的Bs是我自己加的,按照书上描述的话Bs就等于总样本数。
}
收敛性():
{
书中还证明了只要向量线性可分,在一段时间的训练后,Rosenblatt感知器的权值向量就不会再改变,而不是永远地更改下去。
}
}
Bayes分类器():
{
Bayes定理的相关知识(初步了解):
{
我去图书馆看了一本杨永愉和*强编的《概率论与数理统计》。
目前我理解的是它的思想是把所有未知的量都看作随机量,并且结合先验知识与现有数据。打个质检的比方,一批产品中某产品的质量优秀概率为P(θ),其强度优秀概率为P(x)。强度优秀当然和质量优秀有关系,或者说一方是另一方的参数。本次的强度优秀概率P(x)先被测出来了,我想要估算在强度优秀的情况下,本次产品质量的优秀概率P(θ|x) ,如下:
在进行质检之前,本次的P(θ)是未知的,有人可能会想“可以根据以往猜个大概。”用先前的经验去猜,得到的概率为先验概率,算是比较容易得到,就用它作为P(θ)。之后代入质量优秀情况下的强度优秀概率P(x|θ),便可估算出本次产品质量的合格概率P(θ|x)。
我说的例子可能有点不准确,可以去看百度的吸毒者检测的例子https://baike.baidu.com/item/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%AE%9A%E7%90%86/1185949?fr=aladdin
}
Rosenblatt感知器可以对线性可分的样本进行分类,但如果样本线性不可分,即使得到一个线性的决策边界D也无法保证分类正确,这时候Bayes分类器就派上用场了。
Bayes分类器追求分类的平均风险最小,平均风险R的公式为:
其中,Ci,j代表j类的样本被分到i类的损失,Pi,j代表j类的样本被分到i类的概率,m为类别数。
Pi,j就类似于上述百度的例子一样,我想要求某个第一类的样本被决策边界D分到第一类的概率P1,1,那么就是某个样本是第一类的概率p1乘以第一类的样本被决策边界D分到第一类的概率p(1|1),即:
}
习题(1.1-1.5):
{
先把习题放一下(出自《Neural Networks and Learning Machines (3rd Edition)》,Simon kaykin):
1.1:
{
当正确分类时,式1.22中的[d(x)-y(x)]为0,即权值不变,和式1.5一样;
当1类的样本被分到2类时,[d(x)-y(x)]为2,即式1.22中的权值率为式1.5中的两倍,其他相等;
还有一种情况也如上。
}
1.2:
{
由于tanh(0)=0且tanh(v/2)单调递增,所以当v>0时,tanh(v/2)>0,当v<=0时,tanh(v/2)<=0,所以对于Rosenblatt感知器,两个激活函数效果一样。
}
1.3:
{
(a)中每种的输入样本线性可分,例如and:
其中x代表0类,+代表1类。
(b)中的输入样本线性不可分。
}
1.4:
{
直接按照书上的公式,设决策边界为y=wx+b,其中:
代入解得y=-20x。
}
1.5:
{
如上:
}
}
计算机实验():
{
这次就把习题1.6的实验给做了。
进行如下两类样本的分类(出自《Neural Networks and Learning Machines (3rd Edition)》,Simon kaykin):
图中参数如下:
w=6;
r=10;
d=0。
η(1)=0.1并且线性衰减至0.00001。
训练样本1000份,测试样本2000份,其都均匀分布在RegionA与RegionB。
训练样本使用50次(我不确定是不是β这个参数?因为书中实验也只是给到50次的数据。书上说的β说实话我没看懂,按照上面的公式β不应该是256吗?{问题1})。
具体实现我放到了Python学习笔记中。
}
}
结语():
{
由于没有足够的习题,只看书难免会有理解错误。如果有错误,希望你能给点指点,我就先谢谢了。
}