说明
本博文属于笔记记录篇,诸多案例与理论描述均系原文摘抄或原文整理后誊写,对于个别术语附上了个人通俗一点的理解;原文来源信息均注明于文末处,均可准确查找其出处。
1 过拟合与欠拟合
关于过拟合与欠拟合,先见下图。
【个人理解】
- 过拟合:当前算法开启了对事物认知的“Hard模式”;学习到的"条条框框"的"规则"设置过多
- 欠拟合:当前算法开启了对事物认知的“Easy模式”;学习到的"规则"设置过少;当前算法对事物的理解过于“无拘无束”和“片面”
2 转移概率矩阵 / Transition Matrix
- 又叫“跃迁矩阵”,由俄国数学家马尔科夫于20世纪初发现;
- 定义:一个系统的某些因素在转移中,第n次结果只受第n-1的结果影响,即只与当前所处状态有关,而与过去状态无关。
- 在马尔科夫分析中,引入状态转移这个概念。所谓状态是指:客观事物可能出现或存在的状态;状态转移是指客观事物由一种状态转移到另一种状态的概率。
-
特点
案例
假定某大学有1万学生,每人每月用1支牙膏,并且只使用“中华”牙膏与“黑妹”牙膏两者之一。
根据本月(12月)调查,有3000人使用黑妹牙膏,7000人使用中华牙膏。
又据调查,使用黑妹牙膏的3000人中,有60%的人下月将继续使用黑妹牙膏,40%的人将改用中华牙膏; 使用中华牙膏的7000人中, 有70%的人下月将继续使用中华牙膏,30%的人将改用黑妹牙膏。
据此,可以得到如下表所示的统计表,可表示:N种牙膏之间的转移概率(其中,N=2)。
上表中的4个概率就称为状态的转移概率,而这四个转移概率组成的矩阵,称为【转移概率矩阵】:
可以看出, 转移概率矩阵的一个特点是:其各行元素之和为1。
在本例中,其经济意义是:使用某种牙膏的人与将来使用各种品牌牙膏的人数百分比之和为1。
用转移概率矩阵预测市场占有率的变化:
有了转移概率矩阵,就可以预测,到下个月(1月份)使用黑妹牙膏和中华牙膏的人数,计算过程如下:
即:1月份使用黑妹牙膏的人数将为3900,而使用中华牙膏的人数将为6100。
假定转移概率矩阵不变,还可以继续预测到2月份的情况为:
这里 称为 二步转移矩阵,也即 由12月份的情况通过2步转移到2月份的情况。
二步转移概率矩阵正好是一步转移概率矩阵的平方。
一般地, k步转移概率矩阵正好是一步转移概率矩阵的k次方。
可以证明,k步转移概率矩阵中,各行元素之和也都为1。
3 混淆矩阵 / Confusion Matrix
- 每一行之和表示该类别的真实样本数量;
- 每一列之和表示被预测为该类别的样本数量;
- 也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。
- 具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。
- 在机器学习中:
- 混淆矩阵是可视化工具,特别用于监督学习;
- 在图像精度评价中,主要用于比较分类结果和实际测得值,可以把分类结果的精度显示在一个混淆矩阵里面。
- 混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类相比较计算的。
- 在无监督学习中,一般叫做匹配矩阵。
- 混淆矩阵是可视化工具,特别用于监督学习;