模式识别与智能计算学习笔记1

时间:2024-02-24 11:27:47

1、概述

1.1基本概念

模式识别的目的是利用计算机对物理对象进行分类,在错误概率最小的条件下,使识别的结果尽量与客观物体相符合。

特征:与识别有关的因素,称为一个特征。

模式:就是样品所具有的特征的描述。

模式识别系统:数据获取——>预处理———>特征提取和选择——>分类决策——>分类器设计

统计模式识别研究的主要问题:特征的选择与优化,分类判别,聚类判别。

1.2特征空间优化设计问题

所选用的特征应具有使同类物体分布具有紧致性,对初始的特征进行改造,目的在于提高某方面的性能,因此又称为特征的优化问题

一般来说,优化就是降维,优化后的特征更有利于分类计算。

两种基本方法:一种是特征选择,一种是组合优化。

特征选择就是筛选,选出一些主要的特征,忽略一些次要的特征。

特征优化就是一种映射变换改造原特征空间,新的特征是原有特征的一个函数,主要限定在线性变换的方法上。

Kanal.L曾经总结过经验;样品数N与特征数n之比应足够大,通常样本数N是特征数n的5~10倍。

总之,特征选择与特征优化的任务是求出一组对分类最有效的特征。有效是指在特征维数减少到同等水平时,其分类性能最佳。

1.3 分类器设计

在统计模式识别中,感兴趣的主要问题并不是决策正误,而是如何使决策错误造成的分类误差在整个识别过程中的风险代价达到最小。这种最优是针对某一种设计原则讲的,这种原则称为一种准则,常用的准则有最小错误率准则,最小风险准则,近邻准则,Fisher准则,均方误差最小准则,感知准则等。设计准则,并使该准则达到最优的条件是设计模式识别最基本的方法。

Fisher准则:根据两类样品一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样品在该方向上的投影满足雷内尽可能密集,类间尽可能分开的原则,把它们投影到任意一根直线上,又可能不同类别的样品就混在一起了,无法区分。

感知准则:使错误分类样品到分界面距离之和最小为原则。提出利用错误提供信息实现迭代修正的学习原理,即利用错分类提供信息修正错误。这种准则是人工神经元网络多层感知器的基础。

1.3.1 分类器设计基本方法

1、模板匹配

最近邻方法,其缺点是计算量大,存储量大,要存储的模板多,

2、判别函数

(1)基于概率统计的分类法

(2)判别函数分类法 判别分类器不依赖于条件概率密度的知识,可以理解为通过几何的方法,把特征空间分解为对应于不同类别的子空间。

3、神经网络分类

从输入空间到输出空间的一个非线性映射,它通过调整权重和阈值来“学习”或发现变量间的关系,实现对事物的分类。由于神经网络是一种对数据分布无任何要求的非线性技术,它能有效解决非正态分布、非线性的评价问题,因而受到广泛的应用。

4、基于规则推理法

通过样本训练集构造推理规则进行模式分类,主要有决策树和粗糙集理论。决策树学习室以实例为基础的归纳学习算法。决策树是以实例为基础的归纳学习算法。它着眼于从一组无次序、无规则的实例中推理出决策树表示形式的分类规则。

粗糙集理论反映了认知过程在非确定、非模型信息处理方面的机制和特点,是一种有效的非单调推理工具。粗糙集以等价关系为基础,用上、下近似两个集合来逼近任意一个集合,该集合的边界区域被定为上近似集合下近似集之差集。

1.3.2 判别函数

无论用概率统计的分类方法还是应用几何分类法,最终都转化为确定判别函数形式。确定分界面方程包括选择函数类型与确定最佳参数两个部分。一般来说,选择函数室友设计者确定的,但其参数的确定准则是通过一个学习过程来实现的,是一个迭代实现优化的过程。

线性分类器设计:

(1)确定使用的判别函数类型或决策面方程类型,如线性分类器,分段线性分类器,非线性分类器或近邻法

(2)按需要确定一准则函数J,如Fisher算法,感知器算法,增量校正算法,LMSE算法。

(3)确定准则函数J达到极值W*的具体数值,从而确定判别函数,完成分类器的设计。

这种方法没有使用样本的统计参数,称为非参数判别分类法。