基于粗糙集的决策表知识约简研究

时间:2012-08-15 08:44:01
【文件属性】:

文件名称:基于粗糙集的决策表知识约简研究

文件大小:810KB

文件格式:KDH

更新时间:2012-08-15 08:44:01

粗糙集 数据挖掘 知识约简 规则提取

在知识发现过程中,由于待处理的数据集有时带有噪声或不完整,因此需要能处理不精确、不确定数据的理论和方法。粗糙集理论正是满足这种要求的新型数学工具。基于粗糙集的知识发现过程,就是利用粗糙集理论与方法从数据中挖掘出新颖的、有用的非平凡的模式过程。围绕知识约简这个核心研究问题,分别从差别矩阵、启发式信息及数据库系统的角度对知识约简进行了深入研究。将粗糙集引入Vague目标信息系统,讨论了Vague目标信息系统的知识约简问题。相关主要工作有以下几方面: 现有差别矩阵只适用于一致或部分一致决策表,对于完全不一致决策表并不能得到正确的结果,给出了一种基于差别矩阵的知识约简改进算法。 由等价类而不是单个元素参与差别矩阵的构造,得到一种简化的代数约简差别矩阵。从差别矩阵的角度讨论了代数约简和条件信息熵约简的核属性计算问题,指出代数约简核属性是信息熵约简核属性的子集。证明了分布协调集、分配协调集必为代数协调集。但代数约简与分布或分配约简之间并无必然的包含与被包含关系,通过具体算例,分析并指出产生这个结果的原因。基于等价差别矩阵具有相同的知识约简和核属性的思想,对各知识约简所对应的差别矩阵改写成统一的表示形式,分析了其不一致性及内在联系,给出了一种将分布或分配约简转化为代数约简,分 布约简转化为分配约简的新方法。 提出了一种新的近似质量及其启发式约简算法。对基于正区域的属性重要性进行分析,发现论域中由决策属性正确分类的等价类及完全由矛盾对象构成的等价类对属性的重要性不会产生影响,从而可以逐步删除,减少约简过程的搜索空间。给出了一种基于新近似质量的属性重要性递归计算方法。理论分析和实验结果表明,该算法是高效的。 近似质量是以等价类基本块为单位进行运算的,因分割粒度太大,从而不能更细致地刻画出属性的重要性。由于粗糙集以分类为基础,以属性区分能力作为启发式信息更能全面地反映出一个属性的重要性。因属性区分能力浓缩在属性差别矩阵中,将差别矩阵与属性区分能力相结合,得到了决策表在代数约简定义下的属性区分能力计算公式,建立了基于属性区分能力的启发式约简算法。数值算例和仿真实验验证了该算法更易搜索到最优约简。 针对现有基于数据库系统粗糙集计算模型的不足。提出一种简单的核属性判断方法,将判断两个正区域是否相等简化成判断它们的基数是否相等,从而大大简化了计算过程,得到一种基于数据库系统的简单求核方法。该方法对一致和不一致决策表都适用。现有大多数约简算法都采用自底向上的搜索策略,但不能保证算法的完备性。由于所有条件属性集本身已是代数协调集,采用自顶向下的搜 索策略只需对条件属性集遍历一次即可得到其代数约简。为提高搜索约简的优度,提出了一种基于数据库系统的启发式信息约简算法。 提出了一种基于Vague模糊熵的Vague集相似度量方法。基于粗糙集方法,讨论了Vague目标信息系统的知识约简问题。 粗糙集、Vague集理论和D-S证据理论都是研究信息系统中知识不完善、不精确问题的方法。虽然它们解决问题的出发点有所不同,并各有其优缺点。将它们结合起来可以更好地解决信息系统中不完善、不精确性的知识问题。下一步将系统地将粗糙集、Vague集和D-S证据理论融合起来研究。


网友评论

  • 还行,知识点说的比较详细