文件名称:关联分析基础概念-人脸识别图像预处理技术
文件大小:4.91MB
文件格式:PDF
更新时间:2024-06-29 11:23:53
数据挖掘算法 Python
13.1 关联分析基础概念 1.关联规则定义 关联规则定义:假设 是项的集合。给定一个交易数据库 D,其中每个事务 (Transaction)t 是 I 的非空子集,即,每一个交易都与一个唯一的标识符 TID(Transaction ID)对应。 关联规则在 D 中的支持度(support)是 D 中事务同时包含 X、Y 的百分比,即概率; 置信度(confidence)是 D 中事务已经包含 X 的情况下,包含 Y 的百分比,即条件概率。如果满足最小 支持度阈值和最小置信度阈值,则认为关联规则是有趣的。 2.信息熵--从信息传播的角度来看,信息熵可以表示信息的价值 1)支持度 Support(A->B)=P(A U B)。支持度揭示了 A 与 B 同时出现的概率。如果 A 与 B 同时出现的概率小, 说明 A 与 B 的关系不大;如果 A 与 B 同时出现的非常频繁,则说明 A 与 B 总是相关的。 2)置信度 Confidence(A->B)=P(A | B)=P(A U B)/P(A )。置信度揭示了 A 出现时,B 是否也会出现或有多大概率出现。如果置信度度为 100%,则 A 和 B 可以捆绑销售了。如果置信度太低,则说明 A 的出现与 B 是否出现关系不大 3)k 项集事件 如果事件 A 中包含 k 个元素,那么称这个事件 A 为 k 项集事件,A 满足最小支持度阈值的事件称为 频繁 k 项集 4)强规则 同时满足最小支持度阈值和最小置信度阈值的规则称为强规则 13.2 Apriori 算法 1.Apriori 算法实现步骤 Step1 发现频繁项集,过程为(1)扫描(2)计数(3)比较(4)产生频繁项集(5)连接、剪枝,产 生候选项集 重复步骤(1)~(5)直到不能发现更大的频集 Step2 产生关联规则,过程为: 根据前面提到的置信度的定义,关联规则的产生如下: (1)对于每个频繁项集 L,产生 L 的所有非空子集; (2)对于 L 的每个非空子集 S,如果 P(L)/P(S)≧min_conf 则输出规则“SàL-S” 注:L-S 表示在项集 L 中除去 S 子集的项集