文件名称:支持度计数-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2024-07-04 16:39:24
RapidMiner
(4) 支持度计数 项集 A 的支持度计数是事务数据集中包含项集 A 的事务个数,简称为项集的频率或计 数。 已知项集的支持度计数,则规则 A B 的支持度和置信度很容易从所有事务计数、项 集 A 和项集 A B 的支持度计数推出: , _ ( ) ( ) = _ ( ) A B Support count A B Support A B Total count A 同时发生的事务个数 所有事务个数 (8-3) ( ) _ ( ) ( ) ( | ) ( ) _ ( ) Support A B Support count A B Confidence A B P B A Support A Support count A (8-4) 也就是说,一旦得到所有事务个数,A,B 和 A B 的支持度计数,就可以导出对应的 关联规则 A B 和 B A ,并可以检查该规则是否是强规则。 2. Ariori 算法:使用候选产生频繁项集 Apriori 算法的主要思想是找出存在于事务数据集中的最大的频繁项集,在利用得到的 最大频繁项集与预先设定的最小置信度阈值生成强关联规则。 (1) Apriori 的性质 频繁项集的所有非空子集也必须是频繁项集。根据该性质可以得出:向不是频繁项集 I 的项集中添加事务 A,新的项集 I A 一定也不是频繁项集。 (2) Apriori 算法实现的两个过程: 1) 找出所有的频繁项集(支持度必须大于等于给定的最小支持度阈值),在这个过程 中连接步和剪枝步互相融合,最终得到最大频繁项集 kL 。