文件名称:关联规则和组合数据分析:对大数据的影响-研究论文
文件大小:1MB
文件格式:PDF
更新时间:2024-06-29 19:37:49
Aitchison geometry text
许多现代组织每天都会生成大量交易数据。 事务通常包括需要专门的分析方法的语义描述符。 关联规则(AR)挖掘是一种强大的语义数据分析技术,用于从事务数据库中提取信息,并指示一组事务中的哪些项与哪些项对应。 AR 最初是为购物篮分析而开发的,其中评估购物篮中的物品组合以确定流行程度以及货架布局的影响。 为了生成 AR,必须检测更频繁项集的集合——一组两个以上的项目。 然后,作为第二步,从每个项目集生成所有可能的 AR。 然后使用标记为“兴趣度度量”的关联度量对 AR 进行排名。 R 包“arules”提供了十几种这样的度量,包括相对链接不平衡(RLD),它使项集的经典欧几里得距离与独立表面标准化。 在这项工作中,我们从组合数据 (CoDa) 的角度研究 AR 和 RLD。 众所周知,CoDa 方法提供了很好的特性,例如子组合一致性和可扩展性。 我们在这里探讨了 CoD 对大数据分析中 AR 挖掘的影响。 目的是分析 CoDa 属性是否确保 AR 特征不依赖于尺度,并且如果我们考虑原始项目的子集,我们仍然保持相似的行为。 该工作侧重于这些方面,包括 CoDa-AR 度量在项目集的单纯表示及其多维扩展上的动态可视化。