文件名称:java笔试题算法-mgfsm:大规模频繁序列挖掘
文件大小:97KB
文件格式:ZIP
更新时间:2024-06-22 19:47:01
系统开源
java笔试题算法MG-FSM 介绍 序列模式挖掘旨在发现序列数据集合中隐藏的模式和关系; 它已成功应用于许多数据挖掘任务,包括文本挖掘(例如,查找频繁短语)、购物篮分析(例如,查找产品销售的频繁序列)和网络使用挖掘(例如,查找频繁的页面访问序列) )。 特别是在文本挖掘的上下文中,频繁短语(通常称为n-gram)被广泛用于机器翻译、语音识别和信息提取等应用中。 是为 MapReduce 构建的可扩展的通用频繁序列挖掘算法。 它将序列集合(例如,文本集合或 Web 使用日志)作为输入,并根据许多约束(例如最小频率、最大长度或邻近性约束(基于位置或时间))挖掘频繁序列。 可以找到 MG-FSM 的详细描述。 ###贡献者 [Iris Miliaraki]、[Klaus Berberich]、[Rainer Gemulla]、[Kaustubh Beedkar] 和 [Dhruv Gupta]。 MG-FSM 概述 给定一组输入序列(序列数据库),MG-FSM 找到频繁子序列 出现在至少 σ ≥ 1 个序列中(支持阈值)。 长度至多 λ ≥ 2(长度阈值)。 连续项目之间的差距至多 γ ≥
【文件预览】:
mgfsm-master
----.gitignore(39B)
----src()
--------main()
----LICENSE.md(11KB)
----bin()
--------mgfsm(754B)
----pom.xml(3KB)
----README.md(10KB)