【文件属性】:
文件名称:java笔试题算法-mgfsm:大规模频繁序列挖掘
文件大小:97KB
文件格式:ZIP
更新时间:2021-06-03 02:00:21
系统开源
java笔试题算法MG-FSM
介绍
序列模式挖掘旨在发现序列数据集合中隐藏的模式和关系;
它已成功应用于许多数据挖掘任务,包括文本挖掘(例如,查找频繁短语)、购物篮分析(例如,查找产品销售的频繁序列)和网络使用挖掘(例如,查找频繁的页面访问序列)
)。
特别是在文本挖掘的上下文中,频繁短语(通常称为n-gram)被广泛用于机器翻译、语音识别和信息提取等应用中。
是为
MapReduce
构建的可扩展的通用频繁序列挖掘算法。
它将序列集合(例如,文本集合或
Web
使用日志)作为输入,并根据许多约束(例如最小频率、最大长度或邻近性约束(基于位置或时间))挖掘频繁序列。
可以找到
MG-FSM
的详细描述。
###贡献者
[Iris
Miliaraki]、[Klaus
Berberich]、[Rainer
Gemulla]、[Kaustubh
Beedkar]
和
[Dhruv
Gupta]。
MG-FSM
概述
给定一组输入序列(序列数据库),MG-FSM
找到频繁子序列
出现在至少
σ
≥
1
个序列中(支持阈值)。
长度至多
λ
≥
2(长度阈值)。
连续项目之间的差距至多
γ
≥
【文件预览】:
mgfsm-master
----.gitignore(39B)
----src()
--------main()
----LICENSE.md(11KB)
----bin()
--------mgfsm(754B)
----pom.xml(3KB)
----README.md(10KB)