文件名称:研究论文-基于图论的片段合并方法研究.pdf
文件大小:640KB
文件格式:PDF
更新时间:2022-08-27 13:52:55
自动化技术
针对抄袭检测系统的文本对齐模块无法处理大规模数据的问题,提出基于图论的片断合并算法,通过寻找图的连通分支实现了片段合并的优化,减少了重复计算的时间。将片段合并算法与Hadoop的MapReduce计算框架结合,使片断合并算法在集群中并行的执行。实验表明,基于图论的片断合并算法在集群中的并行执行能缩短文本对齐模块运行时间,可以在短时间内处理大量的文本数据。