文件名称:论文研究-基于TreeMiner算法的XML文档结构相似度量方法.pdf
文件大小:790KB
文件格式:PDF
更新时间:2022-08-11 12:14:36
频繁结构向量模型,嵌入子树,频繁子树,结构挖掘
提出了一种基于TreeMiner算法挖掘频繁子树的文档结构相似度量方法,解决了传统的距离编辑法计算代价高而路径匹配法无法处理重复标签的问题。该方法架构了一个新的检索模型—频繁结构向量模型,给出了文档的结构向量表示和权重函数,构造了XML文档结构相似度量计算公式;同时从数据结构和挖掘程序上对TreeMiner 算法进行了改进,使其更适合大文档数据集的结构挖掘。实验结果表明,该方法具有很高的计算精度和准确率。