论文研究-语义分析与词频统计相结合的中文文本相似度量方法研究.pdf下载

【文件属性】：

文件名称：论文研究-语义分析与词频统计相结合的中文文本相似度量方法研究.pdf

文件大小：389KB

文件格式：PDF

更新时间：2022-08-11 12:12:02

向量空间模型,语义分析,词频,概率分布,文本相似度

基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量，然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息，不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷，但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点，提出了一种新颖的文本相似度量方法，该方法首先对文本进行预处理，然后挑选TF-IDF值较高的词项作为特征项，再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算，最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明，采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法，从而证明了提出的文本相似度计算方法的有效性。

立即下载

秒客网

论文研究-语义分析与词频统计相结合的中文文本相似度量方法研究.pdf

网友评论

相关文章