怎么判断文章相似性

时间:2021-06-18 03:58:49
【文件属性】:

文件名称:怎么判断文章相似性

文件大小:18KB

文件格式:DOCX

更新时间:2021-06-18 03:58:49

相似性

• 签名,例如md5经常用于判断文章相同,其效率比全文比对效率高 • 局部敏感哈希,例如minhash经常用于判断文章相似 • minhash的原理是,使用子集代表全集合,以子集的相似性模拟全集合的相似性 • 把文章转化为集合的常见方法是分词 • 分句,故意留错别字能够提高检测效率


网友评论