基于语义相关度主题爬虫的语料采集方法

时间:2021-05-06 12:38:40
【文件属性】:
文件名称:基于语义相关度主题爬虫的语料采集方法
文件大小:1.03MB
文件格式:PDF
更新时间:2021-05-06 12:38:40
生语料采集 语义相关度主题爬虫 页面信息相关度 URL结构信息 针对特定领域语料采集任务,设计了基于语义相关度主题爬虫的语料采集方法.根据选定的主题词,利用页面描述信息,基于*中文语料训练出的词分布式表示综合HowNet计算页面信息相关度,结合URL的结构信息预测未访问URL链指的页面内容与特定领域的相关程度.实验表明,系统能够有效的采集互联网中的党建领域页面内容作为党建领域生语料,在党建领域网站上的平均准确率达到94.87%,在门户网站上的平均准确率达到64.20%.

网友评论