论文研究-一种基于特征符号的网页主题信息抽取方法.pdf

时间:2022-08-11 15:32:53
【文件属性】:

文件名称:论文研究-一种基于特征符号的网页主题信息抽取方法.pdf

文件大小:341KB

文件格式:PDF

更新时间:2022-08-11 15:32:53

生成树模型,特征符号,相关度,主题提取

随着Internet网络的日益普及,Web上的海量数据给文本挖掘尤其是网页主题提取带来了更多的挑战,现有的文本提取方法在保证高准确率的同时无法满足Web挖掘方法的通用性。通过对Web网页结构进行研究,对网页生成树模型进行了改进,找到网页结构的通用规则,提出一种基于特征符号的提取方法CECS(content extraction characteristic symbols),结合相关度对网页主题内容进行提取。实验证明,所提算法具有很高的准确性和通用性。


网友评论