论文研究-基于逻辑行和最大接纳距离的网页正文抽取.pdf下载

【文件属性】：

文件名称：论文研究-基于逻辑行和最大接纳距离的网页正文抽取.pdf

文件大小：788KB

文件格式：PDF

更新时间：2022-10-02 16:53:29

论文研究

网页正文抽取是很多互联网应用的基础工作和必须解决的问题。目前的主流方法是基于DOM树结构，此方法需要解析出网页的DOM树结构。对于目前互联网上的网页来源众多、结构众多的情形，基于DOM树的处理方法除了性能不足以外，还会遇到抽取精度上的问题。针对这些问题，该文提出了一个网页正文抽取的新方法，该方法不依赖DOM树，而是考虑人们编写网页的方式形成一些启发式规则，并结合相关的统计规律，以逻辑行为基本处理单位，基于最大接纳距离进行网页正文抽取。实验表明，论文的方法能够高效、高精度地抽取出网页正文。

立即下载

秒客网

论文研究-基于逻辑行和最大接纳距离的网页正文抽取.pdf

网友评论

相关文章