论文研究-基于逻辑行和最大接纳距离的网页正文抽取.pdf

时间:2022-10-02 16:53:29
【文件属性】:

文件名称:论文研究-基于逻辑行和最大接纳距离的网页正文抽取.pdf

文件大小:788KB

文件格式:PDF

更新时间:2022-10-02 16:53:29

论文研究

网页正文抽取是很多互联网应用的基础工作和必须解决的问题。目前的主流方法是基于DOM树结构,此方法需要解析出网页的DOM树结构。对于目前互联网上的网页来源众多、结构众多的情形,基于DOM树的处理方法除了性能不足以外,还会遇到抽取精度上的问题。针对这些问题,该文提出了一个网页正文抽取的新方法,该方法不依赖DOM树,而是考虑人们编写网页的方式形成一些启发式规则,并结合相关的统计规律,以逻辑行为基本处理单位,基于最大接纳距离进行网页正文抽取。实验表明,论文的方法能够高效、高精度地抽取出网页正文。


网友评论