论文研究-一种基于状态转换图的Ajax爬行算法.pdf

时间:2022-08-11 13:23:15
【文件属性】:

文件名称:论文研究-一种基于状态转换图的Ajax爬行算法.pdf

文件大小:203KB

文件格式:PDF

更新时间:2022-08-11 13:23:15

Ajax爬虫,状态转换图,Web爬虫,Deep Web

传统Web爬虫无法解决爬行Ajax应用所面临的JavaScript执行、状态识别与切换、重复状态检测等问题。为此,首先定义Ajax应用的状态转换图,并设计了一种基于状态转换图的Ajax爬行算法,通过该算法可以获取Ajax应用状态信息和后台Deep Web资源。为了提高Ajax爬行的准确性、减少待爬行的状态数目,使用Ajax指纹识别、DOM结构过滤等方法改进上述算法。实验结果表明了算法的有效性和性能。


网友评论