crawler4j框架中的webcrawler中的shouldVisit()方法负责写url 的匹配规则,如果匹配规则写的好的能够在一定程度上提高爬虫的效率,具体的优化思路如下。
我们要通过分析网站的页面与页面之间的层级关系,找到从seedURL到最终的落地页的之间的一条最优的路径,比如说seedURL->A->B->落地页,那么我在shouldvisit()方法中就可以配3个规则,seedURL->A ,A->B, B->落地页,这样每次过滤之后都只会留下来我们最需要的url能够提高效率。
crawler4j框架中的webcrawler中的shouldVisit()方法负责写url 的匹配规则,如果匹配规则写的好的能够在一定程度上提高爬虫的效率,具体的优化思路如下。
我们要通过分析网站的页面与页面之间的层级关系,找到从seedURL到最终的落地页的之间的一条最优的路径,比如说seedURL->A->B->落地页,那么我在shouldvisit()方法中就可以配3个规则,seedURL->A ,A->B, B->落地页,这样每次过滤之后都只会留下来我们最需要的url能够提高效率。