今天春哥技术博客给大家讲讲大名鼎鼎的火车采集器如何配置采集网站内容分页。
采集文章的时候,难免遇到文章有分页,本教程讲解下内容分页的采集。
在规则的第二步:采集内容规则左下方有个“分页获取规则”选项卡,用来设置分页。如下图:
全部列出模式适用于分页地址全部显示出来如下图:
上下页上n页下n页适用用分页地址列出一部分如下图
我们先说下上下页模式的分页,以采集这个地址/2013/0117/为例
在第一页我们查看分页代码的情况如下:
在第三页分页代码的情况如下:
在第五页分页代码的情况如下:
通过上面我们是否可以得到一个规律:当前页的源代码是“<strong>当前页码</strong></a>”然后紧接着的代码“<a href=下一页的地址>”就包含了下一页的地址
然后以“</a>”结束,也就是从页面源代码“<strong>当前页码</strong></a>”开始然后再以“</a>”结束,中间就包含了“下一页”的地址,这就是我们说的上下页模式,
原理就是找到当前页如何获取到下一页地址的源代码格式,然后我们把这个源代码格式填写到采集器里面如下图:
左侧空白框填写的是“<strong>(*)</strong></a>”其中当前页的页码我们用(*)代替,右侧的空白框我们写的是“</a>”来做为结束,中间的就是下一页地址。
“自动识别”:采集器会在上面的设置的范围内,自动匹配到分页地址。
“手动填写分页地址规则”:有的时候采集器识别分页的时候遇到无法识别或者识别的不是很准确,我们就可以把分页的格式写上去,来确保识别分页的正确性。
一般是我们先用“自动识别”如果获取不到我们就用“手动填写分页地址规则”。本例子中如果我们用“手动填写分页地址规则”可以设置如下:
因为上面我们说明了下一页的地址格式是“<a href=下一页的地址>”,其中我们需要的部分用[参数]代替。下面用[参数1][参数2]等等按照顺序和上面的[参数]一一对应。
以上分页就设置好了,现在我们设置采集内容的规则:
设置的规则一定要适用于后面的分页,然后不要忘记勾选“该标签在分页中匹配”,如果不勾选是不会采集分页地址的。
如何实现采集到的分页发布到自己网站上也是同样的分页,设置如下:
标签循环处理选项卡下面有个“分页内容连接代码”,在这里设置了连接代码,采集到的每页的内容就会以这个连接码连接在一起。
我们手动在自己网站发布文章的时候,需要分页的时候,我们都设置一个分页代码各个网站系统是不一样的,遇到分页代码就会分页,那么我们就可以把自己网站上
生成分页的代码写到这个“分页内容连接代码”就能实现分页效果了。
我们看下采集的效果:
现在说下全部列出模式的分页,如下图:
设置下分页开始和结束。其他设置和上面上下页是一样的。
备注:其实所有的分页都是可以使用上下页模式的,无论分页地址是否全部或者部分列出,根据上面讲到的原理,找到规律就可以了,我写分页全部用上下页模式
还希望大家不用太死板,灵活运用才能更好的解决问题,其实没有什么难的,分析的方法我在上面写的很清楚了,就按照这个来做就可以了。太死板的人,是帮不了你了,无视就好。