ET采集主要逻辑是做好这三个步骤,然后开始工作
采集配置
基本设置一般不用修改
列表设置:列表网址,可能有些人不知道什么是列表网址,就是你所要采集网址放在一个页面就是列表网址,比如我们常说的栏目,一个论坛的版块:
列表页肯定不是一页,一般是有规律的,就需要设置成自动列表,具体规则参考ET
列表区域选择:一个网页大的去了,为了快速找到你想要采集的页面,需要制定区域,
一定要找唯一属性的,一般是找id 之类的,中间是你区域内容
列表分析规则:对列表进行分析,用标记替换找到我们需要的文章标题,文章网址,文章缩略图,常见的是包含a标签的,必须有单独标记
文章网址合成:根据列表分析得到的网址,合成你所要采集的页面的网址
基本设置(编码、http请求)——》列表设置(列表网址-》列表区域规则——》列表分析规则)-->文章网址合成
数据项设置-》关联整理组-》
经过两个星期的学习和使用,基本从规则到接口都已经对et 很熟悉了,希望在学习et过程中有不懂的朋友可以再下面留言,我看到会及时回复。。
********************************************** 分割线(当时学习的一些记录) ***************************************************
1,列表网址
<%s=循环标志,起始编号,结束编号,步长,当前编号%>
子循环标记 <%l=loop,起始编号,结束编号,步长,当前编号%>
是否循环 noloop 不循环 loop 循环
自动递增或递减的起始值,只能填写数字,需补零位数应与原字符串一致,例如"05"或"005";
当起始编号比结束编号大则步进方向为递减,否则为递增
2,列表区域规则
[列表区域规则]用于指定包含文章条目列表的代码段,起到缩小分析范围、准确定位的作用
[列表区域规则]可以选填,当此项不填写时,将以整个采集到的列表页源码为列表分析对象,填写本项后,将以本项中区域标记<%content%>所表示的源码作为列表分析对象;
变量标记
标记代码为<%var%>,用于表示源码文本中不需要采集的、连续的、零到任意数量的不确定字符串
3,列表分析规则
[列表分析规则]为必填项,本项用以从[列表区域规则]确定的网页代码范围中分析出文章条目的网址、标题、缩略图等信息
文章地址:<%fileid%> 文章标题:<%title%> 缩略图 <%litpic%> 变量标记 <%var%>
4,文章网址合成
http://www.southmoney.com/<%fileid%>.html
1,数据项设置页
数据项用于定义从采集页面获取的各项信息,除[标题]、[缩略图]、[文章网址](即发布规则中的[文章网址])这三项数据可在列表设置页获取外,要采集发布其他信息,必须在此为其建立并设置数据项
数据项处理流程为:分析数据->字符解码->数据整理->字符解码->网址修正补全->伪原创->关键词检查->敏感词检查->去首尾空白->检查空值;
匹配多条 是为了匹配到回复内容
因为在内容中,只有文字和图片是我们需要的
在匹配 div的时候要由内而外,
经过测试,找到没有匹配到得标签,添加进去替换
附件下载,在数据项设置正文包含文件, 文件下载设置启用下载,
通常设置发布配置,文件上传设置ftp等
******************************************************************
et 采集器 分页
采集方式:
分页区域规则
找到包含分页区域的范围,替换区域标记
分页链接规则
单条链接的规则,选择更准确的字符串,
分页网址合成
逻辑分页
当前网址分解(也就是当前采集的内容页面)
分页增量 一般是从第二页开始
分页网址合成
测试无效特征码是否返回什么,如果没有就是用有效特征码
************************************************************
错误代码 1 : 文章在发布网站重复
错误代码 2 : 采集文章网页失败
错误代码 3 : 标题分析处理异常
错误代码 4 : 访问检查网址失败
错误代码 5 : 采集文章分页失败
错误代码 6 : 数据项分析出错
错误代码 7 : 附件下载异常
错误代码 8 : 附件上传异常
错误代码 9 : 文章发布异常
错误代码 10 : 文章回复异常