一直用火车头做为数据采集的工具,用它来采集发布网站内容还真不是很多!最近用火车头采集了一些文章时,发现在本地测试都没问题,但是发布到网站后却只有一部分,不完整!而且不完整的内容是没有规律的!
简单的分析了一下,火车头的内容发布是通过GET,也就是在URL传值数据!如果内容中有“&”字符,就会导致数据意外截断!
如何避免这一问题呢?
在火车头程序中的发布设置中,有一个选项叫:数据发布时进行UrlEncode处理。
这样就可以解决发布时的内容不完整问题了!
一直用火车头做为数据采集的工具,用它来采集发布网站内容还真不是很多!最近用火车头采集了一些文章时,发现在本地测试都没问题,但是发布到网站后却只有一部分,不完整!而且不完整的内容是没有规律的!
简单的分析了一下,火车头的内容发布是通过GET,也就是在URL传值数据!如果内容中有“&”字符,就会导致数据意外截断!
如何避免这一问题呢?
在火车头程序中的发布设置中,有一个选项叫:数据发布时进行UrlEncode处理。
这样就可以解决发布时的内容不完整问题了!