11 个解决方案
#1
限制下采集的频率,比如说 1000ms等待一下。
要不就使用代理或换ip.
如果采集速度过快,后两种也避免不了被封的命运。
要不就使用代理或换ip.
如果采集速度过快,后两种也避免不了被封的命运。
#2
Unable to process request at this time -- error 999
请问一下,这个错误是什么错..
请问一下,这个错误是什么错..
#3
应该是你的采集频率太快了,web服务器返回的错误代码。
具体到网上搜下“909, 错误信息",就应该会有结果。
具体到网上搜下“909, 错误信息",就应该会有结果。
#4
如果你采集的机器是ADSL拔号的,可以断线重拔号继续采集,如果是固定IP这种,那就想办法使用代理吧
#5
是固定IP
#6
我只用了6个线程..
#7
买个教训吧。连续抓两个小时的数据,显然是恶意抓取了。又是想把百度知道山寨成我知道吗?
#8
根据本人的经验,一个服务器一个线程主,也会出错。
我经手的程序采集时是几十到几百个线程(服务器内存cpu都配置稍高了点)一起采集,一个线程只采集一个站点, 中间还要加上延时。
居然让你采集了二个小时才封你,他们还真是有点照顾你了。
#9
一个服务器一个线程主,那你怎么判断 哪些已经爬过了..
#10
那不是更好判断了。
比多线程还容易判断。
抓过的网页都有保存的, 我们用的是url标识。
#11
学习,学习
#1
限制下采集的频率,比如说 1000ms等待一下。
要不就使用代理或换ip.
如果采集速度过快,后两种也避免不了被封的命运。
要不就使用代理或换ip.
如果采集速度过快,后两种也避免不了被封的命运。
#2
Unable to process request at this time -- error 999
请问一下,这个错误是什么错..
请问一下,这个错误是什么错..
#3
应该是你的采集频率太快了,web服务器返回的错误代码。
具体到网上搜下“909, 错误信息",就应该会有结果。
具体到网上搜下“909, 错误信息",就应该会有结果。
#4
如果你采集的机器是ADSL拔号的,可以断线重拔号继续采集,如果是固定IP这种,那就想办法使用代理吧
#5
是固定IP
#6
我只用了6个线程..
#7
买个教训吧。连续抓两个小时的数据,显然是恶意抓取了。又是想把百度知道山寨成我知道吗?
#8
根据本人的经验,一个服务器一个线程主,也会出错。
我经手的程序采集时是几十到几百个线程(服务器内存cpu都配置稍高了点)一起采集,一个线程只采集一个站点, 中间还要加上延时。
居然让你采集了二个小时才封你,他们还真是有点照顾你了。
#9
一个服务器一个线程主,那你怎么判断 哪些已经爬过了..
#10
那不是更好判断了。
比多线程还容易判断。
抓过的网页都有保存的, 我们用的是url标识。
#11
学习,学习