wget爬取网页问题

时间:2020-12-13 16:40:29
用wget工具爬取指定url的页面,我的url是www.baidu.com时,就没问题,要是这个url就爬不下来https://www.baidu.com/s?wd=1446544426%40qq.com&rsv_spt=1&rsv_iqid=0x93249e020001a818&issp=1&f=3&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=98050039_dg&rsv_enter=0,就是在百度首页里输入关键字后得到的页面,
我的wget参数为 -p -A txt -U Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3 -t 5 -T 120,,,跪求大神看看哪有问题

8 个解决方案

#1


大神快来啊!!!!

#2


没人吗!!!!!!

#3


你的错误信息是什么?

#4


看看浏览器发送请求的时候都带的什么
请求不要过于频繁
还有像3楼说的,看看返回结果是什么

#5


刚刚测试,只要url里有分隔符“/”就不行,这是咋回事?

#6


CString path="test";                       
path = path + _T("\\");
CString  output,tidyOutput,fstart, fend;
fstart.Format(_T("%d"), 1);                                                                   
fend.Format(_T("%d"), 5);                                                                       
output =  path + url + _T(".html");              
    CString wgetDir = _T(".\\wget.exe -L -U Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3 -t 5 -T 120 ");       
CString wgetSearchArg = wgetDir + url + _T(" -O \"") + output; 
这就是相关代码,url里存的就是域名

#7


楼主学会使用抓包软件比如wireshark正当时。

#8


wireshark我会用

#1


大神快来啊!!!!

#2


没人吗!!!!!!

#3


你的错误信息是什么?

#4


看看浏览器发送请求的时候都带的什么
请求不要过于频繁
还有像3楼说的,看看返回结果是什么

#5


刚刚测试,只要url里有分隔符“/”就不行,这是咋回事?

#6


CString path="test";                       
path = path + _T("\\");
CString  output,tidyOutput,fstart, fend;
fstart.Format(_T("%d"), 1);                                                                   
fend.Format(_T("%d"), 5);                                                                       
output =  path + url + _T(".html");              
    CString wgetDir = _T(".\\wget.exe -L -U Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3 -t 5 -T 120 ");       
CString wgetSearchArg = wgetDir + url + _T(" -O \"") + output; 
这就是相关代码,url里存的就是域名

#7


楼主学会使用抓包软件比如wireshark正当时。

#8


wireshark我会用