PHP的CURL正常抓取页面程序如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
$url = 'http://www.baidu.com' ;
$ch = curl_init();
curl_setopt( $ch , CURLOPT_URL, $url );
curl_setopt( $ch , CURLOPT_VERBOSE, true);
curl_setopt( $ch , CURLOPT_HEADER, true);
curl_setopt( $ch , CURLOPT_NOBODY, true);
curl_setopt( $ch , CURLOPT_CUSTOMREQUEST, 'GET' );
curl_setopt( $ch , CURLOPT_RETURNTRANSFER, true);
curl_setopt( $ch , CURLOPT_TIMEOUT, 20);
curl_setopt( $ch , CURLOPT_AUTOREFERER, true);
curl_setopt( $ch , CURLOPT_FOLLOWLOCATION, true);
$ret = curl_exec( $ch );
$info = curl_getinfo( $ch );
curl_close( $ch );
|
如果你抓取到的是302状态,是因为再抓取的过程中,有的跳转需要给下一个链接传递参数,而下一个链接同时也设置了如果没接收到相应的参数是为非法访问。
1
|
curl_setopt( $curl , CURLOPT_CUSTOMREQUEST, 'GET' );
|
显示就应该正常了。
上面用来抓取功能,几乎应该没问题的。你可以查一下CURLOPT_CUSTOMREQUEST相关资料。
使用一个自定义的请求信息来代替”GET”或”HEAD”作为HTTP请求。这对于执行”DELETE” 或者其他更隐蔽的HTTP请求。有效值如”GET”,”POST”,”CONNECT”等等。也就是说,不要在这里输入整个HTTP请求。例如输入”GET /index.html HTTP/1.0\r\n\r\n”是不正确的。