使用CURL进行模拟登录

时间:2024-04-29 14:37:55

在信息采集的时候,要采集的站点可能需要登录,这样使用简单的采集方式(例如file_get_contents)就无法做到了,我们可以利用PHP的CURL扩展库来进行模拟登录,下面给出代码示例:

  1. <?php
  2. $cookie_path = './'; //设置cookie保存路径
  3. //-----登录要提交的表单数据---------------
  4. $vars['username'] = '张三';
  5. $vars['pwd'] = '123';
  6. //-------------------------------------
  7. $method_post = true;
  8. //登录提交的url地址(表单中的action的绝对地址)
  9. $url = 'http://****.com/login';
  10. //----------------------------
  11. $ch = curl_init();
  12. $params[CURLOPT_URL] = $url; //请求url地址
  13. $params[CURLOPT_HEADER] = true; //是否返回响应头信息
  14. $params[CURLOPT_RETURNTRANSFER] = true; //是否将结果返回
  15. $params[CURLOPT_FOLLOWLOCATION] = true; //是否重定向
  16. $params[CURLOPT_USERAGENT] = 'Mozilla/5.0 (Windows NT 5.1; rv:9.0.1) Gecko/20100101 Firefox/9.0.1';
  17. $postfields = '';
  18. foreach ($vars as $key => $value){
  19. $postfields .= urlencode($key) . '=' . urlencode($value) . '&';
  20. }
  21. $params[CURLOPT_POST] = true;
  22. $params[CURLOPT_POSTFIELDS] = $postfields;
  23. //判断是否有cookie,有的话直接使用
  24. if (isset($_COOKIE['cookie_jar']) && ($_COOKIE['cookie_jar'] || is_file($_COOKIE['cookie_jar'])))
  25. {
  26. $params[CURLOPT_COOKIEFILE] = $_COOKIE['cookie_jar']; //这里判断cookie
  27. }
  28. else
  29. {
  30. $cookie_jar = tempnam($cookie_path, 'cookie'); //产生一个cookie文件
  31. $params[CURLOPT_COOKIEJAR] = $cookie_jar; //写入cookie信息
  32. setcookie('cookie_jar', $cookie_jar); //保存cookie路径
  33. }
  34. curl_setopt_array($ch, $params); //传入curl参数
  35. $content = curl_exec($ch); //执行
  36. echo '
  37. ';
  38. echo $content; //输出登录结果
  39. /*
  40. *如果输出的结果是Json格式则用下面方法得到所需内容
  41. *$obj = json_decode($content);
  42. *print_r($obj->{'所需内容'}) ;
  43. */
  44. /*
  45. //---------登录成功后再次请求其他地址,如果有多个可以循环执行---------
  46. echo '
  47. ';
  48. $nexturl = 'http://****.com/test';
  49. $params[CURLOPT_URL] = $nexturl;
  50. $params[CURLOPT_POSTFIELDS] = '';
  51. curl_setopt_array($ch, $params); //传入curl参数
  52. $content = curl_exec($ch); //执行
  53. echo $content; //输出请求结果
  54. //-------------------------------------------------
  55. */
  56. curl_close($ch); //关闭连接
  57. ?>

注:如果遇到无法请求https站点的情况,可能是因为无法验证证书或者域名,只要在curl_setopt_array前增加以下两项就可以了:

    1. $params[CURLOPT_SSL_VERIFYPEER] = false;
    2. $params[CURLOPT_SSL_VERIFYHOST] = false;