HttpClient 学习整理

时间:2021-10-03 05:02:15
HttpClient 是我最近想研究的东西,以前想过的一些应用没能有很好的实现,发现这个开源项目之后就有点眉目了,令人头痛的cookie问题还是有办法解决滴。在网上整理了一些东西,写得很好,寄放在这里。

HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java.net 包中已经提供了访问 HTTP 协议的基本功能,但是对于大部分应用程序来说,JDK 库本身提供的功能还不够丰富和灵活。HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。HttpClient 已经应用在很多的项目中,比如 Apache Jakarta 上很著名的另外两个开源项目 Cactus 和 HTMLUnit 都使用了 HttpClient,更多使用 HttpClient 的应用可以参见http://wiki.apache.org/jakarta-httpclient/HttpClientPowered。HttpClient 项目非常活跃,使用的人还是非常多的。目前 HttpClient 版本是在 2005.10.11 发布的 3.0 RC4 。

------------------------------------

应用HttpClient来对付各种顽固的WEB服务器

一般的情况下我们都是使用IE或者Navigator浏览器来访问一个WEB服务器,用来浏览页面查看信息或者提交一些数据等等。所访问的这些页面 有的仅仅是一些普通的页面,有的需要用户登录后方可使用,或者需要认证以及是一些通过加密方式传输,例如HTTPS。目前我们使用的浏览器处理这些情况都 不会构成问题。不过你可能在某些时候需要通过程序来访问这样的一些页面,比如从别人的网页中“偷”一些数据;利用某些站点提供的页面来完成某种功能,例如 说我们想知道某个手机号码的归属地而我们自己又没有这样的数据,因此只好借助其他公司已有的网站来完成这个功能,这个时候我们需要向网页提交手机号码并从 返回的页面中解析出我们想要的数据来。如果对方仅仅是一个很简单的页面,那我们的程序会很简单,本文也就没有必要大张旗鼓的在这里浪费口舌。但是考虑到一 些服务授权的问题,很多公司提供的页面往往并不是可以通过一个简单的URL就可以访问的,而必须经过注册然后登录后方可使用提供服务的页面,这个时候就涉 及到COOKIE问题的处理。我们知道目前流行的动态网页技术例如ASP、JSP无不是通过COOKIE来处理会话信息的。为了使我们的程序能使用别人所 提供的服务页面,就要求程序首先登录后再访问服务页面,这过程就需要自行处理cookie,想想当你用 java.net.HttpURLConnection来完成这些功能时是多么恐怖的事情啊!况且这仅仅是我们所说的顽固的WEB服务器中的一个很常见的 “顽固”!再有如通过HTTP来上传文件呢?不需要头疼,这些问题有了“它”就很容易解决了!

我们不可能列举所有可能的顽固,我们会针对几种最常见的问题进行处理。当然了,正如前面说到的,如果我们自己使用 java.net.HttpURLConnection来搞定这些问题是很恐怖的事情,因此在开始之前我们先要介绍一下一个开放源码的项目,这个项目就是 Apache开源组织中的httpclient,它隶属于Jakarta的commons项目,目前的版本是2.0RC2。commons下本来已经有一 个net的子项目,但是又把httpclient单独提出来,可见http服务器的访问绝非易事。

Commons-httpclient项目就是专门设计来简化HTTP客户端与服务器进行各种通讯编程。通过它可以让原来很头疼的事情现在轻松的解 决,例如你不再管是HTTP或者HTTPS的通讯方式,告诉它你想使用HTTPS方式,剩下的事情交给httpclient替你完成。本文会针对我们在编 写HTTP客户端程序时经常碰到的几个问题进行分别介绍如何使用httpclient来解决它们,为了让读者更快的熟悉这个项目我们最开始先给出一个简单 的例子来读取一个网页的内容,然后循序渐进解决掉前进中的所有问题。

1. 读取网页(HTTP/HTTPS)内容

下面是我们给出的一个简单的例子用来访问某个页面

01 /*
02 * Created on 2003-12-14 by Liudong
03 */
04 package http.demo;
05 import java.io.IOException;
06 import org.apache.commons.httpclient.*;
07 import org.apache.commons.httpclient.methods.*;
08 /**
09  *最简单的HTTP客户端,用来演示通过GET或者POST方式访问某个页面
10   *@authorLiudong
11 */
12 public class SimpleClient {
13 public static void main(String[] args) throws IOException
14 {
15   HttpClient client = new HttpClient();
16       // 设置代理服务器地址和端口     
17       //client.getHostConfiguration().setProxy("proxy_host_addr",proxy_port);
18       // 使用 GET 方法 ,如果服务器需要通过 HTTPS 连接,那只需要将下面 URL 中的 http 换成 https
19          HttpMethodmethod=newGetMethod("http://java.sun.com");
20       //使用POST方法
21       //HttpMethod method = new PostMethod("http://java.sun.com");
22       client.executeMethod(method);
23  
24       //打印服务器返回的状态
25        System.out.println(method.getStatusLine());
26       //打印返回的信息
27       System.out.println(method.getResponseBodyAsString());
28       //释放连接
29       method.releaseConnection();
30    }
31 }

在这个例子中首先创建一个HTTP客户端(HttpClient)的实例,然后选择提交的方法是GET或者POST,最 后在HttpClient实例上执行提交的方法,最后从所选择的提交方法中读取服务器反馈回来的结果。这就是使用HttpClient的基本流程。其实用 一行代码也就可以搞定整个请求的过程,非常的简单!

2. 以GET或者POST方式向网页提交参数

其实前面一个最简单的示例中我们已经介绍了如何使用GET或者POST方式来请求一个页面,本小节与之不同的是多了提交时设定页面所需的参数,我们知道如 果是GET的请求方式,那么所有参数都直接放到页面的URL后面用问号与页面地址隔开,每个参数用&隔开,例如:http://java.sun.com/?name=liudong&mobile=123456,但是当使用POST方法时就会稍微有一点点麻烦。本小节的例子演示向如何查询手机号码所在的城市,代码如下:

01 /*
02 * Created on 2003-12-7 by Liudong
03 */
04 package http.demo;
05 import java.io.IOException;
06 import org.apache.commons.httpclient.*;
07 import org.apache.commons.httpclient.methods.*;
08 /**
09  *提交参数演示
10  *该程序连接到一个用于查询手机号码所属地的页面
11  *以便查询号码段1330227所在的省份以及城市
12  *@authorLiudong
13  */
14 public class SimpleHttpClient {
15    public static void main(String[] args) throws IOException {
16       HttpClient client = new HttpClient();
17       client.getHostConfiguration().setHost( "www.imobile.com.cn" , 80, "http" );
18       method = getPostMethod();    // 使用 POST 方式提交数据
19       client.executeMethod(method);   //打印服务器返回的状态
20       System.out.println(method.getStatusLine());   //打印结果页面
21       Stringresponse=newString(method.getResponseBodyAsString().getBytes("8859_1"));
22  
23       //打印返回的信息
24       System.out.println(response);
25       method.releaseConnection();
26    }
27    /**
28     * 使用 GET 方式提交数据
29     *@return
30     */
31  
32    privatestaticHttpMethodgetGetMethod(){
33       returnnewGetMethod("/simcard.php?simcard=1330227");
34    }
35     /**
36      * 使用 POST 方式提交数据
37      *@return
38      */
39     private static HttpMethod getPostMethod(){
40       PostMethod post = new PostMethod( "/simcard.php" );
41       NameValuePair simcard = new NameValuePair( "simcard" "1330227" );
42       post.setRequestBody( new NameValuePair[] { simcard});
43       return post;
44    }
45 }

在上面的例子中页面http://www.imobile.com.cn/simcard.php需 要一个参数是simcard,这个参数值为手机号码段,即手机号码的前七位,服务器会返回提交的手机号码对应的省份、城市以及其他详细信息。GET的提交 方法只需要在URL后加入参数信息,而POST则需要通过NameValuePair类来设置参数名称和它所对应的值。

3. 处理页面重定向

在JSP/Servlet编程中response.sendRedirect方法就是使用HTTP协议中的重定向机制。它与JSP中 的<jsp:forward …>的区别在于后者是在服务器中实现页面的跳转,也就是说应用容器加载了所要跳转的页面的内容并返回给客户端;而前者是返回一个状态码,这些状态码 的可能值见下表,然后客户端读取需要跳转到的页面的URL并重新加载新的页面。就是这样一个过程,所以我们编程的时候就要通过 HttpMethod.getStatusCode()方法判断返回值是否为下表中的某个值来判断是否需要跳转。如果已经确认需要进行页面跳转了,那么可 以通过读取HTTP头中的location属性来获取新的地址。

状态码

对应 HttpServletResponse 的常量

详细描述

301

SC_MOVED_PERMANENTLY

页面已经永久移到另外一个新地址

302

SC_MOVED_TEMPORARILY

页面暂时移动到另外一个新的地址

303

SC_SEE_OTHER

客户端请求的地址必须通过另外的 URL 来访问

307

SC_TEMPORARY_REDIRECT

同 SC_MOVED_TEMPORARILY

下面的代码片段演示如何处理页面的重定向

01 client.executeMethod(post);
02 System.out.println(post.getStatusLine().toString());
03 post.releaseConnection();
04 // 检查是否重定向
05 int statuscode = post.getStatusCode();
06 if ((statuscode == HttpStatus.SC_MOVED_TEMPORARILY) || (statuscode == HttpStatus.SC_MOVED_PERMANENTLY) || (statuscode == HttpStatus.SC_SEE_OTHER) || (statuscode == HttpStatus.SC_TEMPORARY_REDIRECT)) {
07 // 读取新的 URL 地址
08    Headerheader=post.getResponseHeader("location");
09    if (header!=null){
10       Stringnewuri=header.getValue();
11       if((newuri==null)||(newuri.equals("")))
12          newuri="/";
13          GetMethodredirect=newGetMethod(newuri);
14          client.executeMethod(redirect);
15          System.out.println("Redirect:"+redirect.getStatusLine().toString());
16          redirect.releaseConnection();
17    }else
18     System.out.println("Invalid redirect");
19 }

我们可以自行编写两个JSP页面,其中一个页面用response.sendRedirect方法重定向到另外一个页面用来测试上面的例子。

4. 模拟输入用户名和口令进行登录

本小节应该说是HTTP客户端编程中最常碰见的问题,很多网站的内容都只是对注册用户可见的,这种情况下就必须要求使用正确的用户名和口令登录成功后,方可浏览到想要的页面。因为HTTP协议是无状态的,也就是连接的有效期只限于当前请求,请求内容结束后连接就关闭了。在这种情况下为了保存用户的登录信息必须使用到Cookie机制。以JSP/Servlet为例,当浏览器请求一个JSP或者是Servlet的页面时,应用服务器会返回一个参数,名为jsessionid(因不同应用服务器而异),值是一个较长的唯一字符串的Cookie,这个字符串值也就是当前访问该站点的会话标识。浏览器在每访问该站点的其他页面时候都要带上jsessionid这样的Cookie信息,应用服务器根据读取这个会话标识来获取对应的会话信息。

对于需要用户登录的网站,一般在用户登录成功后会将用户资料保存在服务器的会话中,这样当访问到其他的页面时候,应用服务器根据浏览器送上的Cookie中读取当前请求对应的会话标识以获得对应的会话信息,然后就可以判断用户资料是否存在于会话信息中,如果存在则允许访问页面,否则跳转到登录页面中要求用户输入帐号和口令进行登录。这就是一般使用JSP开发网站在处理用户登录的比较通用的方法。

这样一来,对于HTTP的客户端来讲,如果要访问一个受保护的页面时就必须模拟浏览器所做的工作,首先就是请求登录页面,然后读取Cookie值;再次请求登录页面并加入登录页所需的每个参数;最后就是请求最终所需的页面。当然在除第一次请求外其他的请求都需要附带上Cookie信息以便服务器能判断当前请求是否已经通过验证。说了这么多,可是如果你使用httpclient的话,你甚至连一行代码都无需增加,你只需要先传递登录信息执行登录过程,然后直接访问想要的页面,跟访问一个普通的页面没有任何区别,因为类HttpClient已经帮你做了所有该做的事情了,太棒了!下面的例子实现了这样一个访问的过程。

01 /*
02 * Created on 2003-12-7 by Liudong
03 */
04 package http.demo;
05 import org.apache.commons.httpclient.*;
06 import org.apache.commons.httpclient.cookie.*;
07 import org.apache.commons.httpclient.methods.*;
08  
09 /**
10  * 用来演示登录表单的示例
11  * @author Liudong
12  */
13 public class FormLoginDemo {
14    static final String LOGON_SITE = "localhost" ;
15    static final int     LOGON_PORT = 8080;
16  
17    public static void main(String[] args) throws Exception{
18       HttpClient client = new HttpClient();
19       client.getHostConfiguration().setHost(LOGON_SITE, LOGON_PORT);
20  
21       // 模拟登录页面 login.jsp->main.jsp
22       PostMethod post = new PostMethod( "/main.jsp" );
23       NameValuePair name = new NameValuePair( "name" "ld" );
24       NameValuePair pass = new NameValuePair( "password" "ld" );
25       post.setRequestBody( new NameValuePair[]{name,pass});
26       int status = client.executeMethod(post);
27       System.out.println(post.getResponseBodyAsString());
28       post.releaseConnection();
29  
30       // 查看 cookie 信息
31       CookieSpec cookiespec = CookiePolicy.getDefaultSpec();
32       Cookie[] cookies = cookiespec.match(LOGON_SITE, LOGON_PORT, "/" false , client.getState().getCookies());
33       if (cookies.length == 0) {
34          System.out.println( "None" );
35       else {
36          for int i = 0; i < cookies.length; i++) {
37             System.out.println(cookies[i].toString());
38          }
39       }
40  
41       // 访问所需的页面 main2.jsp
42       GetMethodget=newGetMethod("/main2.jsp");
43       client.executeMethod(get);
44       System.out.println(get.getResponseBodyAsString());
45       get.releaseConnection();
46    }
47 }

. 提交XML格式参数

提交XML格式的参数很简单,仅仅是一个提交时候的ContentType问题,下面的例子演示从文件文件中读取XML信息并提交给服务器的过程,该过程可以用来测试Web服务。

01 import java.io.File;
02 import java.io.FileInputStream;
03 import org.apache.commons.httpclient.HttpClient;
04 import org.apache.commons.httpclient.methods.EntityEnclosingMethod;
05 import org.apache.commons.httpclient.methods.PostMethod;
06 /**
07  *用来演示提交XML格式数据的例子
08 */
09 public class PostXMLClient {
10  
11    public static void main(String[] args) throws Exception {
12       File input = new File(“test.xml”);
13       PostMethod post = new PostMethod(“http://localhost:8080/httpclient/xml.jsp”);
14  
15       // 设置请求的内容直接从文件中读取
16       post.setRequestBody( new FileInputStream(input));
17       if (input.length() < Integer.MAX_VALUE)
18          post.setRequestContentLength(input.length());
19       else
20          post.setRequestContentLength(EntityEnclosingMethod.CONTENT_LENGTH_CHUNKED);
21  
22       // 指定请求内容的类型
23       post.setRequestHeader( "Content-type" "text/xml; charset=GBK" );
24       HttpClient httpclient = new HttpClient();
25       int result = httpclient.executeMethod(post);
26       System.out.println( "Response status code: " + result);
27       System.out.println( "Response body: " );
28       System.out.println(post.getResponseBodyAsString());
29       post.releaseConnection();
30    }
31 }

6. 通过HTTP上传文件

httpclient使用了单独的一个HttpMethod子类来处理文件的上传,这个类就是MultipartPostMethod,该类已经封装了文件上传的细节,我们要做的仅仅是告诉它我们要上传文件的全路径即可,下面的代码片段演示如何使用这个类。

MultipartPostMethod filePost = new MultipartPostMethod(targetURL); 
filePost.addParameter( "fileName" , targetFilePath); 
HttpClient client = new HttpClient();

// 由于要上传的文件可能比较大 , 因此在此设置最大的连接超时时间 
client.getHttpConnectionManager(). getParams().setConnectionTimeout(5000); 
int status = client.executeMethod(filePost);

上面代码中,targetFilePath即为要上传的文件所在的路径。

7. 访问启用认证的页面

我们经常会碰到这样的页面,当访问它的时候会弹出一个浏览器的对话框要求输入用户名和密码后方可,这种用户认证的方式不同于我们在前面介绍的基于表 单的用户身份验证。这是HTTP的认证策略,httpclient支持三种认证方式包括:基本、摘要以及NTLM认证。其中基本认证最简单、通用但也最不 安全;摘要认证是在HTTP 1.1中加入的认证方式,而NTLM则是微软公司定义的而不是通用的规范,最新版本的NTLM是比摘要认证还要安全的一种方式。

下面例子是从httpclient的CVS服务器中下载的,它简单演示如何访问一个认证保护的页面:

01 import org.apache.commons.httpclient.HttpClient;
02 import org.apache.commons.httpclient.UsernamePasswordCredentials;
03 import org.apache.commons.httpclient.methods.GetMethod;
04  
05 public class BasicAuthenticationExample {
06  
07    public BasicAuthenticationExample() {
08    }
09  
10    public static void main(String[] args) throws Exception {
11       HttpClient client = new HttpClient();
12       client.getState().setCredentials( "www.verisign.com" "realm" new UsernamePasswordCredentials( "username" "password" ) );
13  
14       GetMethod get = new GetMethod( "https://www.verisign.com/products/index.html" );
15       get.setDoAuthentication( true );
16       int status = client.executeMethod( get );
17       System.out.println(status+ "\n" + get.getResponseBodyAsString());
18       get.releaseConnection();
19    }
20 }

8. 多线程模式下使用httpclient

多线程同时访问httpclient,例如同时从一个站点上下载多个文件。对于同一个HttpConnection同一个时间只能有一个线程访问, 为了保证多线程工作环境下不产生冲突,httpclient使用了一个多线程连接管理器的 类:MultiThreadedHttpConnectionManager,要使用这个类很简单,只需要在构造HttpClient实例的时候传入即 可,代码如下:

MultiThreadedHttpConnectionManager connectionManager = new MultiThreadedHttpConnectionManager();

HttpClient client = new HttpClient(connectionManager);

以后尽管访问client实例即可。

HttpClient 学习整理的更多相关文章

  1. HttpClient学习整理

    HttpClient简介HttpClient 功能介绍    1. 读取网页(HTTP/HTTPS)内容    2.使用POST方式提交数据(httpClient3)    3. 处理页面重定向    ...

  2. HttpClient 学习整理【转】

    转自 http://www.blogjava.net/Alpha/archive/2007/01/22/95216.html HttpClient 是我最近想研究的东西,以前想过的一些应用没能有很好的 ...

  3. HttpClient 学习整理 &lpar;转&rpar;

    source:http://www.blogjava.net/Alpha/archive/2007/01/22/95216.html HttpClient 是我最近想研究的东西,以前想过的一些应用没能 ...

  4. HttpClient学习整理&lpar;一&rpar;

    Http协议的重要性相信不用我多说了,HttpClient相比传统JDK自带的URLConnection,增加了易用性和灵活性(具体区别,日后我们再讨论),它不仅是客户端发送Http请求变得容易,而且 ...

  5. java apache commons HttpClient发送get和post请求的学习整理&lpar;转&rpar;

    文章转自:http://blog.csdn.net/ambitiontan/archive/2006/01/06/572171.aspx HttpClient 是我最近想研究的东西,以前想过的一些应用 ...

  6. js数组学习整理

    原文地址:js数组学习整理 常用的js数组操作方法及原理 1.声明数组的方式 var colors = new Array();//空的数组 var colors = new Array(3); // ...

  7. TweenMax学习整理--特有属性

    TweenMax学习整理--特有属性   构造函数:TweenMax(target:Object, duration:Number, vars:Object) target:Object -- 需要缓 ...

  8. &excl;&excl;对python列表学习整理列表及数组详细介绍

    1.Python的数组分三种类型:(详细见 http://blog.sina.com.cn/s/blog_6b783cbd0100q2ba.html) (1) list 普通的链表,初始化后可以通过特 ...

  9. Java设计模式(学习整理)---命令模式

    设计模式之Command(学习整理) 1.Command定义 不少Command模式的代码都是针对图形界面的,它实际就是菜单命令,我们在一个下拉菜单选择一个命令时,然后会执行一些动作. 将这些命令封装 ...

随机推荐

  1. Caffe源码解析4: Data&lowbar;layer

    转载请注明出处,楼燚(yì)航的blog,http://home.cnblogs.com/louyihang-loves-baiyan/ data_layer应该是网络的最底层,主要是将数据送给blo ...

  2. windows本地script脚本恶意代码分析(带注释)

    //经过样本分析和抓取,该恶意程序是款下载者木马. //不懂的可以百度百科. http://baike.baidu.com/link?url=0dNqFM8QIjEQhD71ofElH0wHGktIQ ...

  3. Eclipse的FindBugs插件

      Eclipse的FindBugs插件     问题提出: 当我们编写完代码,做完单元测试等各种测试后就提交正式运行,只能由运行的系统来检测我们代码是否有问题了,代码中隐藏的错误在系统运行的过程中被 ...

  4. 移动端头像上传AJax input file

    jQuery中的Ajax不能支持 input file 需要用ajaxupload.js但是先需要引入jQuery文件 <script src="__PUBLIC__/js/ajaxf ...

  5. Cookie 知识点再整理

    1. Cookie  是存储在客户端 内存 或者 硬盘(例如火狐把 Cookie 存储在 C:\Documents and Settings\用户名\Application Data\Mozilla\ ...

  6. Jersey&lpar;1&period;19&period;1&rpar; - Extracting Request Parameters

    Parameters of a resource method may be annotated with parameter-based annotations to extract informa ...

  7. php 四种基础算法 ---- 选择排序法

    2. 选择排序法: 选择排序法思路: 每次选择一个相应的元素,然后将其放到指定的位置 代码: function select_sort($arr) {//实现思路 双重循环完成,外层控制轮数,当前的最 ...

  8. 从Unity中的Attribute到AOP&lpar;六&rpar;

    本文将重点对Unity剩下常用的Attribute进行讲解,其他不常用的Attribute各位可以自行去官方文档查阅. 首先是UnityEngine命名空间下的. ColorUsage,这个主要作用于 ...

  9. Netty事件监听和处理(下)

    上一篇 介绍了事件监听.责任链模型.socket接口和IO模型.线程模型等基本概念,以及Netty的整体结构,这篇就来说下Netty三大核心模块之一:事件监听和处理. 前面提到,Netty是一个NIO ...

  10. Linux 源码阅读 进程管理

    Linux 源码阅读 进程管理 版本:2.6.24 1.准备知识 1.1 Linux系统中,进程是最小的调度单位: 1.2 PCB数据结构:task_struct (Location:linux-2. ...