使用URL访问http服务器

时间:2023-03-08 16:24:15
使用URL访问http服务器

一、概念定义

1、URI - 通用资源标识符

URI通常由三部分组成,

  • 资源访问机制
  • 存放资源的主机名
  • 资源自身名称

如: http://www.baidu.com/html

http://www.baidu.com/html/talk.html

file://www.xxx.com/xxx/dirA

file://www.xxx.com/xxx/xxx.txt

2、URL - 统一资源定位符

uri的子集,Internet上描述信息资源的字符串

二、使用url

1、方式一:使用URL类

通过创建URL对象来获得InputStream,像操作本地文件一样操作网络资源。

URL url = new URL("http://www.baidu.com/html/talk.html");

InputStream is = url.openStream();

用java.net包来模拟浏览器客户端,这种方式代码量大, 要处理的情况很多。

更简单的,一般采用开源软件 HttpClient 来访问 URL.

2、使用HttpClient的GetMethod

2.1、引入依赖

使用URL访问http服务器

2.2、编写代码

使用URL访问http服务器

2.3、执行结果

使用URL访问http服务器

3、使用HttpClient的PostMethod

3.1、引入依赖

3.2、编写代码

使用URL访问http服务器

3.3、执行结果

同上!

4、使用HttpClient的PostMethod

4.1、引入依赖

4.2、编写代码

使用URL访问http服务器

4.3、执行结果

三、一个例子

1、抓取页面

1.1、编写代码

使用URL访问http服务器

1.2、执行结果

使用URL访问http服务器

2、处理http状态码

2.1、2xx

200 成功

204

2.2、3xx 通常进行转向

300 3xx的默认解释

301 重定向分配到的url

302 重定向到临时的url

304 请求的资源未更新,请求丢弃

使用URL访问http服务器

2.3、4xx

400 非法请求,请求丢弃

401 未授权,请求丢弃

403 禁止,请求丢弃

404 没有找到,请求丢弃

2.4、5xx

5xx 状态码 表示 服务器发现自己出现错误,不能继续执行该请求