1.HTTP——因特网的多媒体信使
HTTP使用的是可靠的数据传输协议,能确保数据在传输过程中不会损坏或混乱。
2.Web客户端和服务器
Web服务器(HTTP服务器)根据客户端的请求返回服务端的数据。(动态/静态资源,有着不同的格式)
2.1媒体类型
HTTP给Web传输的对象使用MIME类型区分数据格式。
MIME类型是一种文本标记。
格式:主要的对象类型/特定的子类型
- HTML:text/html
- 普通的ASCII文本:text/plain
- JPEG图片:image/jpeg
- gif:image/gif
2.2URI
服务器资源名:统一资源标识符(Uniform Resource Identifier,URI)---->网上的邮政地址,在世界范围内唯一标识并定位信息资源
URI有两种形式:URL和URN
2.3URL
统一资源定位符(URL)--->描述一台特定服务器上某资源的特定位置。说明如何从一个精确、固定的位置获取资源。
URL的格式:方案+地址+资源
方案:scheme,URL的第一部分,图中的HTTPS协议
地址:服务器的因特网地址
资源:Web服务器上的某个资源
3.事务
HTTP事务=请求命令+响应结果(通过HTTP报文的格式化数据块进行的)
3.1方法
HTTP方法:不同的请求命令,告诉服务器要执行的动作。
GET,PUT,DELETE,POST,HEAD
3.2状态码
HTTP报文返回携带一个状态码,三位数字的代码。
除了三位数字状态码,还会发送一条解释性的原因短语文本。
4.报文
由字符串组成,是纯文本
HTTP报文分为三部分:起始行+首部字段+主体
5.连接
5.1TCP/IP
TCP提供:
- 无差错的数据传输
- 按序传输
- 未分段的数据流
5.2连接,IP地址及端口号
HTTP客户端向服务器发送报文之前,需用IP地址和端口号在客户端和服务器之间建立一条TCP/IP连接
(类似于给公司办公室某个人打电话---------先拨公司号码(IP地址),再拨分机号(端口号))
使用Telnet
Telnet可将键盘连接到某个目标TCP端口。并将TCP端口的输出返回到显示屏上。用于远程终端会话
6.协议版本
HTTP协议有几个版本
HTTP/0.9 HTTP/1.0 HTTP/1.1 HTTP/2.0
7.Web的结构组件
- 代理 客户端和服务器之间的HTTP中间实体
- 缓存 HTTP的仓库,保存常用页面的副本到离客户端近的地方
- 网关 连接其他应用程序的特殊Web服务器
- 隧道 对HTTP通信报文进行盲转发的特殊代理
- Agent代理 发起自动HTTP请求的半智能Web客户端
7.1代理
接收并转发客户端的HTTP请求到服务器(可能会修改后转发)
应用程序就是一个代理,代表用户访问服务器
7.2缓存
Web缓存(Web cache)/代理缓存(proxy cache)----->一种特殊的HTTP代理服务器
7.3网关
网关(gateway):特殊的服务器,作为其他服务器的中间实体使用。
用于HTTP流量转换其他的协议。
7.4隧道
隧道(tunnel):两条连接之间对原始数据进行盲转发的HTTP应用程序
HTTP隧道的常见用途:HTTPS连接(HTTP连接承载加密的SSL流量)
7.5Agent代理
代表用户发起HTTP连接的客户端程序
爬虫就是一种自动用户Agent代理