HTTP协议GET HEAD简单介绍

时间:2024-10-22 17:33:32

一、HTTP协议简介

  超文本传输协议(Hypertext Transfer Protocol,简称HTTP)是应用层协议,自 1990 年起,HTTP 就已经被应用于 WWW 全球信息服务系统。
  HTTP 是一种请求/响应式的协议。一个客户机与服务器建立连接后,发送一个请求给服务器;服务器接到请求后,给予相应的响应信息。
  HTTP 的第一版本 HTTP/0.9是一种简单的用于网络间原始数据传输的协议;
  HTTP/1.0由 RFC 1945 定义 ,在原 HTTP/0.9 的基础上,有了进一步的改进,允许消息以类 MIME 信息格式存 在,包括请求/响应范式中的已传输数据和修饰符等方面的信息;
  HTTP/1.1(RFC2616) 的要求更加严格以确保服务的可靠性,增强了在HTTP/1.0 没有充分考虑到分层代理服务器、高速缓冲存储器、持久连接需求或虚拟主机等方面的效能;
  安全增强版的 HTTP (即S-HTTP或HTTPS),则是HTTP协议与安全套接口层(SSL)的结合,使HTTP的协议数据在传输过程中更加安全

二、HTTP请求

   http请求由三部分组成,分别是:请求行、消息报头、请求正文

  请求行以一个方法符号开头,以空格分开,后面跟着请求的URI和协议的版本,格式如下:

  Method Request-URI HTTP-Version CRLF 其中:

Method表示请求方法;
  Request-URI是一个统一资源标识符;
  HTTP-Version表示请求的HTTP协议版本;
  CRLF表示回车和换行(除了作为结尾的CRLF外,不允许出现单独的CR或LF字符)。

  http请求方法有多种,常见的有如下几个(请求方法名全为大写字母)
  POST    在Request-URI所标识的资源后附加新的数据
  HEAD    请求获取由Request-URI所标识的资源的响应消息报头
  PUT     请求服务器存储一个资源,并用Request-URI作为其标识
  DELETE  请求服务器删除Request-URI所标识的资源
  TRACE   请求服务器回送收到的请求信息,主要用于测试或诊断
  CONNECT 保留将来使用
  OPTIONS 请求查询服务器的性能,或者查询与资源相关的选项和需求

  下面是用于HTTP请求中的常用请求头字段:
  Accept:用于高速服务器,客户机支持的数据类型
  Accept-Charset:用于告诉服务器,客户机采用的编码格式
  Accept-Encoding:用于告诉服务器,客户机支持的数据压缩格式
  Accept-Language:客户机的语言环境
  Host:客户机通过这个头高速服务器,想访问的主机名
  If-Modified-Since:客户机通过这个头告诉服务器,资源的缓存时间
  Referer:客户机通过这个头告诉服务器,它是从哪个资源来访问服务器的(防盗链)
  User-Agent:客户机通过这个头告诉服务器,客户机的软件环境
  Cookie:客户机通过这个头可以向服务器带数据
  Connection:处理完这次请求后是否断开连接还是继续保持连接
  Date:当前时间值

  HTTP响应头:

  Location:这个头配合302状态码使用,用于告诉客户找谁。
  Server:服务器通过这个头告诉浏览器服务器的类型。
  Content-Encoding:服务器通过这个头告诉浏览器数据的压缩格式。
  Content-Length:服务器通过这个头告诉浏览器回送数据的长度
  Content-Type:服务器通过这个头告诉浏览器回送数据的类型
  Last-Modified:告诉浏览器当前资源的最后缓存时间
  Refresh:告诉浏览器隔多久刷新一次
  Content-Disposition:告诉浏览器以下载方式打开数据
  Transfer-Encoding:告诉浏览器数据的传送格式
  ETag:缓存相关的头

  后面三种禁止浏览器缓存的头字段:
  Expires:告诉浏览器把回送的资源缓存多长时间 -1或0则是不缓存
  Cache-Control:no-cache
  Pragma:no-cache
  服务器通过以上两个头,也就是控制浏览器不要缓存数据
  实体内容:代表服务器向客户端回送的数据

  下面是HTTP GET 请求的请求头:

 //请求url:http://down.360safe.com/inst.exe

 /*Request*/
HEAD /inst.exe HTTP/1.1\r\n"
"Host: down.360safe.com\r\n"
"User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13\r\n"
"Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\n"
"Accept-Language: zh-cn,zh;q=0.5\r\n"
"Accept-Encoding: gzip,deflate\r\n"
"Accept-Charset: GB2312,utf-8;q=0.7,*;q=0.7\r\n"
"Connection: close\r\n"
"\r\n /*Reponse*/
HTTP/1.1 OK
Server: nginx
Date: Sat, Jul :: GMT
Content-Type: application/octet-stream
Content-Length:
Last-Modified: Fri, Jan :: GMT
Connection: close
Expires: Sat, Jul :: GMT
Cache-Control: max-age=
Accept-Ranges: bytes

三、组装HTTP HEAD报文

下面使我们自己组包HEAD报文从原站取head,下面贴出代码

 #include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <stdbool.h>
#include <sys/socket.h>
#include <sys/types.h>
#include <netinet/in.h>
#include <unistd.h>
#include <net/if.h>
#include <netdb.h> //gethostbyname #define STATUS_OK 0
#define STATUS_NOK 1
#define BUFF_MAX_LEN 1024
#define HOST_IP_LEN 32 #define HTTP_HEAD \
"HEAD /%s HTTP/1.1\r\n" \
"Host: %s\r\n" \
"User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13\r\n" \
"Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\n" \
"Accept-Language: zh-cn,zh;q=0.5\r\n" \
"Accept-Encoding: gzip,deflate\r\n" \
"Accept-Charset: GB2312,utf-8;q=0.7,*;q=0.7\r\n" \
"Connection: close\r\n" \
"\r\n" int getIPbyDomain(const char* domain, char* ip);
int parse_http_url(const char *url, char *domain, char *header); /**********************************************************
* get host ip by domain
**********************************************************/
int getIPbyDomain(const char* domain, char* ip)
{
struct hostent *answer; answer = gethostbyname(domain);
if (NULL == answer)
{
return STATUS_NOK;
}
if (answer->h_addr_list[])
inet_ntop(AF_INET, (answer->h_addr_list)[], ip, );
else
return STATUS_NOK;
return STATUS_OK;
} /**********************************************************
* Send a http package to detect network connecting status
**********************************************************/
int parse_http_url(const char *url, char *domain, char *header)
{
char *ptr = NULL;
char *host = NULL;
char *head = NULL;
char buff[BUFF_MAX_LEN] = {}; if (NULL == url || NULL == domain || NULL == header)
return STATUS_NOK; memset(buff, , sizeof(buff));
strcpy(buff, url); host = strtok(buff + , "/");
head = strtok(NULL, "\0"); if (NULL == host)
return STATUS_NOK;
if (NULL == head)
head = "/"; strcpy(domain, host);
strcpy(header, head); return STATUS_OK;
} int http_head_request(const char *url)
{
char *p = NULL;
unsigned int dport = ;
int fd, oneopt = ;
char buf[BUFF_MAX_LEN] = {};
char data[BUFF_MAX_LEN * ] = {};
char host[BUFF_MAX_LEN] = {};
char head[BUFF_MAX_LEN] = {};
char hostip[HOST_IP_LEN] = {};
struct timeval timeout = {,};
struct sockaddr_in client;
struct hostent *hptr;
struct in_addr addr; if (url == NULL)
return STATUS_NOK;
if ((fd = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP)) < )
return STATUS_NOK; memset(&client, , sizeof(client));
if (STATUS_NOK == parse_http_url(url, host, head))
return STATUS_NOK; if (getIPbyDomain(host, hostip) != STATUS_OK)
{
close(fd);
return STATUS_NOK;
} client.sin_family = AF_INET;
client.sin_port = htons(dport);
client.sin_addr.s_addr = inet_addr(hostip); if (setsockopt(fd, SOL_SOCKET, SO_REUSEADDR, &oneopt, sizeof(oneopt)) < ||
setsockopt(fd, SOL_SOCKET, SO_SNDTIMEO, (char *)&timeout, sizeof(struct timeval)) < ||
setsockopt(fd, SOL_SOCKET, SO_RCVTIMEO, (char *)&timeout, sizeof(struct timeval)) < )
{
close(fd);
return STATUS_NOK;
} if (connect(fd, (struct sockaddr *)&client, sizeof(struct sockaddr)) < )
{
close(fd);
return STATUS_NOK;
} sprintf(data, HTTP_HEAD, head, host);
if (send(fd, (void*)data, strlen(data), ) < )
{
close(fd);
return STATUS_NOK;
}
printf("-------------Request-----------------\n");
printf("%s\n", data); if (recv(fd, buf, sizeof(buf), ) < )
{
close(fd);
return STATUS_NOK;
}
printf("-------------Reponse-----------------\n");
printf("%s\n", buf); close(fd);
return STATUS_OK;
} int main(int argc, char **argv)
{
if (argc < ) {
printf("using %s <url>\n", argv[]);
return -;
}
http_head_request(argv[]); return ;
}

运行结果如下:

 [root@localhost]# ./test  http://down.360safe.com/inst.exe

 -------------Request-----------------
HEAD /inst.exe HTTP/1.1
Host: down.360safe.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.13) Gecko/ Firefox/3.6.
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: zh-cn,zh;q=0.5
Accept-Encoding: gzip,deflate
Accept-Charset: GB2312,utf-8;q=0.7,*;q=0.7
Connection: close -------------Reponse-----------------
HTTP/1.1 200 OK
Server: nginx
Date: Sat, 23 Jul 2016 07:56:13 GMT
Content-Type: application/octet-stream
Content-Length: 1430256
Last-Modified: Fri, 22 Jan 2016 14:49:16 GMT
Connection: close
Expires: Sat, 23 Jul 2016 15:56:13 GMT
Cache-Control: max-age=28800
Accept-Ranges: bytes

GET方法与HEAD相同,只是将method改为GET,其他内容都一样

GET: 请求指定的页面信息,并返回实体主体。
 HEAD: 只请求页面的首部。

下面贴几中HTTP 常见的返回状态

常见HTTP状态码

200 OK

301 Moved Permanently

302 Found

304 Not Modified

307 Temporary Redirect

400 Bad Request

401 Unauthorized

403 Forbidden

404 Not Found

410 Gone

500 Internal Server Error

501 Not Implemented

100 Continue

初始的请求已经接受,客户应当继续发送请求的其余部分

101 Switching Protocols

服务器将遵从客户的请求转换到另外一种协议

200 OK

一切正常,对GET和POST请求的应答文档跟在后面

201 Created

服务器已经创建了文档,Location头给出了它的URL。

202 Accepted

已经接受请求,但处理尚未完成。

203 Non-Authoritative Information

文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝

204 No Content

没有新文档,浏览器应该继续显示原来的文档。如果用户定期地刷新页面,而Servlet可以确定用户文档足够新,这个状态代码是很有用的

205 Reset Content

没有新的内容,但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容

206 Partial Content

客户发送了一个带有Range头的GET请求,服务器完成了它

300 Multiple Choices

客户请求的文档可以在多个位置找到,这些位置已经在返回的文档内列出。如果服务器要提出优先选择,则应该在Location应答头指明。

301 Moved Permanently

客户请求的文档在其他地方,新的URL在Location头中给出,浏览器应该自动地访问新的URL。

302 Found

类似于301,但新的URL应该被视为临时性的替代,而不是永久性的。

303 See Other

类似于301/302,不同之处在于,如果原来的请求是POST,Location头指定的重定向目标文档应该通过GET提取

304 Not Modified

客户端有缓冲的文档并发出了一个条件性的请求(一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档)。服务器告诉客户,原来缓冲的文档还可以继续使用。

305 Use Proxy

客户请求的文档应该通过Location头所指明的代理服务器提取

307 Temporary Redirect

和302(Found)相同。许多浏览器会错误地响应302应答进行重定向,即使原来的请求是 POST,即使它实际上只能在POST请求的应答是303时才能重定向。由于这个原因,HTTP 1.1新增了307,以便更加清除地区分几个状态代码: 当出现303应答时,浏览器可以跟随重定向的GET和POST请求;如果是307应答,则浏览器只能跟随对GET请求的重定向。

400 Bad Request

请求出现语法错误。

401 Unauthorized

客户试图未经授权访问受密码保护的页面。应答中会包含一个WWW-Authenticate头,浏览器据此显示用户名字/密码对话框,然后在填写合适的Authorization头后再次发出请求。

403 Forbidden

资源不可用。

404 Not Found

无法找到指定位置的资源

405 Method Not Allowed

请求方法(GET、POST、HEAD、Delete、PUT、TRACE等)对指定的资源不适用。

406 Not Acceptable

指定的资源已经找到,但它的MIME类型和客户在Accpet头中所指定的不兼容

407 Proxy Authentication Required

类似于401,表示客户必须先经过代理服务器的授权。

408 Request Timeout

在服务器许可的等待时间内,客户一直没有发出任何请求。客户可以在以后重复同一请求。

409 Conflict

通常和PUT请求有关。由于请求和资源的当前状态相冲突,因此请求不能成功。

410 Gone

所请求的文档已经不再可用,而且服务器不知道应该重定向到哪一个地址。它和404的不同在于,返回407表示文档永久地离开了指定的位置,而404表示由于未知的原因文档不可用。

411 Length Required

服务器不能处理请求,除非客户发送一个Content-Length头。

412 Precondition Failed

请求头中指定的一些前提条件失败

413 Request Entity Too Large

目标文档的大小超过服务器当前愿意处理的大小。如果服务器认为自己能够稍后再处理该请求,则应该提供一个Retry-After头

414 Request URI Too Long

URI太长

416 Requested Range Not Satisfiable

服务器不能满足客户在请求中指定的Range头

500 Internal Server Error

服务器遇到了意料不到的情况,不能完成客户的请求

501 Not Implemented

服务器不支持实现请求所需要的功能。例如,客户发出了一个服务器不支持的PUT请求

502 Bad Gateway

服务器作为网关或者代理时,为了完成请求访问下一个服务器,但该服务器返回了非法的应答

503 Service Unavailable

服务器由于维护或者负载过重未能应答。例如,Servlet可能在数据库连接池已满的情况下返回503。服务器返回503时可以提供一个Retry-After头

504 Gateway Timeout

由作为代理或网关的服务器使用,表示不能及时地从远程服务器获得应答

505 HTTP Version Not Supported

服务器不支持请求中所指明的HTTP版本