一、HTTP协议简介
超文本传输协议(Hypertext Transfer Protocol,简称HTTP)是应用层协议,自 1990 年起,HTTP 就已经被应用于 WWW 全球信息服务系统。
HTTP 是一种请求/响应式的协议。一个客户机与服务器建立连接后,发送一个请求给服务器;服务器接到请求后,给予相应的响应信息。
HTTP 的第一版本 HTTP/0.9是一种简单的用于网络间原始数据传输的协议;
HTTP/1.0由 RFC 1945 定义 ,在原 HTTP/0.9 的基础上,有了进一步的改进,允许消息以类 MIME 信息格式存 在,包括请求/响应范式中的已传输数据和修饰符等方面的信息;
HTTP/1.1(RFC2616) 的要求更加严格以确保服务的可靠性,增强了在HTTP/1.0 没有充分考虑到分层代理服务器、高速缓冲存储器、持久连接需求或虚拟主机等方面的效能;
安全增强版的 HTTP (即S-HTTP或HTTPS),则是HTTP协议与安全套接口层(SSL)的结合,使HTTP的协议数据在传输过程中更加安全
二、HTTP请求
http请求由三部分组成,分别是:请求行、消息报头、请求正文
请求行以一个方法符号开头,以空格分开,后面跟着请求的URI和协议的版本,格式如下:
Method Request-URI HTTP-Version CRLF 其中:
Method表示请求方法;
Request-URI是一个统一资源标识符;
HTTP-Version表示请求的HTTP协议版本;
CRLF表示回车和换行(除了作为结尾的CRLF外,不允许出现单独的CR或LF字符)。
http请求方法有多种,常见的有如下几个(请求方法名全为大写字母)
POST 在Request-URI所标识的资源后附加新的数据
HEAD 请求获取由Request-URI所标识的资源的响应消息报头
PUT 请求服务器存储一个资源,并用Request-URI作为其标识
DELETE 请求服务器删除Request-URI所标识的资源
TRACE 请求服务器回送收到的请求信息,主要用于测试或诊断
CONNECT 保留将来使用
OPTIONS 请求查询服务器的性能,或者查询与资源相关的选项和需求
下面是用于HTTP请求中的常用请求头字段:
Accept:用于高速服务器,客户机支持的数据类型
Accept-Charset:用于告诉服务器,客户机采用的编码格式
Accept-Encoding:用于告诉服务器,客户机支持的数据压缩格式
Accept-Language:客户机的语言环境
Host:客户机通过这个头高速服务器,想访问的主机名
If-Modified-Since:客户机通过这个头告诉服务器,资源的缓存时间
Referer:客户机通过这个头告诉服务器,它是从哪个资源来访问服务器的(防盗链)
User-Agent:客户机通过这个头告诉服务器,客户机的软件环境
Cookie:客户机通过这个头可以向服务器带数据
Connection:处理完这次请求后是否断开连接还是继续保持连接
Date:当前时间值
HTTP响应头:
Location:这个头配合302状态码使用,用于告诉客户找谁。
Server:服务器通过这个头告诉浏览器服务器的类型。
Content-Encoding:服务器通过这个头告诉浏览器数据的压缩格式。
Content-Length:服务器通过这个头告诉浏览器回送数据的长度
Content-Type:服务器通过这个头告诉浏览器回送数据的类型
Last-Modified:告诉浏览器当前资源的最后缓存时间
Refresh:告诉浏览器隔多久刷新一次
Content-Disposition:告诉浏览器以下载方式打开数据
Transfer-Encoding:告诉浏览器数据的传送格式
ETag:缓存相关的头
后面三种禁止浏览器缓存的头字段:
Expires:告诉浏览器把回送的资源缓存多长时间 -1或0则是不缓存
Cache-Control:no-cache
Pragma:no-cache
服务器通过以上两个头,也就是控制浏览器不要缓存数据
实体内容:代表服务器向客户端回送的数据
下面是HTTP GET 请求的请求头:
//请求url:http://down.360safe.com/inst.exe /*Request*/
HEAD /inst.exe HTTP/1.1\r\n"
"Host: down.360safe.com\r\n"
"User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13\r\n"
"Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\n"
"Accept-Language: zh-cn,zh;q=0.5\r\n"
"Accept-Encoding: gzip,deflate\r\n"
"Accept-Charset: GB2312,utf-8;q=0.7,*;q=0.7\r\n"
"Connection: close\r\n"
"\r\n /*Reponse*/
HTTP/1.1 OK
Server: nginx
Date: Sat, Jul :: GMT
Content-Type: application/octet-stream
Content-Length:
Last-Modified: Fri, Jan :: GMT
Connection: close
Expires: Sat, Jul :: GMT
Cache-Control: max-age=
Accept-Ranges: bytes
三、组装HTTP HEAD报文
下面使我们自己组包HEAD报文从原站取head,下面贴出代码
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <stdbool.h>
#include <sys/socket.h>
#include <sys/types.h>
#include <netinet/in.h>
#include <unistd.h>
#include <net/if.h>
#include <netdb.h> //gethostbyname #define STATUS_OK 0
#define STATUS_NOK 1
#define BUFF_MAX_LEN 1024
#define HOST_IP_LEN 32 #define HTTP_HEAD \
"HEAD /%s HTTP/1.1\r\n" \
"Host: %s\r\n" \
"User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13\r\n" \
"Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\n" \
"Accept-Language: zh-cn,zh;q=0.5\r\n" \
"Accept-Encoding: gzip,deflate\r\n" \
"Accept-Charset: GB2312,utf-8;q=0.7,*;q=0.7\r\n" \
"Connection: close\r\n" \
"\r\n" int getIPbyDomain(const char* domain, char* ip);
int parse_http_url(const char *url, char *domain, char *header); /**********************************************************
* get host ip by domain
**********************************************************/
int getIPbyDomain(const char* domain, char* ip)
{
struct hostent *answer; answer = gethostbyname(domain);
if (NULL == answer)
{
return STATUS_NOK;
}
if (answer->h_addr_list[])
inet_ntop(AF_INET, (answer->h_addr_list)[], ip, );
else
return STATUS_NOK;
return STATUS_OK;
} /**********************************************************
* Send a http package to detect network connecting status
**********************************************************/
int parse_http_url(const char *url, char *domain, char *header)
{
char *ptr = NULL;
char *host = NULL;
char *head = NULL;
char buff[BUFF_MAX_LEN] = {}; if (NULL == url || NULL == domain || NULL == header)
return STATUS_NOK; memset(buff, , sizeof(buff));
strcpy(buff, url); host = strtok(buff + , "/");
head = strtok(NULL, "\0"); if (NULL == host)
return STATUS_NOK;
if (NULL == head)
head = "/"; strcpy(domain, host);
strcpy(header, head); return STATUS_OK;
} int http_head_request(const char *url)
{
char *p = NULL;
unsigned int dport = ;
int fd, oneopt = ;
char buf[BUFF_MAX_LEN] = {};
char data[BUFF_MAX_LEN * ] = {};
char host[BUFF_MAX_LEN] = {};
char head[BUFF_MAX_LEN] = {};
char hostip[HOST_IP_LEN] = {};
struct timeval timeout = {,};
struct sockaddr_in client;
struct hostent *hptr;
struct in_addr addr; if (url == NULL)
return STATUS_NOK;
if ((fd = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP)) < )
return STATUS_NOK; memset(&client, , sizeof(client));
if (STATUS_NOK == parse_http_url(url, host, head))
return STATUS_NOK; if (getIPbyDomain(host, hostip) != STATUS_OK)
{
close(fd);
return STATUS_NOK;
} client.sin_family = AF_INET;
client.sin_port = htons(dport);
client.sin_addr.s_addr = inet_addr(hostip); if (setsockopt(fd, SOL_SOCKET, SO_REUSEADDR, &oneopt, sizeof(oneopt)) < ||
setsockopt(fd, SOL_SOCKET, SO_SNDTIMEO, (char *)&timeout, sizeof(struct timeval)) < ||
setsockopt(fd, SOL_SOCKET, SO_RCVTIMEO, (char *)&timeout, sizeof(struct timeval)) < )
{
close(fd);
return STATUS_NOK;
} if (connect(fd, (struct sockaddr *)&client, sizeof(struct sockaddr)) < )
{
close(fd);
return STATUS_NOK;
} sprintf(data, HTTP_HEAD, head, host);
if (send(fd, (void*)data, strlen(data), ) < )
{
close(fd);
return STATUS_NOK;
}
printf("-------------Request-----------------\n");
printf("%s\n", data); if (recv(fd, buf, sizeof(buf), ) < )
{
close(fd);
return STATUS_NOK;
}
printf("-------------Reponse-----------------\n");
printf("%s\n", buf); close(fd);
return STATUS_OK;
} int main(int argc, char **argv)
{
if (argc < ) {
printf("using %s <url>\n", argv[]);
return -;
}
http_head_request(argv[]); return ;
}
运行结果如下:
[root@localhost]# ./test http://down.360safe.com/inst.exe -------------Request-----------------
HEAD /inst.exe HTTP/1.1
Host: down.360safe.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.13) Gecko/ Firefox/3.6.
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: zh-cn,zh;q=0.5
Accept-Encoding: gzip,deflate
Accept-Charset: GB2312,utf-8;q=0.7,*;q=0.7
Connection: close -------------Reponse-----------------
HTTP/1.1 200 OK
Server: nginx
Date: Sat, 23 Jul 2016 07:56:13 GMT
Content-Type: application/octet-stream
Content-Length: 1430256
Last-Modified: Fri, 22 Jan 2016 14:49:16 GMT
Connection: close
Expires: Sat, 23 Jul 2016 15:56:13 GMT
Cache-Control: max-age=28800
Accept-Ranges: bytes
GET方法与HEAD相同,只是将method改为GET,其他内容都一样
GET: 请求指定的页面信息,并返回实体主体。
HEAD: 只请求页面的首部。
下面贴几中HTTP 常见的返回状态
常见HTTP状态码
200 OK
301 Moved Permanently
302 Found
304 Not Modified
307 Temporary Redirect
400 Bad Request
401 Unauthorized
403 Forbidden
404 Not Found
410 Gone
500 Internal Server Error
501 Not Implemented
100 Continue
初始的请求已经接受,客户应当继续发送请求的其余部分
101 Switching Protocols
服务器将遵从客户的请求转换到另外一种协议
200 OK
一切正常,对GET和POST请求的应答文档跟在后面
201 Created
服务器已经创建了文档,Location头给出了它的URL。
202 Accepted
已经接受请求,但处理尚未完成。
203 Non-Authoritative Information
文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝
204 No Content
没有新文档,浏览器应该继续显示原来的文档。如果用户定期地刷新页面,而Servlet可以确定用户文档足够新,这个状态代码是很有用的
205 Reset Content
没有新的内容,但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容
206 Partial Content
客户发送了一个带有Range头的GET请求,服务器完成了它
300 Multiple Choices
客户请求的文档可以在多个位置找到,这些位置已经在返回的文档内列出。如果服务器要提出优先选择,则应该在Location应答头指明。
301 Moved Permanently
客户请求的文档在其他地方,新的URL在Location头中给出,浏览器应该自动地访问新的URL。
302 Found
类似于301,但新的URL应该被视为临时性的替代,而不是永久性的。
303 See Other
类似于301/302,不同之处在于,如果原来的请求是POST,Location头指定的重定向目标文档应该通过GET提取
304 Not Modified
客户端有缓冲的文档并发出了一个条件性的请求(一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档)。服务器告诉客户,原来缓冲的文档还可以继续使用。
305 Use Proxy
客户请求的文档应该通过Location头所指明的代理服务器提取
307 Temporary Redirect
和302(Found)相同。许多浏览器会错误地响应302应答进行重定向,即使原来的请求是 POST,即使它实际上只能在POST请求的应答是303时才能重定向。由于这个原因,HTTP 1.1新增了307,以便更加清除地区分几个状态代码: 当出现303应答时,浏览器可以跟随重定向的GET和POST请求;如果是307应答,则浏览器只能跟随对GET请求的重定向。
400 Bad Request
请求出现语法错误。
401 Unauthorized
客户试图未经授权访问受密码保护的页面。应答中会包含一个WWW-Authenticate头,浏览器据此显示用户名字/密码对话框,然后在填写合适的Authorization头后再次发出请求。
403 Forbidden
资源不可用。
404 Not Found
无法找到指定位置的资源
405 Method Not Allowed
请求方法(GET、POST、HEAD、Delete、PUT、TRACE等)对指定的资源不适用。
406 Not Acceptable
指定的资源已经找到,但它的MIME类型和客户在Accpet头中所指定的不兼容
407 Proxy Authentication Required
类似于401,表示客户必须先经过代理服务器的授权。
408 Request Timeout
在服务器许可的等待时间内,客户一直没有发出任何请求。客户可以在以后重复同一请求。
409 Conflict
通常和PUT请求有关。由于请求和资源的当前状态相冲突,因此请求不能成功。
410 Gone
所请求的文档已经不再可用,而且服务器不知道应该重定向到哪一个地址。它和404的不同在于,返回407表示文档永久地离开了指定的位置,而404表示由于未知的原因文档不可用。
411 Length Required
服务器不能处理请求,除非客户发送一个Content-Length头。
412 Precondition Failed
请求头中指定的一些前提条件失败
413 Request Entity Too Large
目标文档的大小超过服务器当前愿意处理的大小。如果服务器认为自己能够稍后再处理该请求,则应该提供一个Retry-After头
414 Request URI Too Long
URI太长
416 Requested Range Not Satisfiable
服务器不能满足客户在请求中指定的Range头
500 Internal Server Error
服务器遇到了意料不到的情况,不能完成客户的请求
501 Not Implemented
服务器不支持实现请求所需要的功能。例如,客户发出了一个服务器不支持的PUT请求
502 Bad Gateway
服务器作为网关或者代理时,为了完成请求访问下一个服务器,但该服务器返回了非法的应答
503 Service Unavailable
服务器由于维护或者负载过重未能应答。例如,Servlet可能在数据库连接池已满的情况下返回503。服务器返回503时可以提供一个Retry-After头
504 Gateway Timeout
由作为代理或网关的服务器使用,表示不能及时地从远程服务器获得应答
505 HTTP Version Not Supported
服务器不支持请求中所指明的HTTP版本