动手做webserver的核心之http解析

简介

webserver往小里说核心功能就是socket管理、url处理、http协议处理、业务dll管理等；下面简介绍一下http协议：超文本传输协议(HTTP)是一种通信协议，当时就是为web传输设计的一个基于tcp的协议；基于这个字面上理解，可以简单的点说就是用tcp来传输文本、数据的一种编解码格式。传输协议一般比如说定个长度+内容，或者以回车符作为结尾等方式。http协议是文本传输协议，所以也是采用回车符来结尾的方式来实现编码传输解析的；这里使用分析工具来简单分析一下http的基本格式：

从上图可以看出http的基本格式一般大体为成header和body,header的第一行是固定的status line，header与body之间用回车符+空行+回车符来分隔的

GET

webserver一般收到get请求如下：

1  GET /yswenli/p/8858669.html HTTP/1.1

2  Host www.cnblogs.com

3  User-Agent Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36  Accept image/webp,image/*,*/*;q=0.8

4  Referer https://www.cnblogs.com/yswenli/p/8858669.html

5  Accept-Encoding gzip, deflate, sdch

6  Accept-Language zh-CN,zh;q=0.8

也就是说如果发起了一个get请求的时候，webserver只是收到一个一个http header，直接全部收取后解析就行

POST

如果是一个post请求呢？查看html相关内容，可以看post有很多方式，总体上分成三种，一种是默认的application/x-www-form-urlencoded：

 POST http://www.example.com HTTP/1.1

 Content-Type: application/x-www-form-urlencoded;charset=utf-

 title=test&sub%5B%5D=&sub%5B%5D=&sub%5B%5D=

这种格式就是带有header和body两部分内容，解析的时候可以先按get收头部，然后再取body，body里面的参数取值是先urldecode再htmldecode就可以了。

第二种就是json、xml、plaine等：

 POST http://www.example.com HTTP/1.1

 Content-Type: application/json;charset=utf-

 {"title":"test","sub":[,,]}

这种和上面类似，不过在取body的时候直接读就行~

还有第三种multipart/form-data，这种模式格式比较复杂，它支持多键值对、多文件的方式，使用特定的boundary来分隔body

 POST http://www.example.com HTTP/1.1

 Content-Type:multipart/form-data; boundary=----WebKitFormBoundaryrGKCBY7qhFd3TrwA

 ------WebKitFormBoundaryrGKCBY7qhFd3TrwA

 Content-Disposition: form-data; name="name"

 yswenli

 ------WebKitFormBoundaryrGKCBY7qhFd3TrwA

 Content-Disposition: form-data; name="file"; filename="chrome.png"

 Content-Type: image/png

 PNG ... content of chrome.png ...

 ------WebKitFormBoundaryrGKCBY7qhFd3TrwA

 Content-Disposition: form-data; name="text"

 title

 ------WebKitFormBoundaryrGKCBY7qhFd3TrwA

 Content-Disposition: form-data; name="file"; filename="chrome2.png"

19 Content-Type: image/png

 PNG ... content of chrome.png ...

 ------WebKitFormBoundaryrGKCBY7qhFd3TrwA--

这种格式也是带有header和body两部分内容，解析的时候先按get收头部，然后再取body，body里面的内容先按boundry进行分割，然后再根据content-type进行判断取出文件内容。

TCP转HTTP

即然拿到相关数据格式，并研究分析了http的编码格式，下面就可以开始解码了。首先使用一个data来接收socket的tcp数据包，然后统一分析http包的header，直到截取到\r\n+""+\r\n为止。

             using (MemoryStream ms = new MemoryStream(buffer))

             {

                 ms.Position = ;

                 using (SAEA.Common.StreamReader streamReader = new SAEA.Common.StreamReader(ms))

                 {

                     while (true)

                     {

                         var str = streamReader.ReadLine();

                         if (str == string.Empty)

                         {

                             this.HeaderStr = _stringBuilder.ToString();

                             _stringBuilder.Clear();

                             break;

                         }

                         else if (str == null && string.IsNullOrEmpty(this.HeaderStr))

                         {

                             return false;

                         }

                         else

                             _stringBuilder.AppendLine(str);

                     }

                 }

             }

上面使用了一个自定义的StreamReader，原因是自带的那个无法定位Stream的Position；若已成功解析出http的header，接下来就可以根据header来判断提交的方式是get还是post等。

         /// <summary>

         /// 解析http请求的数据

         /// </summary>

         /// <param name="data"></param>

         /// <param name="onUnpackage"></param>

         public void GetRequest(byte[] data, Action<RequestDataReader> onUnpackage)

         {

             lock (_locker)

             {

                 _cache.AddRange(data);

                 var buffer = _cache.ToArray();

                 if (!isAnalysis)

                 {

                     isAnalysis = _httpStringReader.Analysis(buffer);

                 }

                 if (isAnalysis)

                 {

                     //post需要处理body

                     if (_httpStringReader.Method == ConstString.POSTStr)

                     {

                         var contentLen = _httpStringReader.ContentLength;

                         var positon = _httpStringReader.Position;

                         var totlalLen = contentLen + positon;

                         if (buffer.Length == totlalLen)

                         {

                             _httpStringReader.AnalysisBody(buffer);

                             onUnpackage.Invoke(_httpStringReader);

                             Array.Clear(buffer, , buffer.Length);

                             buffer = null;

                             _cache.Clear();

                             _cache = null;

                         }

                     }

                     else

                     {

                         onUnpackage.Invoke(_httpStringReader);

                         Array.Clear(buffer, , buffer.Length);

                         buffer = null;

                         _cache.Clear();

                         _cache = null;

                     }

                 }

             }

         }

已解析header的话，就可以根据上面说的相关post的http数据格式来解析body。

                switch (this.ContentType)

                 {

                     case ConstString.FORMENCTYPE1:

                         this.Forms = GetRequestForms(Encoding.UTF8.GetString(this.Body));

                         break;

                     case ConstString.FORMENCTYPE2:

                         //todo

                         using (MemoryStream ms = new MemoryStream(this.Body))

                         {

                             ms.Position = ;

                             using (var sr = new SAEA.Common.StreamReader(ms))

                             {

                                 StringBuilder sb = new StringBuilder();

                                 var str = string.Empty;

                                 do

                                 {

                                     str = sr.ReadLine();

                                     if (str == null)

                                     {

                                         break;

                                     }

                                     else

                                     {

                                         sb.AppendLine(str);

                                         if (str.IndexOf(CT) > -)

                                         {

                                             var filePart = GetRequestFormsWithMultiPart(sb.ToString());

                                             if (filePart != null)

                                             {

                                                 sr.ReadLine();

                                                 filePart.Data = sr.ReadData(sr.Position, this.Boundary);

                                                 if (filePart.Data != null)

                                                 {

                                                     filePart.Data = filePart.Data.Take(filePart.Data.Length - ).ToArray();

                                                 }

                                                 if (this.PostFiles == null)

                                                     this.PostFiles = new List<FilePart>();

                                                 this.PostFiles.Add(filePart);

                                             }

                                             sb.Clear();

                                             sr.ReadLine();

                                         }

                                     }

                                 }

                                 while (true);

                             }

                         }

                         break;

                     default:

                         this.Json = Encoding.UTF8.GetString(this.Body);

                         break;

                 }

至此，http的相关解析就完成了，详细的代码可参见：

1.HCode主要功能收取tcp包、

2.RequestDataReader主要功能是收到的tcp包近http协议转成webrequest、

3.HttpRequest主要功能是将转换的数据进行model赋值、

4.HttpContext主要功能是映射到处理业务并返回http数据

转载请标明本文来源：https://www.cnblogs.com/yswenli/p/9326453.html
更多内容欢迎star/fork作者的github：https://github.com/yswenli/SAEA
如果发现本文有什么问题和任何建议，也随时欢迎交流~

秒客网

动手做webserver的核心之http解析

简介

GET

POST

TCP转HTTP

相关文章