获取http的gzip内容，并解压问题已经解决，经验分享以及散分：）

问题:
入问题，问题答案立即呈现在您眼前！

寻找gzip
获取一个网页数据返回的编码类型是gzip，我该怎么解压缩
HTTP头获取？
如何用vb获取网络上的xml文件,并解析内容
关于GZIP的解码
怎样解gzip的压缩
请问Wininet是否可以进行Gzip的http传输，尤其是post的时候！如果可以如何实现？
关于GZIP格式解压缩HTTP数据包的问题,我使用ZLIB为什么必须先保存文件,内存解压缩出错
无法获取$_SERVER["HTTP_REFERER"]
关于GZIP的问题，高分求解！！
.....
等都是关于gzip解压的
问题：
提取http的gzip内容，并解压。
关键点：
1 提取http数据包的内容，主要是gzip格式的
2 数据包的重组
3 在内存中解压gzip数据

这两个周过来，都是在网上过来的，得到网友的帮助不少，很是感激，为了不让这个问题继续困扰后来的un_gziper，特写此文。
1 数据包内存的提取：
关键的地方是找到gzip内存的开始位置以及如何确定gzip内容的大小
开始位置：“Content-Encoding: gzip\r\n\r\n”
gzip大小：“Content-Length:”后面的就是了
2 数据包的重组，一般网页的内容很少是一个数据包可以装得下的，所以都得进行gzip之后再用多个数据包进行传输
关键的地方是：
get请求数据包的ack和seq与http返回数据包的ack，seq有密切的联系：
举例说明：
get请求：ack=0，seq=0
http1：seq=0,ack=584
http2: seq=1420,ack=584
...
简单的分析说明可以看出，我们的算法设计：
首先得到get请求的ack，返回的数据包的seq等于这个值，同时记下这个数据包的ack，后面进行分包发送的http的数据包的ack都是这个值，这个是关键点之一，同时综合
Content-Length就可以得到gzip的全部内容。
至此，原始数据提取完毕，该是如何解压的问题了
3解压gzip
我做了上面的1，2步以后将内容保存到文件里面，用gzip命令可以打开，验证了数据的完整性。
而后我采用了zlib提供的uncompress函数，和大多数的网友一样，都是犯了一个致命的错误，没有仔细的阅读zlib的文档！导致一次次无谓的识别！
事实上zlib格式和gzib格式是有差别的，而uncompress是用来解压zlib格式文件的，这就是为什么会出现用compress函数压缩的数据，在内存中可以直接用uncompress函数进行解压的，而就不能解压gzip数据的问题！

后来测试了zlib包里面的example例子，算是对zlib有了一点点的了解，应该用inflate类函数进行解压！
当然这样遇到了问题，格式不对!
后来在网上看到的帖子：gzip格式用inflate函数还不行，必需要用inflateInit2(&strm,   47); ！！！！！！！！！！！！！！！！！！
问题解决！
这里借用那位网友的源代码，同时对他表示感谢！

int   inflate_read(char   *source,int   len,char   **dest,int   gzip)
{
int   ret;
unsigned   have;
z_stream   strm;
unsigned   char   out[CHUNK];
int   totalsize   =   0;

/*   allocate   inflate   state   */
strm.zalloc   =   Z_NULL;
strm.zfree   =   Z_NULL;
strm.opaque   =   Z_NULL;
strm.avail_in   =   0;
strm.next_in   =   Z_NULL;

if(gzip)
ret   =   inflateInit2(&strm,   47);
else
ret   =   inflateInit(&strm);

if   (ret   !=   Z_OK)
return   ret;

strm.avail_in   =   len;
strm.next_in   =   source;

/*   run   inflate()   on   input   until   output   buffer   not   full   */
do   {
strm.avail_out   =   CHUNK;
strm.next_out   =   out;
ret   =   inflate(&strm,   Z_NO_FLUSH);
assert(ret   !=   Z_STREAM_ERROR);     /*   state   not   clobbered   */
switch   (ret)   {
case   Z_NEED_DICT:
ret   =   Z_DATA_ERROR;           /*   and   fall   through   */
case   Z_DATA_ERROR:
case   Z_MEM_ERROR:
inflateEnd(&strm);
return   ret;
}
have   =   CHUNK   -   strm.avail_out;
totalsize   +=   have;
*dest   =   realloc(*dest,totalsize);
memcpy(*dest   +   totalsize   -   have,out,have);
}   while   (strm.avail_out   ==   0);

/*   clean   up   and   return   */
(void)inflateEnd(&strm);
return   ret   ==   Z_STREAM_END   ?   Z_OK   :   Z_DATA_ERROR;
}

后记，这个过程是痛苦的，但也是幸福的！
这里我发起一个小小的倡议，对所有关注gzip解压的问题的网友：
我们都遇到了一个问题就是zlib的文档都是英文的，有个别网友翻译了开头的一小部分，但是这是不够的！
所以，我希望有兴趣的朋友可以一起来帮zlib的文档翻译成为中文！
有兴趣的可以加我！

26 个解决方案

#1

LZ好习惯，顶你！

#2

支持

#3

精神可嘉，赞。

#4

想了半天才反应过来第二行是CSDN的：输入问题，问题答案立即呈现在您眼前！

#5

文章有遗漏的地方，请各位指出啊，我想把这个弄成一个小专题，一下搞定，以后别再困扰后来的程序员了！

#6

感謝分享!

學習了

#7

千金散尽还复来，支持，顶

#8

文章中提到的http数据结尾的标志应该是：“\r\n\r\n”

#9

学习..........文件处理.......

#10

引用 5 楼 Squallxye 的回复:

文章有遗漏的地方，请各位指出啊，我想把这个弄成一个小专题，一下搞定，以后别再困扰后来的程序员了！

楼主的'分享'精神值得大家学习.
希望楼主的帖子能继续下去

#11

结贴了，看来得自己翻译zlib的英文说明文档了，一段时间后再上传上来和大家分享，敬请期待...

#12

顶

#13

好帖啊，偶今天也遇到这个问题鸟

#14

还有个问题：
对chunked类型的数据包，要注意几个地方：
1 得到gzip的头部，为10个字节
2 得到chunked的大小
3 得到chunked的数据部分

其实对应chunked类型的数据，它虽然是分块传输的，但是不一定一个数据包就恰好装了一块‘chunked’的数据，因此得注意
chunked的结构：
\r\n\r\nsize\r\ngzipheader\r\nsize\r\nchunkedData\r\nsize\r\n.......

#15

CHUNK是什么东东?

#16

获取一个网页数据返回的编码类型是gzip，我该怎么解压缩

#17

楼上兄弟，看我写的相关的帖子，用zlib库函数即可解压gzip数据

#18

这段代码如果要转成VB的代码应该如何写？

#19

还能顶吗

#20

引用 16 楼 dozec 的回复:

获取一个网页数据返回的编码类型是gzip，我该怎么解压缩

头文件是什么？

#21

居然不能看

#22

ing........

#23

学习了～，感谢LZ

#24

谢谢楼主！！！

#25

http://blog.sina.com.cn/s/blog_65db99840100kwh9.html
这篇文章讲的蛮清楚

#26

楼主伟大

#1

LZ好习惯，顶你！

#2

支持

#3

精神可嘉，赞。

#4

想了半天才反应过来第二行是CSDN的：输入问题，问题答案立即呈现在您眼前！

#5

文章有遗漏的地方，请各位指出啊，我想把这个弄成一个小专题，一下搞定，以后别再困扰后来的程序员了！

#6

感謝分享!

學習了

#7

千金散尽还复来，支持，顶

#8

文章中提到的http数据结尾的标志应该是：“\r\n\r\n”

#9

学习..........文件处理.......

#10

引用 5 楼 Squallxye 的回复:

文章有遗漏的地方，请各位指出啊，我想把这个弄成一个小专题，一下搞定，以后别再困扰后来的程序员了！

楼主的'分享'精神值得大家学习.
希望楼主的帖子能继续下去

#11

结贴了，看来得自己翻译zlib的英文说明文档了，一段时间后再上传上来和大家分享，敬请期待...

#12

顶

#13

好帖啊，偶今天也遇到这个问题鸟

#14

#15

CHUNK是什么东东?

#16

获取一个网页数据返回的编码类型是gzip，我该怎么解压缩

#17

楼上兄弟，看我写的相关的帖子，用zlib库函数即可解压gzip数据

#18

这段代码如果要转成VB的代码应该如何写？

#19

还能顶吗

#20

引用 16 楼 dozec 的回复:

获取一个网页数据返回的编码类型是gzip，我该怎么解压缩

头文件是什么？

#21

居然不能看

#22

ing........

#23

学习了～，感谢LZ

#24

谢谢楼主！！！

#25

http://blog.sina.com.cn/s/blog_65db99840100kwh9.html
这篇文章讲的蛮清楚

#26

楼主伟大

获取http的gzip内容，并解压 问题已经解决，经验分享以及散分：）

26 个解决方案

#1

#2

#3

#4

#5

#6

#7

#8

#9

#10

#11

#12

#13

#14

#15

#16

#17

#18

#19

#20

#21

#22

#23

#24

#25

#26

#1

#2

#3

#4

#5

#6

#7

#8

#9

#10

#11

#12

#13

#14

#15

#16

#17

#18

#19

#20

#21

#22

#23

#24

#25

#26

相关文章

获取http的gzip内容，并解压问题已经解决，经验分享以及散分：）