一个应用上出现400响应码的请求增多,基本达到了千分之一,应用方请求我们分析原因。
首先看日志,检查400请求的ip的其它请求是否正常,排除伪造请求的攻击行为。发现用户的User-Agent分布正常,ip分布正常。所有400请求的响应
内容都是226字节,说明服务器返回给用户的内容是固定的。
400错误是用户请求错误,用户请求格式错误的原因基本可以分为两种,一种是因为网络通讯造成数据残缺,一种是违反了约定和数据格式或长度。
如果是自定义客户端,对协议的各种情况覆盖不完整,违反数据格式或长度的情况可能比较多,但是对于用户正常的通过浏览器访问的情况,违反
数据格式或长度的情况几率非常小。我们考虑数据超长的情况最可能的就是cookie超长,于是模拟了一个超长的cookie进行测试,浏览器虽然返回了
400响应码,但是content-length却是很大,包括了cookie的内容长度(apache的bug,现在已经升级到2.2.22解决了这个bug)。
于是怀疑是超时产生数据残缺引起的。
查看400的记录平均处理时间:
cat cookie_log|grep 'HTTP/1.1 \" 400 '|awk '{print $12}'|awk 'BEGIN{total=0;count=0} {total+=$1;count++} END{ print total/count}'
得到平均耗时为 6119.350ms.
查看前十万条记录平均耗时:
head -n100000 cookie_log|grep 'HTTP/1.1 \" 400 '|awk '{print $12}'|awk 'BEGIN{total=0;count=0} {total+=$1;count++} END{ print total/count}'
得到耗时为 48.325ms
说明400时平均耗时是正常的120多倍。
程序验证:
out.write("GET /testpath HTTP/1.1\r\n".getBytes());
out.flush();
Thread.sleep(30*1000); // 模拟超时
out.write(("Host: testhost\r\nUser-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:10.0) Gecko/20100101 Firefox/10.0\r\nAccept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\nAccept-Language: zh-cn,en-us;q=0.7,en;q=0.3\r\nAccept-Encoding: gzip, deflate\r\nConnection: keep-alive\r\nIf-Modified-Since: Thu, 27 Oct 2011 01:16:25 GMT\r\nCache-Control: max-age=0\r\n\r\n").getBytes());
out.flush();
得到如下响应:
HTTP/1.1 400 Bad Request
Date: Wed, 08 Feb 2012 08:36:52 GMT
Server: Apache
Content-Length: 226
Connection: close
Content-Type: text/html; charset=iso-8859-1
<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
<html><head> <title>400 Bad Request</title> </head>
<body>
<h1>Bad Request</h1>
<p>Your browser sent a request that this server could not understand.<br /> </p>
</body>
</html>
这个结果与线上情况非常吻合,所以基本怀疑是某些客户端发送请求时时间太长引起的。apache的处理时间是从收到第一个头开始( GET /xxxx \r\n),
无论该头正确与否,都开始计算处理时间,后面的所有内容接收都计入处理时间。