现象
Mqtt Consumer应该收到的消息少于预期,登录ActiveMQ的管理页面里的Topics,查看Messages Enqueued发现同样少于理应接收的数量。
定位问题
- 怀疑是TCP丢包,通过
netstat -s
命令观察发送消息前后Tcp信息的输出 - 对比两次Tcp信息的输出,发现packets pruned from receive queue because of socket buffer overrun与packets collapsed in receive queue due to low socket buffer等含有pruned或collapsed字样的数值在增多。
- collapsed是指tcp包溢出缓冲区,此时内核尝试通过减少内存开销以换取接收队列里的空闲空间,策略是CPU换内存
- pruned是指内核在collapsed时的尝试后,仍未有足够空间接收包则此时直接扔包
- 解释来自于Red Hat Enterprise Linux Network Performance Tuning Guide 页码22
解决方案
- 首先调整系统级tcp的缓冲区,修改/etc/sysctl.conf如下
net.core.rmem_max = 8388608
net.core.wmem_max = 8388608
net.core.rmem_default = 655360
net.core.wmem_default = 655360
net.ipv4.tcp_rmem = 4096 655360 8388608 # Tcp接收缓冲区,分别是最小、默认、最大
net.ipv4.tcp_wmem = 4096 655360 8388608 # Tcp发送缓冲区,分别是最小、默认、最大
net.ipv4.tcp_mem = 8388608 8388608 8388608
- 上述参数的解释参见How To: Network / TCP / UDP Tuning、Red Hat Enterprise Linux Network Performance Tuning
Guide、Linux Kernel Tuning - linux终端里输入
sysctl -p
使之生效 - 接着修改ActiveMQHome/conf/activemq.xml如下
<transportConnector name="mqtt"
uri="mqtt+nio://0.0.0.0:1883?maximumConnections=1000&
wireFormat.maxFrameSize=104857600&transport.ioBufferSize=1048576&
transport.socketBufferSize=4194304"/>
- 其中**+nio**表示启用**nio**方式的socket通信。Java里**nio**方式的socket比**bio**方式的更高效。mqtt默认采用**bio**。
- **socketBufferSize**调整缓冲区大小为4m,默认为64k,防止socket接收缓冲过小引发系统扔包
- **ioBufferSize**调整程序内部使用的缓冲区大小为1m,默认为8k,提高缓冲可以增加处理性能
代码分析
-
MQTTTransportFactory
继承自TcpTransportFactory
-
org.apache.activemq.transport.tcp.TcpTransportFactory#doBind
时解析URI带入的参数
-
-
org.apache.activemq.transport.mqtt.MQTTNIOTransportFactory#createTcpTransportServer
创建TcpTransportServer
-
org.apache.activemq.transport.tcp.TcpTransportServer#doRunWithServerSocketChannel
创建与客户端通信的Transport
- 默认的
socketBufferSize = 65536
- 默认的
ioBufferSize = 8192
- 默认的
-
Transport
受org.apache.activemq.transport.TransportAcceptListener#onAccept
处理-
Transport
被扔给org.apache.activemq.thread.TaskRunnerFactory
线程池 - 在线程池中创建
org.apache.activemq.broker.Connection
-
-
Connection
中的org.apache.activemq.broker.TransportConnection#start
启动整个TCP的链路
Windows下定位问题的要点
- windows下的
netstat -e -s
等价于linux下的netstat -s
- windows的socket缓冲区没有系统级限制,应用程序可以按需调整,资料来源于What is the size of a socket send buffer in Windows?、Design issues - Sending small data segments over TCP with Winsock