int listen(int sockfd, int backlog);
其backlog是一个建议值,用于指定内部的队列大小,以控制同时建立的连接请求数量。
针对控制连接这个需求,有两种方法实现这个backlog:- 单一队列来控制连接。队列中既包含了SYN_RCVD的状态,也包含了ESTABLISHED状态。accept只处理后面一种状态。如果三次握手中的ACK到来,则会在队列中直接改其状态。显然,这时backlog为这一队列的长度。
- 两个单独队列来控制。两种状态分别实现单独的队列。显然这种情况下,两个队列都必须有明确的大小限制,backlog只能限制其中一个。
backlog
argument on TCP sockets changed with Linux 2.2. Now it specifies the queue length forcompletely established sockets waiting to be accepted, instead of the number of incomplete connection requests. The maximum length of the queue for incomplete sockets can be set using /proc/sys/net/ipv4/tcp_max_syn_backlog
.
可见,与UNP书中描述并不一致。是上述的第二种实现方法:两个队列,其中未完成队列长度限制以内核参数来表示,而已完成队列才是backlog。
cat /proc/sys/net/ipv4/tcp_max_syn_backlog
2048
具体代码:
TCP收到最终ACK后,重建一个sock:
tcp_v4_syn_recv_sock函数中:
1 if (sk_acceptq_is_full(sk))
2 goto exit_overflow;
3
4 newsk = tcp_create_openreq_child(sk, req, skb);
5 if (!newsk)
6 goto exit_nonewsk;
7
可见,在新生成一个socket时,先判断是否full。
static inline bool sk_acceptq_is_full(const struct sock *sk)
{
return sk->sk_ack_backlog > sk->sk_max_ack_backlog;
}
/*
* Move a socket into listening state.
*/
int inet_listen(struct socket *sock, int backlog)中:
sk->sk_max_ack_backlog = backlog;
backlog传给了sk_max_ack_backlog。可见,此backlog用作判断complete queue。
在往外层,调用处:1 child = inet_csk(sk)->icsk_af_ops->syn_recv_sock(sk, skb, req, NULL,
2 req, &own_req);
3 if (!child)
4 goto listen_overflow;
5
6 sock_rps_save_rxhash(child, skb);
7 tcp_synack_rtt_meas(child, req);
8 return inet_csk_complete_hashdance(sk, child, req, own_req);
9
10 listen_overflow:
11 if (!sysctl_tcp_abort_on_overflow) {
12 inet_rsk(req)->acked = 1;
13 return NULL;
14 }
15 embryonic_reset:
16 if (!(flg & TCP_FLAG_RST)) {
17 /* Received a bad SYN pkt - for TFO We try not to reset
18 * the local connection unless it's really necessary to
19 * avoid becoming vulnerable to outside attack aiming at
20 * resetting legit local connections.
21 */
22 req->rsk_ops->send_reset(sk, skb);
23 } else if (fastopen) { /* received a valid RST pkt */
24 reqsk_fastopen_remove(sk, req, true);
25 tcp_reset(sk);
26 }
27 if (!fastopen) {
28 inet_csk_reqsk_queue_drop(sk, req);
29 NET_INC_STATS_BH(sock_net(sk), LINUX_MIB_EMBRYONICRSTS);
30 }
31 return NULL;
32
可见,如果backlog满了,需要关注sysctl_tcp_abort_on_overflow,而些值是/proc下配置。 如果没有配,则啥都没干,直接忽略,这会使server端一定时间段重发SYNC/ACK。如果配置了,则走到下面发RST的流程。 另一点,客户端在发送完最后一个ACK,则进入了ESTABLISHED状态,但如上所述,这个ACK可能因为server端的backlog问题使得被忽略。但客户端并不知道,因为它是ESTABLISHED,它这段时间可以发数据!而后续重发来的SYNC/ACK,会使得客户端重发已经发出的数据,赞成带宽浪费。而TCP slow start会缓减这种情况。 backlog已满的情况下,不仅对于complete queue,对于ack queue也会有处理,适当限速(?)以丢掉一部分的sync,避免太拥堵。在函数中:
int tcp_conn_request(struct request_sock_ops *rsk_ops,
const struct tcp_request_sock_ops *af_ops,
struct sock *sk, struct sk_buff *skb)
。。。
/* Accept backlog is full. If we have already queued enough
* of warm entries in syn queue, drop request. It is better than
* clogging syn queue with openreqs with exponentially increasing
* timeout.
*/
if (sk_acceptq_is_full(sk) && inet_csk_reqsk_queue_young(sk) > 1) {
NET_INC_STATS_BH(sock_net(sk), LINUX_MIB_LISTENOVERFLOWS);
goto drop;
}
总结:
- 服务端的连接建立有两个地方需要排队,一是sync包上来时,另一个是ACK上来时。对于linux来说,前者长度由配置项决定,机器上是2048;后者由listen带入的backlog指定;
- 如果backlog对应的队列满后,判断配置项,如果配了,rst,否则直接忽略,等待超时重发;
- 客户端只要发送了ACK后,即进入established状态,而服务端则要accept后。两者不对等,且客户端建立后立即可发送数据。
- sync队列也会对complete队列是否满进行参考。如果满了,限制收包速度,适当丢弃一些包。