计算机网络——select、poll、epoll底层原理

摘要

本博文主要是介绍select、poll、epoll相关原理。帮助大家在linux的网络优化与网络模型选择提供一个思路。

计算机网络知识脑图	计算机网络——计算机网络知识脑图_庄小焱的博客-****博客_计算机网络面试题总结
计算机网络大厂面试问题集合	计算机网络——大厂面试问题集合_庄小焱的博客-****博客
计算机网络基础知识	计算机网络——网络基础知识_庄小焱的博客-****博客_数据转发服务器
IP相关基础原理	计算机网络——IP协议基础原理_庄小焱的博客-****博客_ip网络技术
HTTP协议原理	计算机网络——HTTP协议原理_庄小焱的博客-****博客_http协议原理
HTTP的优化方式	计算机网络——HTTP的优化方式_庄小焱的博客-****博客
HTTPS协议原理	计算机网络——HTTPS协议原理_庄小焱的博客-****博客_https协议原理
HTTPS的优化方式	计算机网络——HTTPS的优化方式_庄小焱的博客-****博客
TCP可靠性传输原理	计算机网络——TCP可靠性传输原理_庄小焱的博客-****博客_tcp的可靠性是如何实现的
TCP/IP三次握手四次挥手原理	计算机网络——HTTP的三次握手与四次挥手原理_庄小焱的博客-****博客_三次握手和四次挥手原理
TCP的优化方式	计算机网络——TCP的优化方式_庄小焱的博客-****博客_tcp协议优化技术
DNS协议（域名解析）原理	计算机网络——DNS协议（域名解析）原理_庄小焱的博客-****博客_计算机网络dns
ARP协议(地址解析)原理	计算机网络——ARP协议(地址解析)原理_庄小焱的博客-****博客_地址解析协议的工作原理
ARQ协议(自动重传请求)原理	计算机网络——ARQ协议(自动重传请求)原理_庄小焱的博客-****博客_连续arq协议的原理
DHCP协议原理	计算机网络——DHCP（动态获取IP）原理_庄小焱的博客-****博客_计算机网络dhcp
NAT协议原理	计算机网络——NAT协议（网络地址转换）原理_庄小焱的博客-****博客
ICMP/IGMP协议原理	计算机网络——ICMP/IGMP协议原理_庄小焱的博客-****博客_计算机网络igmp
HTTP网络访问全流程	计算机网络——HTTP网络访问全流程_庄小焱的博客-****博客_网络访问流程
虚拟网路模型原理	计算机网络——虚拟网路模型原理_庄小焱的博客-****博客
其他网络知识	计算机网络——select/poll/epoll底层原理_庄小焱的博客-**博客计算机网络——cookie/session/token原理_庄小焱的博客-博客计算机网络——网络通信加密原理_庄小焱的博客-博客_网络通信加密计算机网络——GRPC通信原理_庄小焱的博客-博客_grpc原理计算机网络——tcpdump/Wireshark抓包实战_庄小焱的博客-博客_网络抓包计算机网络——TCP抓包连接实战_庄小焱的博客-**博客_tcp全连接和半连接

一、I/O 多路复用之select、poll、epoll详解

select，poll，epoll都是IO多路复用的机制。I/O多路复用就是通过一种机制，一个进程可以监视多个描述符，一旦某个描述符就绪（一般是读就绪或者写就绪），能够通知程序进行相应的读写操作。但select，poll，epoll本质上都是同步I/O，因为他们都需要在读写事件就绪后自己负责进行读写，也就是说这个读写过程是阻塞的，而异步I/O则无需自己负责进行读写，异步I/O的实现会负责把数据从内核拷贝到用户空间。

2.1 select原理

int select (int n, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, struct timeval *timeout);

select 函数监视的文件描述符分3类，分别是writefds、readfds、和exceptfds。调用后select函数会阻塞，直到有描述副就绪（有数据可读、可写、或者有except），或者超时（timeout指定等待时间，如果立即返回设为null即可），函数返回。当select函数返回后，可以通过遍历fdset，来找到就绪的描述符。

select目前几乎在所有的平台上支持，其良好跨平台支持也是它的一个优点。select的一个缺点在于单个进程能够监视的文件描述符的数量存在最大限制，在Linux上一般为1024，可以通过修改宏定义甚至重新编译内核的方式提升这一限制，但是这样也会造成效率的降低。

2.2 poll原理

int poll (struct pollfd *fds, unsigned int nfds, int timeout);

不同与select使用三个位图来表示三个fdset的方式，poll使用一个 pollfd的指针实现。

struct pollfd {
    int fd; /* file descriptor */
    short events; /* requested events to watch */
    short revents; /* returned events witnessed */
};

pollfd结构包含了要监视的event和发生的event，不再使用select“参数-值”传递的方式。同时，pollfd并没有最大数量限制（但是数量过大后性能也是会下降）。和select函数一样，poll返回后，需要轮询pollfd来获取就绪的描述符。

从上面看，select和poll都需要在返回后，通过遍历文件描述符来获取已经就绪的socket。事实上，同时连接的大量客户端在一时刻可能只有很少的处于就绪状态，因此随着监视的描述符数量的增长，其效率也会线性下降。

2.3 epoll原理

epoll是在2.6内核中提出的，是之前的select和poll的增强版本。相对于select和poll来说，epoll更加灵活，没有描述符限制。epoll使用一个文件描述符管理多个描述符，将用户关系的文件描述符的事件存放到内核的一个事件表中，这样在用户空间和内核空间的copy只需一次。

epoll操作过程需要三个接口，分别如下：

int epoll_create(int size)；
//创建一个epoll的句柄，size用来告诉内核这个监听的数目一共有多大

创建一个epoll的句柄，size用来告诉内核这个监听的数目一共有多大，这个参数不同于select()中的第一个参数，给出最大监听的fd+1的值，参数size并不是限制了epoll所能监听的描述符最大个数，只是对内核初始分配内部数据结构的一个建议。
当创建好epoll句柄后，它就会占用一个fd值，在linux下如果查看/proc/进程id/fd/，是能够看到这个fd的，所以在使用完epoll后，必须调用close()关闭，否则可能导致fd被耗尽。

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event)；

函数是对指定描述符fd执行op操作。
- epfd：是epoll_create()的返回值。
- op：表示op操作，用三个宏来表示：添加EPOLL_CTL_ADD，删除EPOLL_CTL_DEL，修改EPOLL_CTL_MOD。分别添加、删除和修改对fd的监听事件。
- fd：是需要监听的fd（文件描述符）
- epoll_event：是告诉内核需要监听什么事

struct epoll_event {
  __uint32_t events;  /* Epoll events */
  epoll_data_t data;  /* User data variable */
};

//events可以是以下几个宏的集合：
EPOLLIN ：表示对应的文件描述符可以读（包括对端SOCKET正常关闭）；
EPOLLOUT：表示对应的文件描述符可以写；
EPOLLPRI：表示对应的文件描述符有紧急的数据可读（这里应该表示有带外数据到来）；
EPOLLERR：表示对应的文件描述符发生错误；
EPOLLHUP：表示对应的文件描述符被挂断；
EPOLLET： 将EPOLL设为边缘触发(Edge Triggered)模式，这是相对于水平触发(Level Triggered)来说的。
EPOLLONESHOT：只监听一次事件，当监听完这次事件之后，如果还需要继续监听这个socket的话，需要再次把这个socket加入到EPOLL队列里


int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);

等待epfd上的io事件，最多返回maxevents个事件。
参数events用来从内核得到事件的集合，maxevents告之内核这个events有多大，这个maxevents的值不能大于创建epoll_create()时的size，参数timeout是超时时间（毫秒，0会立即返回，-1将不确定，也有说法说是永久阻塞）。该函数返回需要处理的事件数目，如返回0表示已超时。

2.4 epoll工作模式

epoll对文件描述符的操作有两种模式：LT（level trigger）和ET（edge trigger）。LT模式是默认模式，LT模式与ET模式的区别如下：
LT模式：当epoll_wait检测到描述符事件发生并将此事件通知应用程序，应用程序可以不立即处理该事件。下次调用epoll_wait时，会再次响应应用程序并通知此事件。
ET模式：当epoll_wait检测到描述符事件发生并将此事件通知应用程序，应用程序必须立即处理该事件。如果不处理，下次调用epoll_wait时，不会再次响应应用程序并通知此事件。

2.5 select、poll、epoll总结

在 select/poll中，进程只有在调用一定的方法后，内核才对所有监视的文件描述符进行扫描，而epoll事先通过epoll_ctl()来注册一个文件描述符，一旦基于某个文件描述符就绪时，内核会采用类似callback的回调机制，迅速激活这个文件描述符，当进程调用epoll_wait() 时便得到通知。(此处去掉了遍历文件描述符，而是通过监听回调的的机制。这正是epoll的魅力所在。)

epoll的优点主要是一下几个方面：
1. 监视的描述符数量不受限制，它所支持的FD上限是最大可以打开文件的数目，这个数字一般远大于2048,举个例子,在1GB内存的机器上大约是10万左右，具体数目可以cat /proc/sys/fs/file-max察看,一般来说这个数目和系统内存关系很大。select的最大缺点就是进程打开的fd是有数量限制的。这对于连接数量比较大的服务器来说根本不能满足。虽然也可以选择多进程的解决方案( Apache就是这样实现的)，不过虽然linux上面创建进程的代价比较小，但仍旧是不可忽视的，加上进程间数据同步远比不上线程间同步的高效，所以也不是一种完美的方案。

IO的效率不会随着监视fd的数量的增长而下降。epoll不同于select和poll轮询的方式，而是通过每个fd定义的回调函数来实现的。只有就绪的fd才会执行回调函数。如果没有大量的idle -connection或者dead-connection，epoll的效率并不会比select/poll高很多，但是当遇到大量的idle- connection，就会发现epoll的效率大大高于select/poll。

博文参考：

/a/1190000003063859

深入理解零拷贝技术_腾讯新闻

秒客网