论文地址:https://arxiv.org/abs/2405.14458
源码地址:https://github.com/THU-MIG/yolov10
YOLOv10 的架构建立在以前 YOLO 模型的优势之上,通过消除非最大抑制 (NMS) 和优化各种模型组件, 实现了最先进的性能,并显著降低了计算开销。
网络结构如下:
模型网络结构由以下组件组成:
主干:YOLOv10 中的主干网负责特征提取,使用增强版的 CSPNet(Cross Stage Partial Network)来改善梯度流并减少计算冗余。
颈部:颈部被设计成聚合来自不同尺度的特征,并将它们传递到头部。它包括 PAN(路径聚合网络)层,用于有效的多尺度特征融合。
一对多头:在训练过程中为每个对象生成多个预测,以提供丰富的监督信号,提高学习准确性。
一对一头:在推理过程中为每个对象生成一个最佳预测,消除对 NMS 的需求,从而减少延迟并提高效率。
YOLOv10创新点如下无 NMS 训练
:利用一致的双重分配来消除对 NMS 的需求,从而减少推理延迟。整体模型设计
:从效率和精度两个角度对各种组件进行全面优化,包括轻量级分类头、空间通道解耦下采样和秩引导块设计。增强的模型功能
:整合大核卷积和部分自注意力模块,可在不增加大量计算成本的情况下提高性能。
YOLOv10不同模型尺寸信息:
YOLOv10 提供6种不同的型号规模模型,以满足不同的应用需求:
Model | Input Size | APval | params (M) | FLOPs (G) |
---|---|---|---|---|
YOLOv10-N | 640 | 38.5 | 2.7 | 6.7 |
YOLOv10-S | 640 | 46.3 | 7.2 | 21.6 |
YOLOv10-M | 640 | 51.1 | 15.4 | 59.1 |
YOLOv10-B | 640 | 52.5 | 19.1 | 92.0 |
YOLOv10-L | 640 | 53.2 | 24.4 | 120.3 |
YOLOv10-X | 640 | 54.4 | 29.5 | 160.4 |
YOLOv10-N:Nano 版本,适用于资源极度受限的环境。
YOLOv10-S:平衡速度和精度的小型版本。
YOLOv10-M:通用的中型版本。
YOLOv10-B:平衡版本,宽度增加,精度更高。
YOLOv10-L:大版本,以增加计算资源为代价,实现更高的精度。
YOLOv10-X:超大版本,可实现最大的精度和性能。