【目标检测】【YOLO综述】YOLOv1到YOLOv10：最快速、最精准的实时目标检测系统-4.YOLO用于多种计算机视觉任务

YOLO系列系统已在众多领域得到广泛应用。本节将介绍YOLO在其他计算机视觉领域的代表性工作，并阐述这些工作为实现实时性能所完成的新颖架构设计或方法创新。

A.多目标跟踪

ROLO [75], JDE [74], CSTrack [76]

过去，基于深度学习的多目标跟踪相关算法（如Deep-SORT[77]）在检测到目标后，需要从原始图像中裁剪出目标区域，再通过额外网络提取特征进行跟踪。ROLO[75]提出直接使用YOLO检测目标，并采用LSTM[78]进行单目标跟踪，随后通过多个LSTM设计出MOLO来实现多目标跟踪。JDE[74]则提出在检测目标的同时输出重识别（re-ID）特征用于跟踪，但其多尺度密集预测的重识别特征计算量较大，且一组re-ID特征会匹配多个锚框，容易导致ID混淆。CSTrack[76]进一步结合JDE与FairMOT[79]方案，在融合多尺度特征后仅输出单一尺度的re-ID特征，从而实现了更精准的多目标跟踪效果。

B.实例分割

YOLACT [73], YOLACT-Edge [80], YOLACT++ [81], Insta-YOLO [82], Poly YOLO [83].

过去，大多数实例分割预测都是针对每个检测到的对象单独进行的，因此需要更复杂的分割网络。YOLACT [73]和YOLACT++ [81]将实例分割过程分解为原型和系数两个步骤，只需预测系数即可利用这些原型生成最终的实例分割结果。采用上述方法能大幅减少实例分割执行时所需的运算量。随后，YOLACTEdge [80]将实例分割进一步推进到视频领域，通过引入FeatFlowNet的概念显著减少了主干网络需要提取的特征数量。

另一种降低实例分割预测计算量的方法是以其他形式表达二进制掩码，例如用多边形或极坐标形式表示掩码。虽然这种表达方式会造成一定失真，但能以极少的维度呈现物体的掩码。Insta-YOLO[82]和Poly YOLO[83]就是采用多边形形式预测实例分割结果的两个典型案例。

C.自动驾驶

YOLOP [84], YOLOPv2 [85], YOLOPv3 [86], HybridNets [87], YOLOPX [88]

YOLO系列在自动驾驶场景的视觉感知任务中也得到广泛应用。YOLOP[84]和YOLOPv2[85]分别采用CSPNet和ELAN作为目标检测主干架构，因此可同时实现区域检测与车道线预测。HybridNet[87]、YOLOPv3[86]和YOLOPX[88]也基于不同版本的YOLO进行改进，用于执行自动驾驶任务。

D.人体姿态估计

KAPAO [89], YOLO-Pose [47].

人体姿态估计可视为预测目标检测任务的空间属性补充。由于关键点未必落在网格内，需额外设计解码器结构。KAPAO[89]将人体姿态分解为人体姿态目标和关键点目标两种表征进行预测与融合；YOLO-Pose[47]则直接预测关键点相对于网格中心的回归值，进而完成姿态估计。上述设计均能取得较好效果。

E.3D目标检测

Complex YOLO [90], Expandable YOLO [91], YOLO 6D [92], YOLO3D [93]

也有部分研究将YOLO系列从二维推广到三维。除了结合图像与激光雷达作为输入的ComplexYOLO[90]和采用RGB-D图像作为输入的Expandable YOLO[91]之外，还有仅使用图像作为输入的YOLO 6D[92]和YOLO 3D[93]。

F.视频感知

YOLOV [94], YOLOV++ [95], Stream YOLO [96].

在图像实时目标检测中表现极佳的YOLO系列算法，自然会被应用于视频领域。其中YOLOV[94]和YOLOV++[95]可应用于视频目标检测，而流式YOLO[96]则适用于流式感知任务。

G.人脸检测

YOLO-Face [97], YOLO-Face v2 [98], YOLO5Face [99].

人脸检测是目标检测众多应用领域中最为热门的子领域之一。基于YOLO算法设计的人脸检测模型在该领域同样表现出色。

H.图像分割

Fast-SAM [100].

由于YOLO具备实时性与高性能的特点，其与多种基础模型的结合也开始应用于新兴计算机视觉任务。FastSAM[100]将YOLO与SAM[101]相结合，应用于通用图像分割任务。这种组合方式能显著提升任务模型的推理速度。

I.开放词汇检测

YOLO-World [60], Open-YOLO 3D [102].

YOLO还与视觉语言基础模型结合使用。这类应用的典型代表包括YOLOworld [60]和Open-YOLO 3D [102]，它们融合了YOLO与CLIP [103]方法，可分别用于执行2D和3D开放词汇目标检测任务。

J.结合其他架构

ViT-YOLO [104], DEYO [105], DEYOv2 [106], DEYOv3 [107], [108], Mamba-YOLO [109], Spiking YOLO [110], GNN-YOLO [111], GCN-YOLO [112], KAN-YOLO [113].

YOLO还展现出与多种深度神经网络架构的兼容性。这类架构包括ViT[104]–[108]、MAMBA[109]、SNN[110]、GNN[111][112]以及KAN[113]。它们都能与YOLO有效结合。

秒客网