ByteTrack:通过关联每个检测框进行多对象跟踪

时间:2022-09-26 11:57:32

摘要

多对象跟踪 (MOT) 旨在估计视频中对象的边界框和身份。大多数方法通过关联分数高于阈值的检测框来获得身份。检测分数低的物体,例如被遮挡的物体,被简单地扔掉,这带来了不可忽视的真实物体丢失和碎片轨迹。为了解决这个问题,我们提出了一种简单、有效和通用的关联方法,通过关联几乎每个检测框而不是只关联高分的检测框来进行跟踪。对于低分检测框,我们利用它们与 tracklets 的相似性来恢复真实对象并过滤掉背景检测。当应用于 9 个不同的最先进的跟踪器时,我们的方法在 IDF1 分数上实现了从 1 到 10 分的持续改进。为了提出 M O T 的 state-of-theart 性能,我们设计了一个简单而强大的跟踪器,命名为 ByteTrack。我们首次在单 V100 GPU 上以 30 FPS 运行速度在 MOT17 的测试集上实现了 80.3 MOTA、77.3 IDF1 和 63.1 HOTA。 ByteTrack 还在 MOT20、HiEve 和 BDD100K 跟踪基准上实现了最先进的性能。源代码、带有部署版本的预训练模型和应用于其他跟踪器的教程在 https://github.com/ifzhang/ByteTrack上发布。
ByteTrack:通过关联每个检测框进行多对象跟踪

一、简介

检测跟踪是当前多目标跟踪(MOT)最有效的范例。 由于视频中的复杂场景,检测器容易做出不完美的预测。 最先进的 MOT 方法 [1-3,6, 12,18,45,59,70,72,85] 需要处理检测框中的真阳性/假阳性权衡,以消除低置信度检测 框 [4,40] 。 但是,消除所有低置信度检测框是否正确? 我们的回答是否定的:正如黑格尔所说:“合理的就是真实的;真实的就是合理的。” 低置信度检测框有时指示对象的存在,例如 被遮挡的物体。 过滤掉这些对象会导致 MOT 出现不可逆转的错误,并带来不可忽略的缺失检测和碎片化轨迹。

图 2 (a) 和 (b) 显示了这个问题。在帧 t 1 t_{1} t1 中,我们初始化了三个不同的 tracklet,因为它们的分数都高于 0.5。然而,在第 t 2 t_{2} t2 帧和第 t 3 t_{3} t3帧发生遮挡时,红色轨迹对应的检测分数变低,即从 0.8 到 0.4,然后从 0.4 到 0.1。这些检测框被阈值机制消除,红色轨迹相应地消失。然而,如果我们将每个检测框都考虑在内,则会立即引入更多误报,例如图 2 (a) 的第 t_{3} 帧中最右边的框。据我们所知,MOT 中很少有方法 [30,63] 能够处理这种检测困境。
ByteTrack:通过关联每个检测框进行多对象跟踪

在本文中,我们发现与 tracklets 的相似性为区分低分检测框中的对象和背景提供了强有力的线索。如图2(c)所示,两个低分检测框通过运动模型的预测框与轨迹匹配,从而正确地恢复了目标。同时,由于没有匹配的 tracklet,背景框被移除。

为了在匹配过程中充分利用从高到低的检测框,我们提出了一种简单有效的关联方法BYTE,将每个检测框命名为tracklet的一个基本单元,在计算机程序中作为字节,我们的跟踪方法值每个详细的检测框。我们首先根据运动相似性或外观相似性将高分检测框与轨迹匹配。与[6]类似,我们采用卡尔曼滤波器[29]来预测轨迹在新帧中的位置。相似度可以通过预测框和检测框的IoU或Re-ID特征距离来计算。图2(b)正是第一次匹配后的结果。然后,我们在未匹配的 tracklet 之间进行第二次匹配,即红色框中的 tracklet 和使用相同运动相似度的低分检测框。图 2 © 显示了第二次匹配后的结果。检测分数低的被遮挡人与前一个轨迹正确匹配,并且背景(在图像的右侧)被移除。

作为目标检测与关联的综合课题,MOT 的理想解决方案绝不是检测器和以下关联;此外,精心设计它们的连接区域也很重要。 BYTE 的创新在于检测和关联的交界处,低分检测框是提升两者的桥梁。受益于这种集成创新,当 BYTE 应用于 9 种不同的最先进的跟踪器时,包括基于 Re-ID 的 [33,47,69,85] ,基于运动的 [71,89] ,chain-基于 [48] 和基于注意力的 [59,80] ,几乎所有指标(包括 MOTA、IDF1 分数和 ID Switches)都取得了显着改进。例如,我们在 MOT17 的半验证集上将 Centerdecrease 的 MOTA 从 528 增加到 144。

为了推动 MOT 的最新性能,我们提出了一个简单而强大的跟踪器,名为 ByteTrack。我们采用最近的高性能检测器 YOLOX [24] 来获取检测框并将它们与我们提出的 BYTE 相关联。在 MOT 挑战中,ByteTrack 在 MOT17 [44] 和 MOT20 [17] 上均排名第一,在 MOT17 上的 V100 GPU 上以 30 FPS 的运行速度实现了 80.3 MOTA、77.3 IDF1 和 63.1 HOTA,在 MOT17 上实现了 77.8 MOTA、75.2 IDF1 和 61.3 HOTA更拥挤的MOT20。 ByteTrack 还在 HiEve [37] 和 BDD100K [79] 跟踪基准上实现了最先进的性能。我们希望 ByteTrack 的效率和简单性能够使其在社交计算等实际应用中具有吸引力。

二、相关工作

2.1、 MOT 中的目标检测

目标检测是计算机视觉中最活跃的课题之一,是多目标跟踪的基础。 MOT17 数据集 [44] 提供了由 DPM [22]、Faster R-CNN [50] 和 SDP [77] 等流行检测器获得的检测结果。 大量的方法 [3,9,12,14,28,74,91] 专注于基于这些给定的检测结果提高跟踪性能。

通过检测跟踪。随着目标检测的快速发展[10,23,26,35,49,50,58,60],越来越多的方法开始利用更强大的检测器来获得更高的跟踪性能。一级目标检测器 RetinaNet [35] 开始被 [39,48] 等几种方法采用。 CenterNet [90] 是大多数方法 [63, 65, 67, 71, 85, 87,89] 采用的最流行的检测器,因为它简单且高效。 YOLO 系列检测器 [8,49] 也被大量方法 [15,33,34,69] 采用,因为它在精度和速度之间取得了出色的平衡。这些方法中的大多数直接使用单个图像上的检测框进行跟踪。

然而,正如视频对象检测方法 [41,62] 所指出的,当视频序列中发生遮挡或运动模糊时,缺失检测和评分非常低的检测数量开始增加。因此,通常利用前一帧的信息来增强视频检测性能。

通过跟踪检测。也可以采用跟踪来帮助获得更准确的检测框。一些方法 [12-15, 53, 91] 利用单目标跟踪 (SOT) [5] 或卡尔曼滤波器 [29] 来预测跟踪帧在下一帧中的位置,并将预测框与检测框融合以增强检测结果。其他方法 [34,86] 利用前一帧中的跟踪框来增强下一帧的特征表示。最近,基于 Transformer 的 [20, 38, 64,66] 检测器 [11,92] 被多种方法 [42,59,80] 采用,因为它具有在帧之间传播框的强大能力。我们的方法还利用与 tracklets 的相似性来增强检测框的可靠性。

在通过各种检测器获得检测框后,大多数 MOT 方法 [33,39,47,59,69,71,85] 仅将高分检测框保持一个阈值,即 0.5,并将这些框作为数据的输入协会。这是因为低分检测框包含许多损害跟踪性能的背景。然而,我们观察到许多被遮挡的物体可以被正确检测到但分数很低。为了减少丢失的检测并保持轨迹的持久性,我们保留所有检测框并在每个检测框之间关联。

2.2、数据关联

数据关联是多目标跟踪的核心,它首先计算tracklet和检测框之间的相似度,并根据相似度利用不同的策略进行匹配。

相似度指标。位置、运动和外观是联想的有用线索。 SORT [6] 以一种非常简单的方式结合了位置和运动提示。它首先采用卡尔曼滤波器[29]来预测轨迹在新帧中的位置,然后计算检测框和预测框之间的 IoU 作为相似度。最近的一些方法 [59,71,89] 设计网络来学习对象运动并在大相机运动或低帧速率的情况下获得更稳健的结果。位置和运动相似度在短距离匹配中是准确的。外观相似性有助于远程匹配。在长时间被遮挡后,可以使用外观相似性重新识别对象。外观相似度可以通过 Re-ID 特征的余弦相似度来衡量。 DeepSORT [70] 采用独立的 Re-ID 模型从检测框中提取外观特征。最近,联合检测和 Re-ID 模型 [33,39,47,69,84,85] 因其简单和高效而变得越来越流行。

匹配策略。在相似度计算之后,匹配策略为对象分配身份。这可以通过匈牙利算法 [31] 或贪心分配 [89] 来完成。 SORT [6] 通过一次匹配将检测框与轨迹匹配。 DeepSORT [70] 提出了一种级联匹配策略,该策略首先将检测框与最新的轨迹匹配,然后与丢失的轨迹匹配。 MOTDT [12]首先利用外观相似度进行匹配,然后利用 IoU 相似度来匹配未匹配的轨迹。 QDTrack [47]通过双向softmax操作将外观相似度转化为概率,并采用最近邻搜索来完成匹配。注意机制[64]可以直接在帧之间传播框并隐式执行关联。最近的方法如 [42,80] 提出了跟踪查询以在以下帧中查找跟踪对象的位置。匹配是在注意力交互过程中隐式执行的,不使用匈牙利算法。

所有这些方法都集中在如何设计更好的关联方法上。然而,我们认为检测框的使用方式决定了数据关联的上限,我们关注的是如何在匹配过程中充分利用从高分到低分的检测框。

三、Byte

我们提出了一种简单、有效和通用的数据关联方法,BYTE。 与之前仅保留高分检测框的方法 [33,47,69,85] 不同,我们保留了几乎每个检测框并将它们分为高分和低分。 我们首先将高分检测框与轨迹相关联。 一些 tracklet 无法匹配是因为它们与适当的高分检测框不匹配,这通常发生在发生遮挡、运动模糊或大小变化时。 然后,我们将低分检测框和这些不匹配的轨迹关联起来,以恢复低分检测框中的对象并同时过滤掉背景。 BYTE 的伪代码如算法 1 所示。
ByteTrack:通过关联每个检测框进行多对象跟踪

BYTE 的输入是视频序列 V \mathrm{V} V 以及对象检测器 Det。 我们还设置了检测分数阈值 τ \tau τ。 BYTE 的输出是视频的轨道 T \mathcal{T} T,每个轨道包含每个帧中对象的边界框和标识。

对于视频中的每一帧,我们使用检测器 Det 预测检测框和分数。 我们根据检测分数阈值 τ \tau τ 将所有检测框分为 D high  和 D l o w \mathcal{D}_{\text {high }} 和 \mathcal{D}_{l o w} Dhigh Dlow 两部分。 对于分数高于 \tau 的检测框,我们将它们放入高分检测框 D high  \mathcal{D}_{\text {high }} Dhigh  中。 对于分数低于 \tau 的检测框,我们将它们放入低分检测框 D low  \mathcal{D}_{\text {low }} Dlow (算法 1 中的第 3 到 13 行)。

在将低分检测框和高分检测框分离后,我们采用卡尔曼滤波器预测 T \mathcal{T} T 中每个轨道的当前帧中的新位置(算法 1 中的第 14 到 16 行)。

第一个关联是在高分检测框 D high  \mathcal{D}_{\text {high }} Dhigh  和所有轨道 T \mathcal{T} T (包括丢失的轨道 T lost  \mathcal{T}_{\text {lost } } Tlost )。相似度#1 可以通过 IoU 或检测框 D high  \mathcal{D}_{\text {high }} Dhigh  与轨道的预测框 T \mathcal{T} T 之间的 Re-ID 特征距离来计算。然后,我们采用匈牙利算法[31]完成基于相似度的匹配。我们将不匹配的检测保留在 D remain  \mathcal{D}_{\text {remain }} Dremain  中,将不匹配的轨迹保留在 T remain  \mathcal{T}_{\text {remain }} Tremain  中(算法 1 中的第 17 到 19 行)。

BYTE 非常灵活,可以兼容其他不同的关联方式。例如,当 BYTE 与 FairMOT [85] 结合时,在算法 1 中将 Re-ID 特征添加到 * first association * 中,其他相同。在实验中,我们将 BYTE 应用于 9 个不同的最先进的跟踪器,并在几乎所有指标上实现了显着改进。

在第一次关联之后,在低分检测框 D low  \mathcal{D}_{\text {low }} Dlow  和剩余轨道 T remain  \mathcal{T}_{\text {remain }} Tremain  之间执行第二次关联。我们将不匹配的轨迹保留在 T re-remain  \mathcal{T}_{\text {re-remain }} Tre-remain  中,并删除所有不匹配的低分检测框,因为我们将它们视为背景。 (算法 1 中的第 20 到 21 行)。我们发现在第二个关联中单独使用 IoU 作为 Similarity#2 很重要,因为低分检测框通常包含严重的遮挡或运动模糊,并且外观特征不可靠。因此,当将 BYTE 应用于其他基于 Re-ID 的跟踪器 [47,69,85] 时,我们在第二个关联中不采用外观相似性。

关联后,不匹配的跟踪将从 tracklets 中删除。为简单起见,我们没有在算法 1 中列出轨道重生的过程 [12,70,89]。实际上,远程关联需要保留轨迹的身份。对于第二次关联后未匹配的轨道 T re-remain  \mathcal{T}_{\text {re-remain }} Tre-remain ,我们将它们放入 T lost  \mathcal{T}_{\text {lost }} Tlost  中。对于 T lost  \mathcal{T}_{\text {lost }} Tlost  中的每个轨道,只有当它存在超过一定数量的帧,即 30 时,我们才会将其从轨道 T \mathcal{T} T 中删除。否则,我们在 T \mathcal{T} T 中保留丢失的轨道 T lost  \mathcal{T}_{\text {lost }} Tlost (算法 1 中的第 22 行)。最后,在第一个关联之后,我们从不匹配的高分检测框 D remain \mathcal{D}_{\text{remain}} Dremain初始化新跟踪。 (算法 1 中的第 23 到 27 行)。每个单独帧的输出是当前帧中轨道 T \mathcal{T} T 的边界框和标识。请注意,我们不输出 T lost  \mathcal{T}_{\text {lost }} Tlost  的框和身份。

为了提出 MOT 的最新性能,我们通过为高性能检测器 YOLOX [24] 配备我们的关联方法 BYTE,设计了一个简单而强大的跟踪器,名为 ByteTrack。

4. 实验

4.1、环境

数据集。我们在“私人检测”协议下评估 MOT17 [44] 和 MOT20 [17] 数据集上的 BYTE 和 ByteTrack。两个数据集都包含训练集和测试集,没有验证集。对于消融研究,我们使用 MOT17 训练集中每个视频的前半部分进行训练,后半部分用于验证 [89]。我们在 [59,71,80,89] 之后的 CrowdHuman 数据集 [55] 和 MOT17 半训练集的组合上进行训练。在 MOT17 的测试集上进行测试时,我们在 [33,69,85] 之后添加了 Cityperson [82] 和 ETHZ [21] 进行训练。我们还在 HiEve [37] 和 BDD100K [79] 数据集上测试了 ByteTrack。 HiEve 是一个以人为中心的大规模数据集,专注于拥挤和复杂的事件。 BDD100K 是最大的驾驶视频数据集,MOT 任务的数据集拆分为 1400 个用于训练的视频、200 个用于验证的视频和 400 个用于测试的视频。它需要跟踪 8 个类别的对象,并包含大型摄像机运动的情况。

指标。我们使用 CLEAR 指标 [4],包括 MOTA、FP、FN、ID 等,IDF1 [51] 和 HOTA [40] 来评估跟踪性能的不同方面。 MOTA 是基于 FP、FN 和 ID 计算的。考虑到 FP 和 FN 的数量大于 ID,MOTA 更注重检测性能。 IDF1 评估身份保存能力,更关注关联性能。 HOTA 是一个最近提出的指标,它明确地平衡了执行准确检测、关联和定位的效果。对于 BDD100K 数据集,有一些多类指标,例如 mMOTA 和 mIDF1。 mMOTA / mIDF1 是通过平均所有类的 MOTA / IDF1 来计算的。

实施细节。对于 BYTE,除非另有说明,否则默认检测分数阈值 \tau 为 0.6。对于 MOT17、MOT20 和 HiEve 的基准评估,我们仅使用 IoU 作为相似度指标。在线性分配步骤中,如果检测框和跟踪框之间的 IoU 小于 0.2 ,则匹配将被拒绝。对于丢失的 tracklets,我们将其保留 30 帧以防再次出现。对于 BDD100K,我们使用 UniTrack [68] 作为 Re-ID 模型。在消融研究中,我们使用 FastReID [27] 来提取 MOT17 的 Re-ID 特征。

对于 ByteTrack,检测器是 YOLOX [24],其中 YOLOX-X 作为主干,COCO 预训练模型 [36] 作为初始化权重。对于 MOT17,在 MOT17、CrowdHuman、Cityperson 和 ETHZ 的组合上的训练计划是 80 个 epoch。对于 MOT20 和 HiEve,我们只添加 CrowdHuman 作为额外的训练数据。对于 BDD100K,我们不使用额外的训练数据,只训练 50 个 epoch。多尺度训练时,输入图像大小为 1440×800,最短边范围为 576 到 1024。数据增强包括 Mosaic [8] 和 Mixup [81]。该模型在 8 个 NVIDIA Tesla V100 GPU 上进行训练,批量大小为 48 。优化器是 SGD,权重衰减为 5 × 1 0 − 4 5\times 10^{-4} 5×104,动量为 0.9。初始学习率为 0 − 3 0^{-3} 03,带有 1 个 epoch 预热和余弦退火计划。总培训时间约为12小时。在 [24] 之后,FPS 在单个 GPU 上使用 FP16 精度 [43] 和 1 的批量大小进行测量。

4.2. BYTE 的消融研究

相似性分析。我们为 BYTE 的第一个关联和第二个关联选择不同类型的相似性。结果如表 1 所示。我们可以看到,对于 MOT17 上的 Similarity#1,IoU 或 Re-ID 都是不错的选择。 IoU 实现了更好的 MOTA 和 ID,而 Re-ID 实现了更高的 IDF1。在 BDD100K 上,Re-ID 在第一次关联中取得了比 IoU 更好的结果。这是因为 BDD100K 包含较大的摄像机运动,并且注释处于低帧率,这导致运动提示失败。在两个数据集的第二个关联中使用 IoU 作为 Similarity#2 很重要,因为低分检测框通常包含严重的遮挡或运动模糊,因此 Re-ID 特征不可靠。从表 1 中我们可以发现,使用 IoU 作为 Similarity#2 与 Re-ID 相比增加了大约 1.0 MOTA,这表明低分检测框的 Re-ID 特征不可靠。
ByteTrack:通过关联每个检测框进行多对象跟踪

与其他关联方法的比较。我们在 MOT17 和 B D D 100   K \mathrm{BDD} 100 \mathrm{~K} BDD100 K 的验证集上将 BYTE 与其他流行的关联方法进行比较,包括 SORT [6]、DeepSORT [70] 和 MOTDT [12]。结果如表2所示。

SORT 可以看作是我们的基线方法,因为这两种方法都只采用卡尔曼滤波器来预测物体运动。我们可以发现,BYTE 将 SORT 的 MOTA 指标从 74.6 提高到 76.6,IDF1 从 76.9 提高到 79.3,并将 ID 从 291 降低到 159。这突出了低分检测框的重要性,并证明了 BYTE 从低分之一恢复对象框的能力。

SORT 可以看作是我们的基线方法,因为这两种方法都只采用卡尔曼滤波器来预测物体运动。我们可以发现,BYTE 将 SORT 的 MOTA 指标从 74.6 提高到 76.6,IDF1 从 76.9 提高到 79.3,并将 ID 从 291 降低到 159。这突出了低分检测框的重要性,并证明了 BYTE 从低分之一恢复对象框的能力。

DeepSORT 利用额外的 Re-ID 模型来增强远程关联。我们惊奇地发现,与 DeepSORT 相比,BYTE 也有额外的收益。这表明当检测框足够准确时,一个简单的卡尔曼滤波器可以执行远程关联并获得更好的 IDF1 和 ID。我们注意到,在严重遮挡的情况下,Re-ID 特征很容易受到攻击,并可能导致身份转换,相反,运动模型表现得更可靠。

MOTDT 将运动引导框传播结果与检测结果相结合,以将不可靠的检测结果与 tracklets 相关联。虽然有着相似的动机,但 MOTDT 还是远远落后于 BYTE。我们解释说 MOTDT 使用传播框作为 tracklet 框,这可能导致跟踪中的定位漂移。相反,BYTE 使用低分检测框来重新关联那些不匹配的轨迹,因此轨迹框更准确。

表 2 还显示了 BDD100K 数据集上的结果。 BYTE 也大大优于其他关联方法。卡尔曼滤波器在自动驾驶场景中失效,是 SORT、DeepSORT 和 MOTDT 性能低下的主要原因。因此,我们不在 BDD100K 上使用卡尔曼滤波器。其他现成的 ReID 模型极大地提高了 BYTE 在 BDD100K 上的性能。

检测分数阈值的鲁棒性。检测分数阈值 τ high  \tau_{\text {high }} τhigh  是一个敏感的超参数,在多目标跟踪任务中需要仔细调整。我们将其从 0.2 更改为 0.8,并比较 BYTE 和 SORT 的 MOTA 和 IDF1 得分。结果如图 3 所示。从结果中我们可以看出,BYTE 对检测分数阈值的鲁棒性高于 SORT。这是因为 BYTE 中的第二个关联恢复了分数低于 τ high  \tau_{\text {high }} τhigh  的对象,因此几乎考虑了每个检测框,而不管 τ high  \tau_{\text {high }} τhigh  的变化。
ByteTrack:通过关联每个检测框进行多对象跟踪

低分检测框分析。 为了证明 BYTE 的有效性,我们收集了 BYTE 获得的低分框中的 TP 和 FP 的数量。 我们使用 MOT17 的半训练集和 CrowdHuman 对 MOT17 的半验证集进行训练和评估。 首先,我们保留所有得分范围从 \tau_{\text {low }} 到 \tau_{\text {high }} 的低分检测框,并使用地面实况注释对 TP 和 FP 进行分类。 然后,我们从低分检测框中选择 BYTE 获得的跟踪结果。 每个序列的结果如图 4 所示。我们可以看到,尽管某些序列(即 MOT17-02)在所有检测框中的 FP 多得多,但 BYTE 从低分检测框中获得的 TP 明显多于 FP。 如表 2 所示,获得的 TP 显着增加了 MOTA 从 74.6 到 76.6。
ByteTrack:通过关联每个检测框进行多对象跟踪

其他跟踪器上的应用程序。我们将 BYTE 应用于 9 种不同的最先进的跟踪器,包括 JDE [69]、CSTrack [33]、FairMOT [85]、TraDes [71]、QDTrack [47]、CenterTrack [89]、Chained-Tracker [ 48]、TransTrack [59] 和 MOTR [80]。在这些跟踪器中,JDE、CSTrack、FairMOT、TraDes 采用了运动和 ReID 相似度的组合。 QDTrack 仅采用 Re-ID 相似度。 CenterTrack 和 TraDes 通过学习网络预测运动相似度。 Chained-Tracker 采用链式结构,同时输出两个连续帧的结果,并通过 IoU 关联到同一帧中。 TransTrack 和 MOTR 采用注意机制在帧之间传播框。他们的结果显示在表 3 中每个跟踪器的第一行。为了评估 BYTE 的有效性,我们设计了两种不同的模式来将 BYTE 应用于这些跟踪器。

  • 第一种模式是将BYTE插入到不同tracker的原始关联方法中,如表3中每个tracker结果的第二行所示。以FairMOT [85]为例,原始关联完成后,我们选择所有不匹配的 tracklets 并将它们与算法 1 中 * second association \star 之后的低分检测框相关联。请注意,对于低分对象,Re-ID 特征不可靠,因此我们仅采用运动预测后检测框和 tracklet 框之间的 IoU 作为相似度。我们没有将BYTE的第一种模式应用到Chained-Tracker,因为我们发现在链式结构中很难实现。
  • 第二种模式是直接使用这些跟踪器的检测框,并使用算法1中的整个过程进行关联,如表3中每个跟踪器结果的第三行所示。
    ByteTrack:通过关联每个检测框进行多对象跟踪

我们可以看到,在这两种模式下,BYTE 都能对包括 MOTA、IDF1 和 IDs 在内的几乎所有指标带来稳定的提升。例如,BYTE 将 CenterTrack 增加 1.3 MOTA 和 9.8 IDF1,Chained-Tracker 增加 1.9 MOTA 和 5.8 IDF1,TransTrack 增加 1.2 MOTA 和 4.1 IDF1。表 3 中的结果表明 BYTE 具有很强的泛化能力,可以很容易地应用于现有的跟踪器以获得性能增益。

4.3. 基准评估

我们分别在表 4、表 5 和表 6 中将 ByteTrack 与 MOT17、MOT20 和 HiEve 在私有检测协议下的测试集上的最先进的跟踪器进行了比较。 所有结果直接来自官方MOT Challenge评估服务器和Human in Events服务器。
ByteTrack:通过关联每个检测框进行多对象跟踪
ByteTrack:通过关联每个检测框进行多对象跟踪
ByteTrack:通过关联每个检测框进行多对象跟踪

MOT17。 ByteTrack 在 MOT17 排行榜的所有跟踪器中排名第一。它不仅达到了最佳精度(即 80.3 MOTA、77.3 IDF1 和 63.1 HOTA),而且运行速度最高(30 FPS)。它大大优于第二性能跟踪器 [76](即 +3.3 MOTA、+5.3 IDF1 和 +3.4 HOTA)。此外,我们使用的训练数据少于许多高性能方法,例如 [33,34,54,65,85](29K 图像与 73 \mathrm{~K} 图像)。值得注意的是,与其他额外采用 Re-ID 相似度或注意机制的方法 [33,47,59,67,80,85] 相比,我们仅在关联步骤中利用了最简单的相似度计算方法 Kalman 滤波器。所有这些都表明 ByteTrack 是一个简单而强大的跟踪器。

MOT20。 与 MOT17 相比,MOT20 具有更多的拥挤场景和遮挡案例。在 MOT20 的测试集中,图像中的平均行人数为 170。 ByteTrack 在 MOT20 排行榜上的所有跟踪器中也排名第一,并且在几乎所有指标上都大大优于其他跟踪器。例如,它将 MOTA 从 68.6 增加到 77.8 ,IDF1 从 71.4 增加到 75.2 并将 ID 从 4209 减少 71% 到 1223 。值得注意的是,ByteTrack 实现了极低的身份切换,这进一步表明关联每个检测框在遮挡情况下非常有效。

Human in Events。 与 MOT17 和 MOT20 相比,HiEve 包含更复杂的事件和更多样化的摄像机视图。我们在 CrowdHuman 数据集和 HiEve 的训练集上训练 ByteTrack。 ByteTrack 在 HiEve 排行榜上的所有跟踪器中也排名第一,并且大大优于其他最先进的跟踪器。例如,它将 MOTA 从 40.9 增加到 61.3 ,将 IDF1 从 45.1 增加到 62.9 。优异的结果表明 ByteTrack 对复杂场景具有鲁棒性。

BDD100K。 BDD100K 是自动驾驶场景中的多类别跟踪数据集。挑战包括低帧率和大相机运动。我们利用来自 UniTrack [68] 的简单 ResNet-50 ImageNet 分类模型来提取 Re-ID 特征并计算外观相似度。 ByteTrack 在 BDD100K 排行榜上排名第一。它将验证集的 mMOTA 从 36.6 提高到 45.5,将测试集的 mMOTA 从 35.5 提高到 40.1,这表明 ByteTrack 也可以应对自动驾驶场景中的挑战。

5. 结论

我们提出了一种简单而有效的数据关联方法 BYTE 用于多对象跟踪。 BYTE 可以很容易地应用于现有的跟踪器并实现一致的改进。我们还提出了一个强大的跟踪器 ByteTrack,它在 MOT17 测试集上以 30 FPS 实现了 80.3 MOTA、77.3 IDF1 和 63.1 HOTA,在排行榜上的所有跟踪器中排名第一。 ByteTrack 因其准确的检测性能和关联低分检测框的帮助而对遮挡非常鲁棒。它还阐明了如何充分利用检测结果来增强多目标跟踪。我们希望 ByteTrack 的高精度、快速和简单性能够使其在实际应用中具有吸引力。