YOLOV7:Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
摘要
YOLOv7 在 5 FPS 到 160 FPS 范围内的速度和精度都超过了所有已知的物体检测器,并且在 GPU V100 上具有 30 FPS 或更高的所有已知实时物体检测器中具有最高的精度 56.8% AP。 YOLOv7-E6 目标检测器(56 FPS V100,55.9% AP)比基于transformer的检测器 SWIN-L Cascade-Mask R-CNN(9.2 FPS A100,53.9% AP)的速度和准确度分别高出 509% 和 2%,以及基于卷积的检测器 ConvNeXt-XL Cascade-Mask R-CNN (8.6 FPS A100, 55.2% AP) 速度提高 551%,准确率提高 0.7% AP,以及 YOLOv7 的表现优于:YOLOR、YOLOX、Scaled-YOLOv4、YOLOv5、DETR、Deformable DETR , DINO-5scale-R50, ViT-Adapter-B 和许多其他物体探测器在速度和准确度上。 此外,我们只在 MS COCO 数据集上从头开始训练 YOLOv7,而不使用任何其他数据集或预训练的权重。 源码发布在https://github.com/WongKinYiu/yolov7
1. 介绍
实时对象检测是计算机视觉中非常重要的主题,因为它通常是计算机视觉系统中的必要组件。 例如,多目标跟踪[94, 93],自动驾驶[40, 18],机器人[35, 58],医学图像分析[34, 46]等。执行实时目标检测的计算设备是 通常是一些移动CPU或GPU,以及各大厂商开发的各种神经处理单元(NPU)。 比如苹果神经引擎(Apple)、神经计算棒(Intel)、Jetson AI边缘设备(Nvidia)、边缘TPU(谷歌)、神经处理引擎(Qualcomm)、AI处理单元(MediaTek)、 和 AI SoC(Kneron)都是 NPU。 上面提到的一些边缘设备专注于加速不同的操作,例如普通卷积、深度卷积或 MLP 操作。 在本文中,我们提出的实时目标检测器主要希望它能够同时支持移动 GPU 和从边缘到云端的 GPU 设备。
近年来,实时目标检测器仍在针对不同的边缘设备进行开发。 例如,MCUNet的发展和 NanoDet [54] 专注于生产低功耗单芯片并提高边缘 CPU 的推理速度。 至于 YOLOX [21] 和 YOLOR [81] 等方法,他们专注于提高各种 GPU 的推理速度。 最近,实时目标检测器的发展集中在高效架构的设计上。 至于可以在 CPU [54, 88, 84, 83] 上使用的实时目标检测器,他们的设计主要基于 MobileNet [28, 66, 27]、ShuffleNet [92, 55] 或 GhostNet [25] . 另一个主流的实时目标检测器是为 GPU [81, 21, 97] 开发的,它们大多使用 ResNet [26]、DarkNet [63] 或 DLA [87],然后使用 CSPNet [80] 策略来优化 建筑学。本文提出的方法的发展方向与当前主流的实时目标检测器不同。 除了架构优化之外,我们提出的方法将专注于训练过程的优化。 我们的重点将放在一些优化的模块和优化方法上,它们可能会增加训练成本以提高目标检测的准确性,但不会增加推理成本。我们将提出的模块和优化方法称为bag-of-freebies.
最近,模型重新参数化[13,12,29]和动态标签分配[20,17,42]已成为网络训练和目标检测的重要课题。 主要是在上述新概念提出之后,物体检测器的训练演变出了很多新的问题。 在本文中,我们将介绍我们发现的一些新问题,并设计解决这些问题的有效方法。 对于模型重参数化,我们用梯度传播路径的概念分析了适用于不同网络层的模型重参数化策略,并提出了有计划的重参数化模型。 此外,当我们发现使用动态标签分配技术时,具有多个输出层的模型的训练会产生新的问题。
即:“如何为不同分支的输出分配动态目标?” 针对这个问题,我们提出了一种新的标签分配方法,称为从粗到细的引导式标签分配。
本文的贡献总结如下:(1)我们设计了几种可训练的bag-of-freebies方法,使得实时目标检测可以在不增加推理成本的情况下大大提高检测精度; (2) 对于目标检测方法的演进,我们发现了两个新问题,即重新参数化的模块如何替换原始模块,以及动态标签分配策略如何处理分配给不同输出层的问题。 此外,我们还提出了解决这些问题所带来的困难的方法; (3) 我们提出了实时目标检测器的“扩展”和“复合缩放”方法,可以有效地利用参数和计算; (4) 我们提出的方法可以有效减少最先进的实时目标检测器约40%的参数和50%的计算量,并且具有更快的推理速度和更高的检测精度。
2. 相关工作
2.1 实时目标检测器
目前最先进的实时目标检测器主要基于 YOLO [61, 62, 63] 和 FCOS [76, 77],分别是 [3, 79, 81, 21, 54, 85, 23] . 能够成为最先进的实时目标检测器通常需要以下特性:(1)更快更强的网络架构; (2) 更有效的特征整合方法[22, 97, 37, 74, 59, 30, 9, 45]; (3) 更准确的检测方法 [76, 77, 69]; (4) 更稳健的损失函数 96, 64, 6, 56, 95, 57 一种更有效的标签分配方法 [99, 20, 17, 82, 42]; (6) 更有效的训练方法。 在本文中,我们不打算探索需要额外数据或大型模型的自我监督学习或知识蒸馏方法。 相反,我们将针对与上述 (4)、(5) 和 (6) 相关的最先进方法衍生的问题设计新的可训练的bag-of-freedies。
2.2. 模型重新参数化
模型重新参数化技术 [71、31、75、19、33、11、4、24、13、12、10、29、14、78] 在推理阶段将多个计算模块合并为一个。 模型重参数化技术可以看作是一种集成技术,我们可以将其分为两类,即模块级集成和模型级集成。模型级别的重新参数化有两种常见的做法来获得最终的推理模型。 一种是用不同的训练数据训练多个相同的模型,然后对多个训练模型的权重进行平均。 另一种是对不同迭代次数的模型权重进行加权平均。 模块级重新参数化是最近比较热门的研究问题。 这种方法在训练时将一个模块拆分为多个相同或不同的模块分支,在推理时将多个分支模块整合为一个完全等效的模块。 然而,并非所有提出的重新参数化模块都可以完美地应用于不同的架构。 考虑到这一点,我们开发了新的重新参数化模块,并为各种架构设计了相关的应用策略。
2.3. 模型缩放
模型缩放 [72, 60, 74, 73, 15, 16, 2, 51] 是一种放大或缩小已设计模型并使其适合不同计算设备的方法。 模型缩放方法通常使用不同的缩放因子,例如分辨率(输入图像的大小)、深度(层数)、宽度(通道数)和阶段(特征金字塔的数量),以实现良好的权衡 -off 表示网络参数的数量、计算量、推理速度和准确性。网络架构搜索(NAS)是常用的模型缩放方法之一。 NAS 可以自动从搜索空间中搜索到合适的缩放因子,而无需定义过于复杂的规则。 NAS 的缺点是需要非常昂贵的计算来完成对模型缩放因子的搜索。 在[15]中,研究人员分析了缩放因子与参数数量和操作量之间的关系,试图直接估计一些规则,从而获得模型缩放所需的缩放因子。 查阅文献,我们发现几乎所有模型缩放方法都独立分析单个缩放因子,甚至复合缩放类别中的方法也独立优化缩放因子。 这样做的原因是因为大多数流行的 NAS 架构处理的比例因子不是很相关。 我们观察到,所有基于连接的模型,例如 DenseNet [32] 或 VoVNet [39],都会在缩放此类模型的深度时改变某些层的输入宽度。 由于所提出的架构是基于串联的,我们必须为此模型设计一种新的复合缩放方法。
3. 结构
3.1 扩展的高效层聚合网络
在大多数关于设计高效架构的文献中,主要考虑因素不超过参数的数量、计算量和计算密度。 Ma等人从内存访问成本的特点出发。 [55]还分析了输入/输出通道比、架构的分支数量以及逐元素操作对网络推理速度的影响。 多尔阿尔等人。 [15] 在执行模型缩放时还考虑了激活,即更多地考虑卷积层输出张量中的元素数量。 图 2(b)中 CSPVoVNet [79] 的设计是 VoVNet [39] 的变体。 除了考虑上述基本设计问题外,CSPVoVNet [79] 的架构还分析了梯度路径,以使不同层的权重能够学习更多不同的特征。上述梯度分析方法使推理更快、更准确。 图 2 (c) 中的 ELAN [1] 考虑了以下设计策略——“如何设计一个高效的网络?”。 他们得出了一个结论:通过控制最短最长的梯度路径,更深的网络可以有效地学习和收敛。 在本文中,我们提出了基于 ELAN 的扩展 ELAN(E-ELAN),其主要架构如图 2(d)所示。
无论梯度路径长度和大规模 ELAN 中计算块的堆叠数量如何,它都达到了稳定状态。 如果无限堆叠更多的计算块,可能会破坏这种稳定状态,参数利用率会降低。 提出的E-ELAN使用expand、shuffle、merge cardinality来实现在不破坏原有梯度路径的情况下不断增强网络学习能力的能力。在架构方面,E-ELAN 只改变了计算块的架构,而过渡层的架构完全没有改变。 我们的策略是使用组卷积来扩展计算块的通道和基数。 我们将对计算层的所有计算块应用相同的组参数和通道乘数。 然后,每个计算块计算出的特征图会根据设置的组参数g被打乱成g个组,然后将它们连接在一起。 此时,每组特征图的通道数将与原始架构中的通道数相同。最后,我们添加 g 组特征图来执行合并基数。 除了保持原有的 ELAN 设计架构,E-ELAN 还可以引导不同组的计算块学习更多样化的特征。
3.2. 基于concatenation的模型的模型缩放
模型缩放的主要目的是调整模型的一些属性,生成不同尺度的模型,以满足不同推理速度的需求。 例如,EfficientNet [72] 的缩放模型考虑了宽度、深度和分辨率。 至于 scaled-YOLOv4 [79],其缩放模型是调整阶段数。 在 [15] 中,Doll´ar 等人。 分析了香草卷积和组卷积在进行宽度和深度缩放时对参数量和计算量的影响,并以此设计了相应的模型缩放方法。以上方法主要用在PlainNet或ResNet等架构中。 这些架构在执行扩容或缩容时,每一层的入度和出度都不会发生变化,因此我们可以独立分析每个缩放因子对参数量和计算量的影响。 但是,如果将这些方法应用于基于连接的架构,我们会发现,当对深度进行放大或缩小时,紧接基于连接的计算块之后的平移层的入度会减小或 增加,如图3(a)和(b)所示。
从上述现象可以推断,对于基于串联的模型,我们不能单独分析不同的缩放因子,而必须一起考虑。
以scaling-up depth为例,这样的动作会导致transition layer的输入通道和输出通道的比例发生变化,这可能会导致模型的硬件使用率下降。 因此,我们必须为基于级联的模型提出相应的复合模型缩放方法。 当我们缩放一个计算块的深度因子时,我们还必须计算该块的输出通道的变化。 然后,我们将对过渡层进行等量变化的宽度因子缩放,结果如图3(c)所示。 我们提出的复合缩放方法可以保持模型在初始设计时的特性并保持最佳结构。
4. 可训练的bag-of-freedies
4.1 Planned reparameterized convolution
虽然 RepConv [13] 在 VGG [68] 上取得了优异的性能,但当我们直接将其应用到 ResNet [26] 和 DenseNet [32] 等架构时,其准确率会显着降低。 我们使用梯度流传播路径来分析重新参数化的卷积应该如何与不同的网络相结合。我们还相应地设计了计划的重新参数化卷积。
RepConv 实际上在一个卷积层中结合了 $3\times 3$卷积、$1\times 1$卷积和恒等连接。 在分析了 RepConv 和不同架构的组合和对应性能后,我们发现 RepConv 中的恒等连接破坏了 ResNet 中的残差和 DenseNet 中的连接,为不同的特征图提供了更多的梯度多样性。 基于以上原因,我们使用无身份连接的 RepConv (RepConvN) 来设计计划重参数化卷积的架构。 在我们的想法中,当一个带有残差或连接的卷积层被重新参数化的卷积代替时,应该没有恒等连接。 图 4 显示了我们设计的用于 PlainNet 和 ResNet 的“计划重新参数化卷积”的示例。 至于基于残差模型和基于连接模型的完整计划的重新参数化卷积实验,将在消融研究会议上进行介绍。
4.2. Coarse for auxiliary and fine for lead loss
深度监督 [38] 是一种常用于训练深度网络的技术。 它的主要概念是在网络的中间层添加额外的辅助头,以辅助损失为指导的浅层网络权重。 即使对于 ResNet [26] 和 DenseNet [32] 等通常收敛良好的架构,深度监督 [70, 98, 67, 47, 82, 65, 86, 50] 仍然可以显着提高模型在许多任务上的性能 . 图 5 (a) 和 (b) 分别显示了“没有”和“有”深度监督的目标检测器架构。 在本文中,我们将负责最终输出的head称为lead head,用于辅助训练的head称为辅助head。
接下来我们要讨论标签分配的问题。 过去,在深度网络的训练中,标签分配通常直接指的是ground truth,并根据给定的规则生成硬标签。 然而,近年来,如果我们以物体检测为例,研究人员往往会利用网络预测输出的质量和分布,然后与ground truth一起考虑使用一些计算和优化方法来生成可靠的软标签 [61、8、36、99、91、44、43、90、20、17、42]。例如,YOLO [61] 使用预测边界框回归和地面实况的 IoU 作为 objectness 的软标签。在本文中,我们将网络预测结果与基本事实一起考虑,然后分配软标签的机制称为“标签分配器”。
无论辅助头或lead-head的情况如何,都需要对目标目标进行深度监督。 在开发软标签分配器相关技术的过程中,我们无意中发现了一个新的衍生问题,即“如何将软标签分配给辅助头和前导头?” 据我们所知,到目前为止,相关文献还没有探讨过这个问题。 目前最流行的方法的结果如图5(c)所示,就是将辅助head和lead head分离出来,然后利用各自的预测结果和ground truth进行标签分配。 本文提出的方法是一种新的标签分配方法,通过前导头预测来指导辅助头和前导头。换句话说,我们使用引导头预测作为指导来生成从粗到细的分层标签,这些标签分别用于辅助头部和引导头学习。 提出的两种深度监督标签分配策略分别如图 5 (d) 和 (e) 所示。
Lead headg uided label assigner 主要根据lead head的预测结果和ground truth计算,通过优化过程生成软标签。 这组软标签将用作辅助头和lead head的目标训练模型。这样做的原因是因为lead head具有比较强的学习能力,所以从它生成的软标签应该更能代表源数据和目标之间的分布和相关性。 此外,我们可以将这种学习视为一种广义残差学习。 通过让较浅的辅助头直接学习领导头已经学习的信息,lead head将更能专注于学习尚未学习的残差信息。
Coarse-to-fine lead head guided label assigner 也使用铅头的预测结果和地面实况来生成软标签。 然而,在这个过程中,我们生成了两组不同的软标签,即粗标签和细标签,其中细标签与铅头引导标签分配器生成的软标签相同,而粗标签是通过允许更多的网格来生成的。 通过放宽正样本分配过程的约束,将其视为正目标。 原因是辅助头的学习能力不如前导头强,为了避免丢失需要学习的信息,我们将重点优化辅助头的召回率。 物体检测任务。 至于lead head的输出,我们可以从高recall结果中过滤出高精度结果作为最终输出。 但是,我们必须注意,如果粗标签的附加权重接近那些精细模型。它可能会在最终预测时产生不良先验。因此,为了使那些超粗的正网格影响更小,我们在解码器中设置了限制,使超粗的正网格不能完美地产生软标签。 上述机制允许在学习过程中动态调整细标签和粗标签的重要性,使细标签的可优化上界始终高于粗标签。
4.3. 其他可训练的bag-of-freedies
在本节中,我们将列出一些可训练的bag-of-freedies。这些免费赠品是我们在训练中使用的一些技巧,但最初的概念并不是我们提出的。 这些freebies的训练细节将在附录中详细说明,包括(1)conv-bn-activation topology中的Batch normalization:这部分主要将batch normalization layer直接连接到convolutional layer。这样做的目的是在推理阶段将批归一化的均值和方差整合到卷积层的偏差和权重中。 (2) YOLOR[81]中的隐式知识与卷积特征图相结合的加法和乘法方式:YOLOR中的隐式知识可以在推理阶段通过预计算简化为向量。 该向量可以与前一个或后一个卷积层的偏差和权重相结合。 (3) EMA 模型:EMA 是一种在 mean teacher [75] 中使用的技术,在我们的系统中,我们使用 EMA 模型纯粹作为最终的推理模型。
5. 实验
5.1. 实验设置
我们使用 Microsoft COCO 数据集进行实验并验证我们的对象检测方法。 我们所有的实验都没有使用预训练模型。 也就是说,所有模型都是从头开始训练的。 在开发过程中,我们使用train 2017 set进行训练,然后使用val 2017 set进行验证和选择超参数。 最后,我们展示了对象检测在 2017 年测试集上的性能,并将其与最先进的对象检测算法进行了比较。 详细的训练参数设置在附录中描述。
我们设计了边缘 GPU、普通 GPU 和云 GPU 的基本模型,它们分别称为 YOLOv7tiny、YOLOv7 和 YOLOv7-W6。 同时,我们还针对不同的业务需求,使用基础模型进行模型缩放,得到不同类型的模型。 对于YOLOv7,我们对颈部进行stack scaling,并使用提出的复合缩放方法对整个模型的深度和宽度进行缩放,并以此获得YOLOv7-X。 对于 YOLOv7-W6,我们使用新提出的复合缩放方法得到 YOLOv7-E6 和 YOLOv7-D6。 此外,我们将提议的 EELAN 用于 YOLOv7-E6,从而完成了 YOLOv7E6E。 由于 YOLOv7-tiny 是一个面向边缘 GPU 的架构,它会使用leaky ReLU 作为激活函数。 至于其他模型,我们使用 SiLU 作为激活函数。 我们将在附录中详细描述每个模型的比例因子。
5.2. baseline
我们选择以前版本的 YOLO [3, 79] 和最先进的目标检测器 YOLOR [81] 作为我们的基线。 表 1 显示了我们提出的 YOLOv7 模型与使用相同设置训练的基线的比较。从结果我们看到,如果与 YOLOv4 相比,YOLOv7 的参数减少了 75%,计算量减少了 36%,AP 提高了 1.5%。 如果与 state-of-theart YOLOR-CSP 相比,YOLOv7 的参数减少了 43%,计算量减少了 15%,AP 提高了 0.4%。 在tiny模型的性能上,与YOLOv4-tiny-31相比,YOLOv7tiny参数数量减少了39%,计算量减少了49%,但AP保持不变。在云 GPU 模型上,我们的模型仍然可以有更高的 AP,同时减少 19% 的参数数量和 33% 的计算量。
5.3. 与 stateofthearts 的比较
我们将提出的方法与用于通用 GPU 和 Mobile GPU 的最先进的目标检测器进行比较,结果如表 2 所示。从表 2 中的结果我们知道,所提出的方法具有最佳速度 - 全面的准确性权衡。 如果我们将 YOLOv7-tiny-SiLU 与 YOLOv5-N (r6.1) 进行比较,我们的方法在 AP 上的速度提高了 127 fps,准确率提高了 10.7%。 此外,YOLOv7 161 fps 的帧率有 51.4% AP,而相同 AP 的 PPYOLOE-L 只有 78 fps 的帧率。 在参数使用方面,YOLOv7 比 PPYOLOE-L 少 41%。 如果我们将推理速度为 114 fps 的 YOLOv7-X 与推理速度为 99 fps 的 YOLOv5-L (r6.1) 进行比较,YOLOv7-X 可以将 AP 提高 3.9%。 如果将 YOLOv7X 与类似规模的 YOLOv5-X (r6.1) 进行比较,YOLOv7-X 的推理速度快了 31 fps。 此外,在参数量和计算量方面,YOLOv7-X 相比 YOLOv5-X(r6.1)减少了 22% 的参数和 8% 的计算量,但 AP 提升了 2.2%。
如果我们使用输入分辨率 1280 比较 YOLOv7 和 YOLOR,YOLOv7-W6 的推理速度比 YOLOR-P6 快 8 fps,检测率也提高了 1% AP。 至于YOLOv7-E6和YOLOv5-X6(r6.1)的对比,前者AP增益比后者高0.9%,参数少45%,计算量少63%,推理速度提升47%。
YOLOv7-D6 的推理速度与 YOLOR-E6 接近,但 AP 提高了 0.8%。 YOLOv7-E6E 的推理速度与 YOLOR-D6 接近,但 AP 提高了 0.3%。
5.4. 消融研究
5.4.1 建议的复合缩放方法
表 3 显示了使用不同模型缩放策略进行缩放时获得的结果。 其中,我们提出的复合缩放方法是将计算块的深度放大1.5倍,将过渡块的宽度放大1.25倍。 如果我们的方法与仅按比例放大宽度的方法相比,我们的方法可以以更少的参数和计算量将 AP 提高 0.5%。 如果我们的方法与只放大深度的方法相比,我们的方法只需增加2.9%的参数数量和1.2%的计算量,就可以提高0.2%的AP。从表 3 的结果可以看出,我们提出的复合缩放策略可以更有效地利用参数和计算。
5.4.2 提出的计划重参数化模型
为了验证我们提出的计划重参数化模型的通用性,我们分别在基于连接的模型和基于残差的模型上进行验证。我们选择用于验证的基于连接的模型和基于残差的模型分别是 3-stacked ELAN 和 CSPDarknet。在concatenation-based模型的实验中,我们将3-stacked ELAN中不同位置的3个3卷积层替换为RepConv,详细配置如图6所示。从表4所示的结果可以看出,所有更高 AP 值存在于我们提出的计划重新参数化模型中。
在处理基于残差的模型的实验中,由于原始暗块没有 3 3 卷积block符合我们的设计策略,我们为实验额外设计了一个反向暗块,其架构如图7所示。由于具有暗块和反向暗块的CSPDarknet具有完全相同的参数和操作量,因此公平 相比。 表 5 所示的实验结果充分证实了所提出的计划重新参数化模型在基于残差的模型上同样有效。 我们发现 RepCSPResNet [85] 的设计也符合我们的设计模式。
5.4.3
提议的辅助头部 辅助损失在辅助头部的辅助损失实验中,我们比较了引导头部和辅助头部方法的一般独立标签分配,并且我们还比较了两种提议的引导引导标签分配方法。 我们在表 6 中展示了所有比较结果。从表 6 中列出的结果可以看出,任何增加辅助损失的模型都可以显着提高整体性能。 此外,我们提出的引导式标签分配策略比 AP、AP50 和 AP75 中的一般独立标签分配策略具有更好的性能。 至于我们提出的粗略辅助和精细引导标签分配策略,它在所有情况下都会产生最佳结果。 在图 8 中,我们展示了在辅助头和前导头上通过不同方法预测的对象图。 从图 8 中我们发现,如果辅助头部学习引导引导软标签,它确实会帮助引导头部从一致目标中提取残差信息。
在表 7 中,我们进一步分析了所提出的从粗到细的引导引导标签分配方法对辅助头解码器的影响。 也就是说,我们比较了引入/不引入上限约束的结果。从表中的数字来看,通过到物体中心的距离来约束objectness的上界的方法可以获得更好的性能。
由于提出的 YOLOv7 使用多个金字塔来联合预测目标检测结果,我们可以直接将辅助头连接到中间层的金字塔进行训练。 这种训练可以弥补下一层金字塔预测中可能丢失的信息。
由于上述原因,我们在提议的 E-ELAN 架构中设计了部分辅助头。 我们的方法是在合并基数之前在其中一组特征图之后连接辅助头,这种连接可以使新生成的一组特征图的权重不会被辅助损失直接更新。 我们的设计允许每个铅头金字塔仍然从不同大小的物体中获取信息。 表 8 显示了使用两种不同方法获得的结果,即粗到细导联方法和部分粗到细导联方法。 显然,部分由粗到细的导引法具有更好的辅助效果。
6.结论
在本文中,我们提出了一种新的实时目标检测器架构和相应的模型缩放方法。 此外,我们发现目标检测方法的发展过程产生了新的研究课题。
在研究过程中,我们发现了重新参数化模块的替换问题和动态标签分配的分配问题。 为了解决这个问题,我们提出了可训练的bag-of-freebies方法来提高目标检测的准确性。 基于上述,我们开发了 YOLOv7 系列目标检测系统,该系统获得了最先进的结果。