文献阅读-DCNV2

Scroll Down

摘要

可变形卷积网络的卓越性能源于其适应物体几何变化的能力。通过检查其适应性行为,我们观察到,虽然对其神经特征的空间支持比常规卷积神经网络更符合对象结构,但这种支持可能远远超出感兴趣区域,导致特征受到不相关图像内容的影响。为了解决这个问题,我们提出了可变形卷积网络的新方法,以提高其聚焦相关图像区域的能力。通过提高建模能力和更好的训练。通过在网络中更全面地集成可变形卷积,并通过引入扩展变形建模范围的调制机制,增强了建模能力。为了有效地利用这种丰富的建模能力,我们通过提出的特征模拟方案指导网络训练,该方案帮助网络学习反映RCNN特征的对象焦点和分类能力的特征。通过提议的贡献,这个新版本的可变形卷积神经网络比原始模型产生了显着的性能提升,并在对象检测和实例分割的COCO基准测试上产生了领先的结果。

1.介绍

由于比例、姿势、视点和零件变形引起的几何变化是物体识别和检测的主要挑战。目前解决这个问题的最新方法是可变形卷积网络(DCNv1)[7],它引入了两个模块来帮助CNN对这种变化进行建模。其中一个模块是可变形卷积,其中标准卷积的网格采样位置相对于上述特征图产生一个位移偏移,另一种是可变形的 RoIpooling,其中学习 RoIpooling 中bin位置的偏移 [15]。将这些模块合并到神经网络中,使其能够使其特征表示适应对象的配置,特别是通过变形其采样和池化模式以适应对象的结构。通过这种方法,可以大大提高目标检测精度。

为了理解可变形卷积网络,作者通过排列PASCAL VOC图像中的偏移采样位置,可视化了感受野的诱导变化[10]。发现激活单元的样本倾向于聚集在其所在的对象周围。然而,物体的覆盖范围是不精确的,表现出超出感兴趣区域的样本扩散。在使用更具挑战性的COCO数据集[28]的图像对空间支持进行更深入的分析时,我们观察到这种行为变得更加明显。这些发现表明,学习可变形卷积存在更大的潜力。

在本文中,我们提出了一个新版本的可变形卷积神经网络,称为可变形卷积网v2(DCNv2),具有增强的建模能力,用于学习可变形卷积。建模能力的提高有两种互补的形式。首先是在网络中扩展可变形卷积层的使用。为更多的卷积层配备偏移学习能力,使 DCNv2 能够在更广泛的特征级别上控制采样。第二种是可变形卷积模块中的调制机制,其中每个样本不仅经历学习的偏移,而且还通过学习的特征幅度进行调制。因此,网络模块能够改变其样本的空间分布和相对影响。

为了完全激发DCNV2对于建模能力的提高,受之前神经网络中知识蒸馏工作的启发,为此,我们利用教师网络,教师在训练期间提供指导。我们特别使用R-CNN [16]作为老师。由于 R-CNN 是一个经过训练的网络,用于对裁剪图像内容进行分类,因此它学习的特征不受感兴趣区域之外的不相关信息的影响。为了模拟这一属性,DCNv2 在其训练中加入了一个模仿损失的特征,这有利于学习与 R-CNN 一致的特征。通过这种方式,DCNv2为其增强的可变形采样提供了强大的训练信号。

通过提议的更改,可变形模块保持轻量级,可以很容易地整合到现有的网络架构中。具体来说,我们将DCNv2整合到具有各种骨干网络的Faster R-CNN [32]和Mask R-CNN [19]系统中。在COCO基准测试上的大量实验表明,DCNv2在对象检测和实例分割方面比DCNv1有显著改进。DCNv2的代码将发布

2. 可变形卷积行为的分析

2.1 空间支持可视化

为了更好地理解可变形卷积神经网络的行为,我们通过其有效感受野 [30]、有效采样位置和误差边界显著区域可视化网络节点的空间支持。这三种模式为有助于节点响应的基础图像区域提供了不同且互补的观点。

有效感受野 并非网络节点感受野中的所有像素对其响应的贡献都相同。
这些贡献的差异由有效感受野表示,其值计算为节点响应相对于每个图像像素的强度扰动的梯度[30]。我们利用有效感受野来检查单个像素对网络节点的相对影响,但请注意,该度量并不反映完整图像区域的结构化影响。

有效采样/箱位 在 [7] 中,可视化了(堆叠)卷积层的采样位置和 RoIpooling 层中的采样箱,以了解可变形卷积网的行为。但是,这些采样位置对网络节点的相对贡献并未显示。相反,我们可视化包含此信息的有效采样位置,计算为网络节点相对于采样/箱位置的梯度,以了解它们的贡献强度。
误差边界显著区域
如果我们删除不影响网络节点的图像区域,网络节点的响应将不会改变,正如最近对图像显著性的研究所证明的那样[40,41,12,6]。基于此属性,我们可以确定节点的支持区域作为最小的图像区域,在较小的误差范围内给出与完整图像相同的响应。我们将其称为有误差边界的显著区域,可以通过逐步屏蔽图像的某些部分并计算生成的节点响应来找到它,如附录中更详细地描述的那样。误差边界显著性区域有助于比较来自不同网络的支持区域。

2.2 可变形网络的空间支持

我们分析了可变形卷积网络在目标检测中的视觉支撑区域。我们用作baseline的常规 ConvNet 由一个更快的 R-CNN + ResNet50 [20] 对象检测器组成,具有对齐的 RoIpooling1 [19]。ResNet-50 中的所有卷积层都应用于整个输入图像。conv5 阶段的有效步幅从 32 像素减少到 16 像素,以提高特征图分辨率。RPN [32] 头被添加到 ResNet-101 的 conv4 功能之上。在 conv5 功能之上,我们添加了快速 R-CNN 头 [15],它由对齐的 RoIpooling 和两个全连接 (fc) 层组成,然后是分类和边界框回归分支。我们按照 [7] 中的步骤将物体检测器变成其可变形的对应物。conv5阶段的3×3卷积的三层被可变形的卷积层所取代。此外,对齐的 RoIpooling 层被可变形的 RoIPooling 所取代。这两个网络都是在COCO基准上训练和可视化的。值得一提的是,当偏移学习率设置为零时,可变形更快R-CNN检测器退化为具有对齐RoIpooling的常规更快R-CNN。

使用三种可视化模式,我们检查了图1(a)~(b)中 conv5 阶段最后一层节点的空间支持。还显示了 [7] 中分析的采样位置。从这些可视化中,我们进行了以下观察:

  1. 常规卷积神经网络可以在一定程度上模拟几何变化,空间支持相对于图像内容的变化证明了这一点。由于深度卷积神经网络的强大表示能力,网络权重被学习以适应某种程度的几何变换。
  2. 通过引入可变形卷积,即使在具有挑战性的 COCO 基准上,网络模拟几何变换的能力也得到了显着增强。空间支持更多地适应图像内容,前景上的节点具有覆盖整个对象的支持,然而背景上的节点有扩大的支持,包含更大的背景。然而,空间支持的范围可能不精确,前景节点的有效感受野和误差边界显著区域包括与检测无关的背景区域。
    image.png
  3. 所呈现的三种类型的空间支持可视化比 [7] 中使用的采样位置更具信息性。例如,这可以从regu-lar ConvNets中看到,它沿着网格具有固定的采样位置,但实际上通过网络权重来调整其有效的空间支持。可变形卷积网络也是如此,其预测共同受到学习偏移和网络权重的影响。如 [7] 中所述,单独检查采样位置可能会导致关于可变形卷积网的误导性结论。

图 2(a)∼(b) 显示了每个RoI 检测头中 2fc 节点的空间支持,该支持直接由分类和边界框 regres-sion 分支组成。有效图格位置的可视化表明,对象前景上的图格通常会从分类分支接收较大的梯度,从而对预测产生更大的影响。此观察结果适用于对齐的 RoIpooling 和可变形的 RoIpooling。在可变形的 RoIpooling 中,由于引入了可学习的 RoIpool,比对齐的 RoIpooling 中覆盖对象前景的bin的亲部分要大得多。因此,来自相关bin的更多信息可用于下游快速R-CNN头。同时,对齐RoIpooling和可变形RoIpooling中的误差边界显著区域并未完全集中在目标前景上,这表明RoI之外的图像内容会影响预测结果。根据最近的一项研究[5],这种特征干扰可能对检测有害。

虽然很明显,与常规卷积网相比,可变形卷积网具有显着提高适应几何变化的能力,但也可以看出它们的空间支持可能超出相互影响的区域。因此,我们寻求升级可变形卷积网络,以便它们能够更好地专注于相关的图像内容并提供更高的检测精度

3. 更多可变形卷积网络

为了提高网络适应几何变化的能力,我们提出了一些变化,以提高其建模能力并帮助它利用这种增加的能力。

3.1 级联更多的可变形网络层

在可变形卷积网可以在具有挑战性的基准上有效地模拟几何变换的观察结果的鼓舞下,我们大胆地用可变形的卷积替换常规卷积层。我们期望通过堆叠更多可变形的卷积层,可以进一步加强整个网络的几何变换建模能力。

在这篇论文中,可变形卷积被应用到ResNet-50中stages conv3、conv4和conv5中所有的$3\times 3$卷积层中,因此,网络中有 12 层可变形卷积。相比之下,[7] 中只使用了三层可变形卷积,全部处于 conv5 阶段。在[7]中观察到,对于相对简单和小规模的PASCAL VOC基准,当堆叠三层以上时,性能会饱和。此外,COCO上的误导性偏移可视化可能会阻碍对更具挑战性的基准的进一步探索。在实验中,我们观察到在conv3-conv5阶段利用可变形层可以在COCO上实现目标检测的准确性和效率之间的最佳权衡。有关详细信息,请参见第 5.2 节

3.2 可调节的可变形模块

为了进一步加强可变形卷积网操纵空间支撑区域的能力,该文引入一种调制机制。有了它,可变形卷积网模块不仅可以调整感知输入特征的偏移,还可以调制来自不同空间位置/箱的输入特征振幅。在极端情况下,模块可以通过将其特征幅度设置为零来决定不感知来自特定位置/箱的信号。因此,来自相应空间位置的图像内容将对模块输出产生相当大的影响或没有影响。因此,调制机制为网络模块提供了另一个维度的自由来调整其空间支持区域。

给定 K 个采样位置的卷积核,设 wk 和 pk 分别表示第 k 个位置的权重和预先指定的偏移量。例如,K=9并且
$$p_k \in {(-1,-1),(-1,0), ...,(1,1) }$$
定义了dilation=1的$3\times 3$ 卷积核,让x(p)和y(p)对应表示输入特征图x和输出特征图y在位置p上的特征,可调节变形卷积可以表示成:
image.png
其中
$$\Delta p_k \Delta m_k$$
是第k个位置的可学习的偏移和调节因子,
$$\Delta m_k$$
位于[0,1]之间,
$$\Delta p_k$$
是没有范围的实数,由于
$$p+p_k+ \Delta p_k$$
是小数,双线性插值被应用在计算
$$x(p+p_k+\Delta_
)$$
$$\Delta p_k \Delta m_k$$
通过应用于相同输入特征映射X的单独卷积层获得。该卷积层与当前卷积层具有相同的空间分辨率和膨胀。输出为 3K 通道,其中前 2K 通道对应于学习的偏移
image.png
剩余的k通道进一步送入sigmoid层来获得调节因子
image.png
这个单独的卷积层中的核权重初始化为零。因此,Δpk 和 Δmk 的初始值分别为 0 和 0.5。用于偏移和调制学习的附加卷积层的学习速率设置为现有层的0.1倍。

调制可变形RoIpooling的设计类似。给定输入 RoI,RoIpooling 将其划分为 K 个空间箱(例如 7 × 7)。在每个箱内,应用偶数空间间隔的采样网格(例如 2 × 2)。对网格上的采样值求平均值以计算箱输出。设 Δpk 和 Δmk 是第 k 个箱的可学习偏移和调制标量。输出分箱特征 y(k) 的计算公式为:
image.png
其中 Pkj 是第 k 个箱中第 j 个网格像元的采样位置,nk 表示采样网格像元的数量。应用双线性插值得到特征x(pkj+Δpk)。Δpk 和 Δmk 的值由输入特征图上的同级分支生成。在此分支中,RoIpooling 在 RoI 上生成特征,然后生成两个具有 3K 输出通道的 fc 层(两个 fc 层之间的特征维度为 1024-D)。前 2K 通道是归一化可学习偏移量,其中计算与 RoI 宽度和高度的逐元素乘法以获得
image.png
。其余的 K 通道由 sigmoid 层归一化以产生
image.png
fc 层权重也初始化为零。用于偏移学习的新增 fc 层的学习率与现有层的学习率相同

3.3 R-CNN特征模仿

如图 2 所示,对于常规卷积网络和可变形卷积网络,每个 RoI 分类节点的误差边界显著区域都可以超出 RoI。因此,RoI之外的图像内容可能会影响提取的特征,从而降低目标检测的最终结果。

在[5]中,作者发现冗余信息是Faster R-CNN中检测错误的可能原因,伴随有其他的动机(比如在分类和bbox回归分支之间共享更少的特征),作者提出组合Faster R-CNN和R-CNN的分类分数来获取最终的检测分数。由于R-CNN分类分数关注从输入的RoI裁剪图像内容,增加他们可以帮助减轻冗余上下文问题、提高检测精度。然而,组合的系统非常慢因为Faster R-CNN和R-CNN分支需要在训练和推理过程中均被应用。

同时,Deformable ConvNets 在调整空间支持区域方面非常强大。 特别是对于 Deformable ConvNets v2,调制的可变形 RoIpooling 模块可以简单地以排除冗余上下文的方式设置 bin 的调制标量。 然而,我们在第 5.3 节中的实验表明,即使使用调制可变形模块,也无法通过标准的 Faster R-CNN 训练程序很好地学习此类表示。我们怀疑这是因为传统的 Faster RCNN 训练损失无法有效地驱动此类表示的学习。需要额外的指导来指导训练。

受最近关于特征模仿 [1, 21, 26] 的研究的启发,我们在 Deformable Faster R-CNN 的 per-RoI 特征上加入了特征模拟损失,以迫使它们与从裁剪图像中提取的 R-CNN 特征相似。 这个辅助训练目标旨在驱动 Deformable Faster R-CNN 像 R-CNN 一样学习更多“集中”的特征表示。 我们注意到,基于图 2 中的可视化空间支持区域,聚焦特征表示对于图像背景上的负 RoI 可能不是最佳选择。 对于背景区域,可能需要考虑更多上下文信息,以免产生误报检测。 因此,特征模拟损失仅在与ground truth对象充分重叠的正 RoI 上强制执行。

用于训练 Deformable Faster R-CNN 的网络架构如图 3 所示。除了 Faster R-CNN 网络之外,还添加了一个额外的 R-CNN 分支用于特征模仿。 给定一个用于特征模仿的 RoI b,与其对应的图像块被裁剪并调整为 224 × 224 像素。 在 R-CNN 分支中,骨干网络对调整大小的图像块进行操作,并生成 14×14 空间分辨率的特征图。 将(调制的)可变形 RoIpooling 层应用于特征图的顶部,其中输入 RoI 覆盖整个调整大小的图像块(左上角在 (0, 0),宽和高都是224像素),之后,应用 2 个 1024-D 的 fc 层,为输入图像块生成 R-CNN 特征表示,用 fRCNN(b) 表示。A(C+1)-way Softmax 分类器进行分类,其中 C 表示前景类别的数量,加上一个背景类别。 特征模拟损失在 R-CNN 特征表示 fRCNN(b) 和 Faster R-CNN 中的对应物 fFRCNN(b) 之间强制执行,fFRCNN(b) 也是 1024-D,由 Fast R-CNN 中的 2 个 fc 层产生 CNN 负责人。 特征模拟损失是根据 fRCNN(b) 和 fFRCNN(b) 之间的余弦相似度定义的,计算如下:
image.png

其中Ω表示为特征模拟训练采样的 RoI 集。 在SGD训练中,给定一张输入图像,将RPN生成的32个positive region proposals随机采样到。 在 R-CNN 分类头上强制执行交叉熵分类损失,也在Ω中的 RoI 上计算。 网络训练由特征模拟损失和 R-CNN 分类损失以及 Faster R-CNN 中的原始损失项驱动。 新引入的两个损失项的损失权重是原来Faster R-CNN损失项的0.1倍。 R-CNN 和 Faster R-CNN 分支中相应模块之间的网络参数是共享的,包括主干网络、(调制的)可变形 RoIpooling 和 2 个 fc 头(两个分支中的分类头是不共享的)。 在推理中,只有 Faster R-CNN 网络应用于测试图像,没有辅助 R-CNN 分支。 因此,在推理中模拟 R-CNN 特征不会引入额外的计算。

4. 相关工作

变形建模 是计算机视觉中一个长期存在的问题,在设计平移不变特征方面已经付出了巨大的努力。 在深度学习时代之前,著名的工作包括尺度不变特征变换 (SIFT) [29]、定向快速旋转 BRIEF (ORB) [33] 和基于可变形部分的模型 (DPM) [11]。 这些作品受到手工制作特征较差的表示能力和它们所处理的几何变换的受限族(例如,仿射变换)的限制。 空间变换网络 (STN) [24] 是第一项关于学习深度 CNN 的平移不变特征的工作。 它学习将全局仿射变换应用于扭曲特征图,但这种变换不足以模拟许多视觉任务中遇到的更复杂的几何变化。 Deformable ConvNets 不是执行全局参数变换和特征变形,而是以局部和密集的方式对特征映射进行采样。通过在提出的可变形卷积和可变形RoI池化模块中学习偏移,Deformable ConvNets 是第一个在具有挑战性的基准上有效地模拟复杂视觉任务(例如,对象检测和语义分割)中的几何变换的工作。
我们的工作通过增强其建模能力和促进网络训练来扩展 Deformable ConvNets。 这个新版本的 Deformable ConvNets 比原始模型产生了显着的性能提升。

关系网络和注意力模块首先在自然语言处理 [13、14、3、35] 和物理系统建模 [2、37、22、34、9、31] 中提出。 注意/关系模块通过聚合一组元素(例如,句子中的所有单词)的特征来影响单个元素(例如,句子中的单词),其中聚合权重通常根据元素之间的特征相似性定义 . 它们在捕获这些任务中的远程依赖性和上下文信息方面非常强大。 最近,[23] 和 [36] 的并行工作成功地将关系网络和注意力模块扩展到图像域,分别用于建模远程对象-对象和像素-像素关系。 在[18]中,提出了一种可学习的区域特征提取器,从像素-对象关系的角度统一了以前的区域特征提取模块。 这种方法的一个常见问题是聚合权重和聚合操作需要以成对方式在元素上计算,导致大量计算与元素数量(例如,图像中的所有像素)成二次方。 我们开发的方法可以被视为一种特殊的注意机制,其中只有一组稀疏元素具有非零聚合权重(例如,所有图像像素中的 3×3 像素)。参与元素由可学习的位置偏移指定,聚合权重由调制机制控制。 计算开销与元素数量成线性关系,与整个网络相比可以忽略不计(见表 1)。

空间支持操纵。 对于空洞卷积,卷积层的空间支持已通过在卷积核中填充零来扩大 [4]。填充参数是精心挑选和预先确定的。在与可变形卷积网络同时代的主动卷积 [25] 中,卷积核偏移是通过反向传播学习的。 但是偏移量是训练后固定的静态模型参数,并在不同的空间位置共享。 在用于对象检测的多路径网络 [39] 中,多个 RoIpooling 层用于每个输入 RoI,以更好地利用多尺度和上下文信息。多个 RoIpooling 层以输入 RoI 为中心,并且具有不同的空间尺度。 这些方法的一个常见问题是空间支持由静态参数控制并且不适应图像内容。

有效感受野和显着区域。 为了更好地解释深度网络的功能,在理解哪些图像区域对网络预测贡献最大方面取得了重大进展。 最近关于有效感受野 [30] 和显着区域 [40、41、12、6] 的研究表明,理论感受野中只有一小部分像素对最终的网络预测有显着贡献。 有效支持区域由网络权重和采样位置的联合作用控制。 在这里,我们利用开发的技术来更好地理解可变形卷积网络的网络行为。 由此产生的观察结果指导并激励我们改进原始模型

网络模仿和蒸馏是最近引入的模型加速和压缩技术。给定一个大型教师模型,通过模仿教师模型输出或训练图像上的特征响应来训练一个紧凑的学生模型 [1,21,26]。 希望通过从大型模型中提取知识,可以更好地训练紧凑型模型。 在这里,我们采用特征模拟损失来帮助网络学习反映对象焦点和 R-CNN 特征分类能力的特征。 获得了更高的准确性,并且可视化的空间支持证实了这种方法。