文献阅读分享-Adaptive Effective Receptive Field-Markdown中文

Scroll Down

VHR遥感图像语义分割的自适应有效感受野卷积

摘要—卷积神经网络 (CNN) 促进了超高分辨率 (VHR) 遥感图像语义分割的显着改进。 语义分割的成功取决于足以覆盖整个对象的有效感受野(RF)。 扩大有效射频的流行方法包括扩张滤波器、二次采样操作和堆叠层。 不幸的是,这些方法效率低下或能够导致网格伪影。 此外,虽然遥感图像中的物体尺寸差异很大,但射频的尺寸无法在大小物体之间达到折衷。 为了解决这些问题,我们提出了用于 VHR 遥感图像的自适应有效感受卷积 (AERFC)。AERFC自适应控制卷积的采样位置,自动调整有效RF,而不会显着增加参数数量和计算成本。 因此,AERFC 降低了训练难度,降低了过拟合风险,并在 VHR 图像中保留了细节。 AERFC 还与空间金字塔池 (SPP) 集成,以聚合各种多尺度特征以探索上下文信息。 对四个基准数据集的定量和定性评估的实验结果表明,AERFC 优于最先进的方法。

索引词——视野、过滤器、内核、语义上下文信息。

1.介绍

SEMANTIC 分割对遥感图像进行像素级预测,可用于专题制图 [1]、车辆提取 [2]、用于自动驾驶的高清 (HD) 地图 [3] 等。 因此,语义分割是遥感领域的基本主题之一,特别是对于超高分辨率(VHR)遥感图像[4]。VHR 图像具有细粒度的空间细节,只有几个光谱通道。 细粒度的细节导致相对较小的光谱类间变异性和相对较大的类内变异性。 另一方面,只有少数光谱通道导致光谱特征不太明显[4]。 这两个问题都严重威胁到 VHR 图像的语义分割。

为了提高性能,语义分割需要准确的特征表示,其中 VHR 图像的主要信息表示为形状、纹理和上下文,这些信息由许多手工特征描述 [5]。 通常,很难事先知道如何组合或映射特征以实现最佳语义分割[6]。 此外,特征提取器通常需要超参数,例如灰度共现矩阵和稀疏编码。 这些调整后的特征通常不能很好地概括各种数据集,因为这些特征不能准确地描述隐藏的语义信息。 因此,它们不能满足实际应用的要求[7]。 这些特征应该替换为可以针对目标数据集自动调整的特征。

最近,有用的地理特征已被卷积神经网络 (CNN) [9] 广泛自动提取。CNN 丢弃了启发式特征设计,并用分层架构取代了传统的滤波器组方法。具体来说,他们通过共享权重和局部连接来隐式捕获带有过滤器的特征,以发现 VHR 图像中所有位置的模式 [4]。 CNN 的第一个卷积层学习描述边缘的简单特征,类似于 Gabor 纹理过滤器。 早期层从附近的像素中提取小尺度特征,包括边缘、形状和条纹。接下来的层通过把之前的特征非线性组合来学习更复杂的特征。

复杂特征是具有各种复杂度和尺度的高级抽象特征表示。 随着神经元感受野(RF)(视野)的增加,特征抽象的复杂性和水平不断增加,CNN 开始检测简单纹理模式上的全局结构/形状 [10 ]。大 RF 在 CNN 中非常普遍,例如在 GoogleNet [11] 或 ResNet [12] 中,因为大 RF 可以显着改善预测 [13]。 通常,CNN 的 RF 中的像素提供不相等的贡献 [10],其中 RF 中的一个小区域收集了大部分有效信息 [14]。 RF 有效区域中的值,即有效 RF,可以计算为响应相对于强度扰动的梯度 [10]、[15]。 理论RF就是RF,理论上可以生效。
有效射频小于理论射频。 有限的有效 RF 导致最终的特征图获得很少的上下文信息,从而导致更多的误报 [16]。 为了获得更好的性能,有效射频应该足够大以覆盖整个物体。

一般来说,有效射频尺寸随着射频尺寸的平方根线性增加[18]。 这种增加是低效的。一种更直接有效的方法是提出新的卷积。 典型的例子是一个扩张滤波器,它的有效射频通过在卷积滤波器的每个像素之间插入孔来增加[19]。 卷积可用于提取多尺度上下文特征[20]。 为了提高性能,扩张滤波器应该有利于提取各种特征,包括形状和纹理[21]、[22]。然而,膨胀滤波器会带来网格伪影[23],这会影响性能。

此外,流行的卷积在大规模遥感图像中分割非常小的物体存在三个挑战,类似于物体检测[16]。 首先,有效射频的超大尺寸使得现有的神经网络对于实际使用来说太慢了。 其次,聚类和复杂的对象分布增加了误报率。 最后,极小的物体增加了准确分割的难度。 因此,有必要自动确定射频大小。

不幸的是,据我们所知,几乎没有关于新卷积或滤波器的工作来扩大 VHR 图像语义分割的有效 RF。在本文中,我们提出了自适应有效射频卷积(AERFC)来提取更准确的特征。 扩张滤波器中的几个关键空间采样位置填充了可训练的参数以适应对象的潜在边缘。边缘有助于构成物体的典型形状。此外,AERFC 可以捕捉纹理的规则排列。 因此,万花筒滤波器可以接近大尺寸的正则卷积滤波器,与扩张滤波器相比,它不仅具有较大的射频,而且在提取上下文、形状和纹理特征方面的能力也更好。

主要贡献如下:

  1. 这是解决VHR遥感图像语义分割的有效RF的第一个努力。有效的 RF 卷积应该在没有分辨率损失的情况下扩展 RF。
  2. 提出了一种新的卷积AERFC来扩大有效RF并减轻由扩张滤波器引起的网格伪影。 AERFC 自动捕获扩张滤波器的原始非零滤波器抽头中的信息,并确定小型或大型物体的有效 RF,而不会显着增加额外参数的数量。
  1. 用 AERFC 代替扩张滤波器的卷积网络在 ISPRS Vaihingen 和 ISPRS Potsdam 数据集上超越了最先进的方法。为了进一步证明我们方法的有效性,我们还对两个基准数据集 PASCAL VOC 2012 和 Cityscapes 进行了实验。 结果也验证了我们方法的优越性。

我们文章的其余部分组织如下。第二节简要介绍了相关工作。第三节提供了建议的方法。 实验结果和讨论见第四节。 最后,第五节总结了我们的文章。

2. 相关工作

本节回顾了已被广泛使用的相关方法,不仅限于遥感界。现有的方法可以分为三类:RF、扩张滤波器和可变形卷积。

A. 感受野

有效 RF 的大小至关重要,因为输出应响应图像中足够大的区域以捕获大物体的信息 [10]。 增加有效射频的一种有效方法是在合同路径中使用下采样[13]。 Group pointwise 和 depthwise dilated separable convolutions 也可用于从大型有效 RF [24] 中学习表示。 Zeiler 和 Fergus 网络的有效 RF 为 171 像素,适用于船舶检测 [25]。 通过下采样增加卷积层的数量可以增加卷积层中有效 RF 的大小,以学习足够的上下文信息 [26]。 通过在 U-net 的收缩路径中进行下采样,对于逆散射问题,有效 RF 显着增加,以改进预测 [13]。 可以将 RF 模块模块组装到神经网络的顶部进行检测 [27]。 Trident Network 基于并行多分支架构生成特定于尺度的特征图,其中每个分支与不同的 RF [28] 共享相同的参数。 基于遥感区域的 CNN 可以抑制超小物体的误报。 该网络包括具有轻量级残差结构的主干、中间全局注意块、最终分类器和检测器 [16]。为了对高光谱图像进行去噪,提出了一种 3-D 多孔去噪 CNN,以沿空间和光谱维度提取具有多分支和多尺度结构的特征图 [29]。 为了处理稀疏输入,例如稀疏的激光扫描数据,提出了一种稀疏不变的 CNN [30] 来通过稀疏卷积评估输入,该稀疏卷积明确考虑了无效值的位置。 与常规卷积相比,它对稀疏数据具有更有效的 RF。

B. 扩张过滤器和空洞空间金字塔池化

膨胀滤波器也称为空洞卷积。 扩张滤波器的应用速率由所需的输出步幅值确定,其中空洞率是指步幅 [31]。 过滤器的速率设置为大于 1,其中权重保持在稀疏采样位置。 通过在过滤器中插入孔或稀疏采样特征图,该卷积等于上采样过滤器。 Dilated filter 泛化了 Kronecker 因子卷积滤波器,并以指数方式扩大 RF 大小,而不会降低特征图的分辨率。 通过这种方式,扩张滤波器显式地控制特征响应的密度。 与具有较大滤波器 [20]、[31]、[32] 的常规卷积相比,扩张滤波器通过用剩余的计算复杂度改变空洞率有效地结合了更大的上下文,而不会增加参数数量和计算成本。 可以组合一系列扩张滤波器以更密集地恢复全分辨率特征图,以聚合多尺度上下文,而不是使用反卷积层 [20]。 在 DeepLabv3 中使用了三个并行的扩张过滤器操作,在特征图之上具有不同的速率,包括空洞空间金字塔池 (SPP) (ASPP),以进一步描述多个尺度的内容。 与 SPP [33] 类似,ASPP 对不同尺度的特征进行重新采样,以准确有效地对区域进行分类。 具有各种 atrous rate 的 ASPP 可以捕获多尺度上下文信息。 随着采样率的增加,应用于有效特征区域的权重数量会减少。

C.可变性卷积

可变形卷积是扩张滤波器的推广。 可变形卷积通过额外的偏移量增加了空间采样位置,这些偏移量是在没有额外监督的情况下为目标任务学习的。 可变形卷积可以嵌入到现有的 CNN 中,并通过反向传播程序 [15]、[18] 进行端到端训练。 基于可变形区域的全卷积网络 (FCN) (R-FCN) 向卷积层添加偏移量,并通过开发长宽比约束的非极大值抑制来使用预训练的 R-FCN 将特征映射应用于未固定位置以作为在错误行中增加的弥补。 Multibranch CNN 采用一系列可变形 CNN 进行代表性特征提取,并融合多时间和多传感器 Sentinel 图像。

3.方法

在这项工作中,提出了 AERFC 卷积网络(AERFC ConvNet)用于 VHR 图像的语义分割。 在本节中,我们将描述 AERFC ConvNet 的四个重要方面,包括: 1) AERFC; 2) AERFC-SPP; 3) 使用 AERFC 修改 Xception; 4) AERFC ConvNet。

A. Adaptive Effective Receptive Field Convolution

令 x 为输入特征图,w 为滤波器 R 的权重图,y 为卷积的输出特征图,$p_0$ 中$y(p_0)$的每个位置。 卷积可以写为:

$$ y(p_0)=\sum_{pi\in R}w(p_i)\cdot x(P_o+P_i) $$

其中 $p_i$ 枚举了 w 在 R 中的所有位置。位置 $p_i',p_i''和p_i'''$ 是通过镜像 pi 生成的。 如图 1 所示,AERFC 由两个步骤组成:1)在 $p_i,p_i',p_i''$上分配 16 个采样权重$w(p_i),w(p_i'),w(p_i''),w(p_i''')$ , 其中 i = 1, 2, 3, 4, 转化为 3×3 扩张滤波器 RDilated(3×3) 生成 AERFC 滤波器 $R_$; 2) $R_$的w加权x的特征值求和。

假设R表示的速率,它是AERFC的RF半径,等于3×3扩张滤波器$R_{Dilated(3\times3)}$加1的速率。L1、L2、L3和L4表示四个线段,即 分别限制 p1、p2、p3 和 p4 的范围。 具体来说,L1 可以描述为:

$$ L_1=\{(x_1,y_1)|x_1+y_1=R, 0\le x_1\le \frac{R}{2}, \frac{R}{2}\le y_1\le R\} $$

$L_2$可以被描述为:

$$ L_2=\{(x_2,y_2)|x_2+y_2=R, \frac{R}{2} \le x \le R, 0\le y \le \frac{R}{2}\} $$

$L_3$为:

$$ L_3=\{(x_3,y_3)|x_3 \in [0,R], y_3=\frac{R}{2}\} $$

$L_4$为:

$$ L_4=\{(x_4,y_4)|x_4=\frac{R}{2}, y_4\in[0,R]\} $$

我们使用四个非负可训练变量 V1、V2、V3 和 V4 来分别控制位置 p1、p2、p3 和 p4。

p1 的位置坐标 (x1, y1) 定义为:

$$ \left\{\begin{array}{l}x_{1}=\frac{R}{2} \times\left(1-\left(V_{1} /\left(V_{1}+1\right)\right)\right) \\ y_{1}=\frac{R}{2} \times\left(1+\left(V_{1} /\left(V_{1}+1\right)\right)\right)\end{array}\right. $$

p2的位置坐标$(x_2,y_2)$可以被描述为:

$$ \left\{\begin{array}{l}x_{2}=\frac{R}{2} \times\left(1+\left(V_{2} /\left(V_{2}+1\right)\right)\right) \\ y_{2}=\frac{R}{2} \times\left(1-\left(V_{2} /\left(V_{2}+1\right)\right)\right)\end{array}\right. $$

p3的位置坐标$(x_3,y_3)$为:

$$ \left\{\begin{array}{l}x_3=\frac{R}{2} \\y_3=R\times (V_3/(V_3+1))\end{array}\right. $$

p4的位置坐标$(x_4,y_4)$为:

$$ \left\{\begin{array}{l}x_4=R\times(V_4/(V_4+1)) \\y_4=\frac{R}{2}\end{array}\right. $$

位置 pi 可以随着可训练变量 Vi 的变化而更新。

![image-20220711145625233]image.png(C:\Users\PC\AppData\Roaming\Typora\typora-user-images\image-20220711145625233.png)

此外,位置$p_i',p_i'',p_i'''$分别通过在水平、垂直和对角方向上对pid镜像来生成。 例如,如果 pi 的位置坐标为 (xi , yi ),则$p_i',p_i''和p_i'''$的位置坐标应为 (−xi , yi ), (−xi , −yi ) 和 (xi , −yi )。 AERFC 滤波器 $R_$可以认为是扩张滤波器 $R_{Dilated(3\times3)}$ 和四个 2×2 扩张滤波器 $R_{Dilated(2\times 2)-i (i=1,2,3,4)}$ 的总和,其大小可以 由 $p_i, p_i', p_i''和p_i'''$ 控制。

位置 $p_i',p_i''和p_i'''$ 由 pi 决定,而 Vi 控制 pi 的位置。 因此,Vi 控制 $p_i',p_i''和p_i'''$的位置,并确定每个 $R_{Dilated(2\times2)-i}$ 的大小和位置。 这样,Vi就决定了$R_$的有效RF。

通常,CNN 通过计算损失函数对滤波器中权重的偏导来更新每个滤波器的权重。 变量必须包含在损失函数中才能变得可学习。 为了使 Vi 进入损失函数,我们使用 Vi 将输入特征图 P 与 $R_{Dilated(2\times 2)-i (i=1,2,3,4)}$卷积生成的相应特征图中的每个元素划分,当 实施 AERFC。 AERFC的输出映射M可以用下面的表达式来描述:

$$ \mathbf{M}=\sum_{i=1,2,3,4} \frac{\mathcal{R}_{\text {Dilated }(2 \times 2)-i}{ }^{*} \mathbf{P}}{V_{i}}+\mathcal{R}_{\text {Dilated }(3 \times 3)}{ }^{*} \mathbf{P} $$

在这个等式中,Vi 变得可学习,并通过在适当的位置自适应地插入非零权重来产生更有效的 RF。对于常规卷积,上下文窗口大小等于有效 RF 的大小,这取决于滤波器大小以及卷积和池化操作的步长。 即使对于扩张滤波器,有效 RF 的大小也是固定的,并且在确定神经网络后保持不变 [26]。 单位有效射频以外的区域不能影响单位的价值[36]。

与扩张滤波器不同,AERFC 显式控制卷积的样本位置以计算特征响应。因此,AERFC 用小而密的卷积核大小动态捕获输入图像丰富的内容和区域上下文的高级语义。它比传统的过滤器更具适应性和灵活性。 因此,它可以描述输入图像的内部变化。

B. 使用 AERFC 修改的 Xception

我们使用带有 AERFC 的修改后的 Xception 作为我们网络的主干,以便更好地提取特征。 Xception [39] 是著名的 CNN,通过快速计算在图像分类和对象提取方面取得了令人满意的结果。 MSRA 团队 [18] 进一步修改 Xception 以形成对齐的 Xception,从而获得更好的目标检测性能。最近,陈等人。 [20] 通过使用扩张过滤器修改对齐的 Xception,构建了一个对齐的修改后的 Xception 用于语义分割。 为了更有效的 RF,我们将 Xception 中的所有最大池化操作替换为 AERFC,并将其用作语义分割的网络主干。 详细信息如下所示,如图2所示:1)我们使用与[18]和[20]相同的入口流和更深层; 2) Xception 中的所有最大池化操作都被替换为“AERFC (rate = 5), stride 2”以获得更有效的 RF,其中“AERFC (rate = 5), stride 2”表示使用 rate = 2 和stride=2;和3) 批量归一化 [40] 和整流线性单元 (ReLU) 激活函数附加到每个 3 × 3 深度可分离卷积和每个 AERFC。

C. AERFC-SPP

由于 VHR 图像中对象的大规模变化,很难在单一尺度上进行准确的像素级预测。 多尺度表示对于具有不同 RF 的语义分割是必要的 [37]。 因此,AtrousSPP (ASPP) 和金字塔场景解析 (PSP) 网络 [38] 在 SPP 中利用具有各种扩张率的预定义扩张过滤器和各种网格的池化操作。 跨步用于在更深的块中捕获远程上下文信息。 这样一来,整幅图像中的高层特征可以概括为最终的小分辨率特征图。全连接层之前的最终特征图的大小是原始图像大小的 32 倍。不幸的是,小的特征图会减少详细信息。此外,增加膨胀率不仅通过覆盖大物体来扩展有效射频,而且还会影响小物体的性能[19]。 此外,ASPP 和 PSP 无法捕获 VHR 图像中具有任意尺度和大小的对象的内部尺度变化 [37]。在这里,我们构建 AERFC-SPP 来解决这些问题并提取更准确的多尺度特征以进行场景理解。特别是,AERFC 与 SPP 集成以进行多尺度特征学习,取代了扩张滤波器,如图 3 所示。我们堆叠 AERFC 以捕获多尺度信息并泛化标准卷积。 为了保持特征图的空间分辨率,卷积层的步幅设置为 1 以避免信号退化并在没有更多额外参数的情况下提取更密集的特征响应。AERFC 具有可训练的位置参数,更具适应性和灵活性。 因此,在 SPP 的帮助下,AERFC 与扩张滤波器相比,可以描述更多输入图像的内部变化。 此外,AERFC 通过在扩张滤波器中学习一些参数来消除网格化伪影,而不会显着增加复杂性。

D. AERFC 卷积网络

基于 CNN 的方法通常可以分为两大类:基于补丁的方法和基于像素到像素的方法 [41]、[42]。 前者通过对该像素周围的区域进行分类来预测 VHR 图像的每个像素的类别标签。 分类器可以在小图像块上进行训练,然后使用滑动窗口对所有像素进行分类。 该过程具有高内存成本和低效率[42],[43]。后者通常采用 FCN 或编码器-解码器架构,将全连接层替换为插值、上采样或反卷积。 后者可以一次预测patch中每个像素的类似然度,因此效率更高。 我们的方法采用后一种架构。AERFC ConvNet 的架构如图 4 所示。AERFC ConvNet 包括主干 CNN 和 SPP 层中的 AERFC。 用于特征提取的主干 CNN总是使用 ResNet、DenseNet 或 Xception。 在这里,我们使用修改后的 Xception 方法。 每个 AERFC 捕获一个特定的尺度特征表示,不同的 AERFC 获得多尺度特征表示,更加灵活和自适应。 AERFC 是并行排列的,而不会失去不同尺度上特征表示的一致性。多尺度特征表示与 Xception 提取的原始特征聚合在一起,构成每个像素的最终特征表示。 这些聚合的多尺度特征表示被输入像素级预测器以进行语义分割。 AERFC 采用级联架构,在不同的块中采用不同的速率。

4. 实验

所提出的 AERFC 提供了一种通过在空洞卷积中引入辅助来提高分割精度的新方法。 为了实验评估 AERFC,国际摄影测量与遥感协会 (ISPRS) 的两个开放遥感数据集。 为了进一步验证我们方法的有效性,实验中使用了两个近距离摄影图像数据集,包括 Cityscapes 和 PASCAL VOC 2012。接下来,我们在参数设置和结构方面测试 AERFC 的鲁棒性。 然后,显示了 AERFC 与其他相关卷积之间的比较。 最后,我们讨论AERFC的有效性

A. 数据集描述

  1. ISPRS Vaihingen 数据集 :该数据集由彩色红外正射影像和人工标注的地面实况标签组成。 使用了 33 张 3 波段 IRRG(红外线、红色和绿色)图像。 它们每个都有 2500*2000 像素,GSD 为 9 厘米。 十六个瓦片用于训练和验证,其中五个瓦片(09 cm_area11, 09 cm_area15。09 cm_area28, 09 cm_area30, 09 cm_area34) 用作实验中的验证集。 剩下的 17 块瓷砖留待测试。 在这项工作中,DSM 和 NDSM 数据不用于训练和推理。 除非另有说明,否则所有结果均在验证集上获得。
  2. ISPRS Potsdam Data Set2:实验中使用了 38 张没有 DSM 和 NDSM 数据的 3 波段 IRRG 图像。 每个图像块的大小为 6000×6000 像素,GSD 为 5 cm。 二十四个瓦片被注释用于训练,其中四个瓦片(图像编号 2_12、4_11、7_9、7_11)用于验证。 剩下的 14 个被保留用于测试。 除非另有说明,波茨坦的所有统计数据也都基于验证集。
  3. PASCAL VOC 2012 Data Set [44]:包括20个对象类和1个背景类。 该数据集分别有 1464、1449 和 1456 张图像用于训练、验证和测试。 该数据集通过[45]提供的额外注释进行了扩充,产生了 10 582 张用于训练的图像。
    通过保持与 PASCLA VOC 2012 相同的类并将其他类转换为背景类,共有来自 MS-COCO 数据集 [46] 的 93 611 个数据被转换为 PASCAL VOC 2012 数据。 我们的实验中都使用了原始数据集和增强数据集。
  4. Cityscapes Data Sets [47]:包括精细标注数据集和粗略标注数据集。 精细标注数据集包含来自欧洲 50 个城市的 5000 张高质量像素级精细标注图像,其中 2975、500 和 1525 张图像分别用于训练、验证和测试。 另一个包含 20 000 张带有粗略注释的图像的数据集只能用于训练。

B. 评估指标

对于性能评估,使用三个指标,即整体准确度(OA)、F1 分数(F1)和平均交集比联合(mIoU)。 OA 是被正确分类的像素占总像素数目的比值:

$$ OA=\frac{tp+tn}{p+n} $$

其中 tp、tn、p 和 n 分别是真阳性、真阴性、阳性和阴性的总数。F1 是每个类别的准确率和召回率之间的几何平均值。 在考虑每个类别的过度预测和预测不足时,该指标记录了全局准确性 [48]。一类的 F1 定义为准确率和召回率的调和平均值

$$ \begin{aligned} F 1_{i} &=2 \times \frac{\text { precision }_{i} \times \text { recall }_{i}}{\text { precision }_{i}+\text { recall }_{i}} \\ \text { precision }_{i} &=\frac{t p_{i}}{t p_{i}+f p_{i}}, \quad \text { recall }_{i}=\frac{t p_{i}}{t p_{i}+f n_{i}} \end{aligned} $$

其中 tpi 、 fpi 和 fni 分别是归于 第i 类的真阳性、假阳性和假阴性的数量。最后,mIoU 是 IoU 的均值,是语义分割最流行的评估指标。 IOU 定义为:

$$ IoU(L_i\cup G_i)=\frac{|L_i\cap G_i|}{L_i\cup G_i} $$

其中 Li 是第 i 类的地面实况像素集,Gi 是第 i 类的预测像素集。 ∪ 和 ∩ 分别表示交集和并集,|| 表示集合中的像素数。