摘要
深度卷积神经网络(CNN)在图像超分辨率(SR)方面取得了巨大的成功,其中全局语义信息对于准确修复至关重要。然而,CNNs的基本卷积层被设计为提取局部模式,缺乏对全局背景的建模能力。有了全局背景信息,很多人都致力于增强SR网络,特别是通过全局特征交互方法。这些工作将全局语义信息纳入局部特征表示。然而,神经科学的最新进展表明,神经元有必要根据上下文动态地调节其功能,而这一点在大多数基于CNN的SR方法中被忽略了。在这些观察和分析的激励下,我们提出了context reasoning attention network(CRAN),根据全局上下文自适应地调节卷积核。具体来说,我们提取全局上下文描述符,并通过语义推理进一步加强。然后引入通道和空间的相互作用来产生context reasoning attention mask,应用于自适应修改卷积核。这样一个经过修改的卷积层被用作构建块和网络的基本组件。在具有多个退化模型的基准数据集上进行的广泛实验表明,CRAN获得了卓越的结果,并在性能和模型复杂性之间进行了有利的权衡。
1.介绍
图像超分辨率(SR)的目的是在给定其低分辨率(LR)对应物的情况下,重建一个准确的高分辨率(HR)图像[14]。图像超分辨率在各种计算机视觉应用中发挥着基本作用,从安全和监控成像[71]、医学成像[48]到物体识别[45]。然而,图像SR是一个不好解决的问题,因为对于任何LR输入都存在多个解决方案。为了解决这样一个逆向问题,很多深度卷积神经网络(CNN)被提出来学习LR和HR图像对之间的映射。
深层CNN已经在图像SR方面取得了显著的成功[10, 12, 26, 36, 62, 18, 66, 1, 23, 31, 67]。在CNN中,卷积通过滑动窗口提取local patch,使得它只能捕捉到局部模式。然而,神经科学的最新进展表明,神经元对全局环境的认识对于我们有效处理复杂的感知任务至关重要[34, 15]。卷积中的滑动窗口机制限制了其利用全局信息的能力,而全局信息对于准确的图像SR是至关重要的。
为了缓解这一限制,最近提出了许多SR方法,将全局语义建模模块引入SR网络[64, 9, 38, 65, 41]。Zhang等人提出了residual channel attention network[64],其中全局语义信息是用全局平均池化来建模的,并用于重新赋值每个特征通道的比例。Dai等人通过考虑SAN中的高阶特征统计,提出了二阶通道注意[9]。与通道注意不同,Liu等人在FRANet[38]中提出了一个增强的空间注意块,使residual feature更集中于关键的空间内容。
Zhang等人进一步提出了residual no-local 注意网络[65],以混合通道和空间注意力自适应地重新划分层次特征。这样的非局部注意机制在跨尺度非局部注意(CSNLN)中得到进一步发展[41]。Mei等人提出了一个self-exemplar mining cell,通过结合CSNLN中的局部和尺度内/跨尺度非局部特征相关性,详尽地挖掘所有可能的intrinsic priors[41]。如图1所示,SAN、RFANet和CSNLN可以恢复某种局部纹理。但是,这些纹理的方向和ground truth并不一样。这主要是因为这些方法主要是将全局语义纳入局部特征中。
然而, 正如在神经科学中所验证的,这些神经元的功能应根据行为环境进行适应性改变。 因此,我们可以根据上下文信息动态地修改卷积核[37]。图像SR还没有看到利用这种调制机制的作品,这在其他计算机视觉应用中被初步研究。Zhu等人提出了自适应设置偏移量的方法。提出了自适应设置卷积核中每个元素的偏移量和local feature patch中每个元素的聚集值[70]。然而,这样的操作只能改变输入到卷积(Conv)层的特征。Wu等人提出通过仅将局部片段作为输入来动态生成卷积核权重[55]。类似的工作还有[24, 25],用另一个网络从输入图像中提取特征,然后生成卷积核权值。特征提取过程可能很耗时,因此对于图像超分辨率中的深度CNN来说是不现实的。Lin等人提出了上下文门控卷积,将context-awareness引入到Conv层[37]。然而,他们中的大多数人都忽略了挖掘上下文信息之间的关系,这对于高质量的图像SR也是很重要的。
在上述观察和分析的激励下,我们提出了一个用于图像SR的上下文推理注意网络(CRAN)。据我们所知,这是在图像SR中首次尝试根据global context自适应地调节卷积核(见图2)。具体来说,我们将输入特征投射到潜在的表征中,并提取全局上下文描述符。通过使用具有语义推理的描述符关系,进一步增强上下文关系描述符。然后引入通道和空间交互[37]来生成context reasoning attention mask,应用于自适应地修改卷积核。我们使用调制的卷积层作为基本组件来构建块和整个网络。因此,我们的CRAN可以取得比最近的领先方法更优越的SR结果(例如,在图1中)和有利的效率权衡。
总之,这项工作的主要贡献可以总结为三个部分:
- 我们提出了一个用于精确图像SR的上下文推理注意网络。我们的CRAN可以根据语义推理所增强的全局背景自适应地调节卷积核。CRAN在数量上和视觉上都取得了卓越的SR结果。
- 我们建议将上下文信息提取到潜在的表征中,从而形成一个全局上下文描述符集合。我们通过使用它们与语义推理的关系进一步增强描述符。
- 我们引入了通道和空间的相互作用,以产生用于修改卷积核的context reasoning attention mask。我们最终得到了上下文推理注意力卷积,它进一步成为构建图像SR块和网络的基础。
2.相关工作
用于图像SR的深度CNN。Dong等人[10]做了开创性的工作,他们提出了具有三个卷积(Conv)层的SRCNN,用于图像SR。通过引入残差学习来减轻训练难度,Kim等人提出了具有20层的VDSR[26]和DRCN[27],并取得了显著的性能改进。Lim等人 提出了EDSR[36],通过简化残差块,可以用更多的参数建立更深更广的网络。Zhang等人提出了RDN[66],以减少模型大小并保持准确的性能。然而,这些方法忽略了利用不同特征通道和/或空间位置的不同重要性。于是,注意力机制被用来解决这些限制。Zhang等人通过考虑特征通道之间的相互依赖性,提出了残差通道注意网络(RCAN)[64]。然后,越来越多的工作被提出来研究图像SR的有效注意机制。Dai等人提出了一个二阶注意力网络(SAN)[9],用于更强大的特征表达和特征相关学习。在这些方法中,卷积核在推理阶段不适应具体环境,阻碍了网络的表示能力。这些观察促使我们根据输入的情况自适应地修改卷积核。
CNN中的语境信息。初步的工作是用上下文信息来增强CNN,可以简要地分为三种类型。首先,类似于人类的视觉处理系统,backward connection被纳入到CNN中[59, 57]来模拟自上而下的影响[15]。但是,我们仍然很难理解反馈机制如何在CNN中有效地执行。其次,注意力机制被用来修改CNN中的中间特征表示[50, 52, 54, 5]。他们通常利用全局环境信息(如自我注意机制)来修改局部特征[51, 52, 21, 54, 5, 2]。然而,这类方法只考虑改变输入特征图。第三,许多工作试图通过考虑局部或全局信息来动态地改变卷积层的参数[24, 8, 25, 6, 55, 70, 37]。他们中的一些人忽视了考虑Conv权重张量[70],只采取了local segment和输入[55],或者特征提取过程过于复杂[24, 25]。此外,他们中的大多数人忽视了对上下文信息之间关系的挖掘,而这种关系可以通过语义推理来实现。
语义推理。关系推理最初是作为符号方法引入人工智能界的[42]。作为一个活跃的研究领域,基于图的方法近年来很流行,并被证明是一种有效的关系推理方式。受CNN在计算机视觉领域的巨大成功启发[19],[29]提出了用于半监督分类的图卷积网络(GCNs)。[56]利用GCNs将先验知识编码到深度强化学习框架中,以改善未见过的场景和新颖物体的语义导航。[5, 32]将GCN纳入视觉编码的设计中,并向感兴趣的任务端到端学习关系增强的特征,如图像分类和图像-文本匹配。[58]在视觉基因组数据集[30]上训练了一个视觉关系检测模型,并使用基于GCN的图像编码器对检测到的关系信息进行编码
3.图像超分辨率(SR)的上下文推理注意网络
在图像超分辨率(SR)中,原始输入是低分辨率(LR)图像ILR,它将被卷积层提取为深度特征。对于卷积层,输入是一个特征图
$$
F_ \in \mathbb{c_\times h\times w}
$$
其中
$$
c_,h,w
$$
是通道数量、特征图的宽高,为了进行卷积操作,我们通过滑动窗口来提取一个大小为
$$
c_\times k_1 \times k_2
$$
的局部特征patch。
然后我们把特征patch乘以卷积核
$$
W\in\mathbb{c_\times c_\times k_1\times k_2}
$$
其中
$$
c_,k_1,k_2
$$
表示输出通道数、卷积核的宽高,在这里,每个卷积操作只提取局部信息,这不会在推理阶段自适应地影响卷积核。
3.1语义信息提取
为了解决传统卷积的上述缺点,我们提出了一种语境推理注意卷积(见图3)。我们试图将全局的上下文信息纳入卷积过程中,另一方面,输入的LR图像大小可以是任意大的,因此特征图也是如此。为了提取上下文信息,我们首先使用池化层缩小输入特征$F_$的空间尺寸到$h' \times w'$
然后,对于每个特征通道,我们通过考虑所有的空间位置来提取全局背景的潜在表示。具体来说,我们使用一个共享线性层,其权重为:
$$ W_E\in \mathbb{h'\times w' \times e} $$
把每个通道投影到大小为e的隐层向量。按照[50, 21, 52, 37]中的bottleneck设计,我们将向量大小设定为
$$e = \frac{k_1 \times k_2}{2}$$
因此,我们得到一个带有全局语义信息的新特征,并将其表示为
$$F_C \in \mathbb{c_\times e}$$
让我们把全局语义信息写成一组向量:
它为语义信息提取结果提供了一个新的视角,它实际上是一个全局语义描述符的bag。
3.2 语义描述符关系推理
我们首先获得全局语义描述符集FC。然后,每个上下文描述符之间的关系fi能够进一步增强。最近,基于视觉推理的方法[46, 4, 68, 33, 63]已经在深度学习中得到研究,以更好地利用视觉组件之间的关系。在这些工作的推动下,我们构建了一个上下文描述符之间的关系推理模型。具体来说,通过权重参数$$ W_{\phi} 和 w_{\Phi}$$,我们将上下文描述符嵌入到两个嵌入空间。
然后,成对的相关性可以通过以下方式来计算
从中可以得到两个学习到的语义描述子$f_i$和$f_j$之间的关系,可以得到一个图表。
我們將图表表示为
$$G(F_C, R)$$
,其中 FC 是图形节点的集合(即情境描述符號),R 是图形边缘的集合(即情境描述符號的关系)。基于公式(1),亲和矩阵R可以通过测量每个情境描述符对的亲和边来获得。对于图像边缘而言,高亲和力分数表示对应的情境描述符号对之间有很強的语义关系。然后,我们用残差学习将FC和原始输入连接起来
其中
$$\sigma(.)$$
表示sigmoid激活函数,R是e×e亲和矩阵。$W_g$是GCN层的cin×cin权重矩阵,Wr是剩余结构的权重矩阵。
$$\odot$$
表示元素相乘
3.3 Context Reasoning Context Convolution
受37启发,我们尝试用增强的全局语义信息
$$
F_C*
$$
用注意力来更新卷积核,注意力mask大小为
$$
F_A \in \mathbb{c_\times c_\times k1 \times k2}
$$
大小和卷积核权重一样。
Kernel Decomposition 对于基于图像超分辨率的深层神经网络,特征的输入和输出通道
$$
c_、c_
$$
很大,(例如,CSNLN[41]中的128和EDSR[36]中的256),这可能使内核调制耗时。为了减小计算复杂度,我们遵循以前关于卷积核分解的工作[20, 7, 37] 。尝试生成两个向量
$$F_\mathop\in\mathbb{c_\times k_{1}\times k_{2}}\mathop{\mathrm}F_\in\mathbb{c_\times k_{1}\times k_{2}}$$
我们的目标是进一步降低计算的复杂性,以适应图像SR中非常深的网络和大的特征尺寸。受深度可分离卷积设计的启发[20, 7, 37],我们通过对通道交互和空间交互分别建模来实现这样两个张量FA1、FA2和最终的FA
channel interaction 为了适应卷积核权重的大小,我们首先把全局语义信息
$$F_C* \in \mathbb{c_\times e}$$
投影到输出维度空间
$$c_$$
受[17,37]启发,我们用权重
$$W_\in \mathbb{\frac{c_} \times \frac{c_{\text }}}$$
引入分组线性层实现投影,其中g是分组数目,我们把输出表示成
$$F_\in\overset{}{\mathbb{c_\times e}}$$
spatial interaction 我们然后我们对FCI和FC进行空间交互,得到相应的张量FA1和FA2。我们分别用两个权重分别为
$$ W_\in\mathbb{e\times k_1\times k_2}$$
和
$$W_\in\mathbb{e\times k_1\times k_2}$$
的线性层。
$$W_、W_$$
分别在
$$F_$$
和
$$F_C{*}$$
的不同特征图中共享。因此,我们生成两个张量
$$\tilde{F_}=F_W_\textF_=F_{*}W_\quad$$
语境推理注意卷积
在进行通道和空间交互[37]后,我们得到
$$F_\in\mathbb{c_\times k_{1}\times k_{2}}\textF_\in\mathbb{c_\times k_{1}\times k_{2}}$$
然后,我们通过以下方式形成最终的语义推理注意mask FA
$$F_=F_\oplus F_$$
其中
$$F_\in\mathbb{c_\times c_\times k_{1}\times k_{2}}$$
有和卷积核W相同大小。操作
$$\oplus$$
可以表示成按元素与。FA中每个元素
$$(F_A){h,i,j,k}$$
可以表示成
$$(F_A){h,i,j,k}=\sigma((F_){h,j,k}+(F)_{i,j,k})\quad\text{}$$
其中σ(.)表示sigmoid函数。这样,我们通过考虑全局语义信息得到了注意力掩码FA。
然后,我们可以应用注意力掩码FA来调节卷积核的权重W,如下所示:
$$W\ast=W\odot F_A$$
其中的运算
$$\odot$$
表示元素相乘。
有了调制的卷积核
$$W^*$$
,传统的输入特征图的卷积过程可以在全局背景的指导下动态地捕捉有代表性的局部模式。我们将其命名为上下文推理注意卷积(CRAC),其主要过程如图3所示。我们将在第4.6节进一步展示关于W∗在不同输入方面的多样性的可视化结果。然后,我们可以进一步利用CRAC来形成图像SR的基本网络模块。
3.4 用于图像SR的CRAN
我们提出的上下文推理注意卷积(CRAC)可以很容易地用来替代传统的卷积。我们使用CRAC来构建基本块和网络。
Context Reasoning Attention Block
Lim等人[36]在EDSR[19]中提出了用于图像SR的简化残差块。这样一个简化的残差块在图像SR中表现出相当有前途的性能,并在许多后续工作中作为基本的构建模块。在这里,我们简单地沿用了EDSR[36]中相同的块设计,用CRAC替换传统的卷积,形成了上下文推理注意块(CRAB)。按照基本残余块的设计[19, 36],我们通过以下方式制定CRAB的功能:
$$\quad F_=W_2\sigma(W_1F_)+F_$$
$$F_,F_$$
是输入和输出特征,σ(.)表示ReLU[16]激活函数。W1,W2是我们提出的CRAC层的权重,为了简单起见,省略了其中的偏置项。
语境推理注意网络。在图4中,我们遵循RCAN[64]的网络设计来建立我们的上下文推理注意网络(CRAN)。应该指出的是,我们提出的CRAC和CRAB可以用于其他图像SR网络。在这里,我们主要关注非常深的网络,并希望与最近相关的最先进的(SOTA)SR方法进行比较。具体来说,我们使用RCAN[64]作为骨干,用简化的残余块(RB)[36]或我们提出的CRAB替换所有的残余通道注意块[64],从而形成了上下文推理注意网络(CRAN)。CRAN的超分辨输出ISR可以通过以下方式获得:
其中
$$\mathcal_(.)$$
表示CRAN函数
3.5 实施细节
现在我们具体说明我们提出的CRAN的实施细节。对于CRAC,我们使用
$$h'=k1 and w'=k2$$
的平均池来调整特征图的大小。在分组线性层中,我们设置组数为g=16。对于网络配置,与骨干网RCAN[64]相同,我们在残差(RIR)[64]结构中设置残差组数为10。为了保持与RCAN相似的参数数和FLOPs,在每个残余组中,我们设置RB数为19,CRAB数为1,我们将一个CRAB作为每个残余组的最后一个块。我们在所有卷积(Conv)层中设置cin=64,cout=64,k1=3,k2=3的卷积核,
$$W\in\mathbb^{c_\times c_\times k_1\times k_2}$$
除了输入层、最终输出Conv层和upscaling模块。对于卷积核大小为3×3的卷积层(不考虑通道尺寸),采用零填充策略以保持大小固定。对于骨干层中的upscaling模块,我们遵循[47, 36, 66, 64],使用ESPN[47]将粗分辨率的特征上标为精细的特征。最后的Conv层有3个卷积核,因为我们输出彩色图像。同时,我们的网络也可以处理灰度图像。
4. 实验
4.1. 实验设置
数据。按照[49, 36, 18, 66, 62],我们使用DIV2K数据集[49]和Flickr2K[36]作为训练数据。对于验证,我们使用DIV2K中的前10张验证图片。对于测试,我们使用五个标准的基准数据集: Set5 [3], Set14 [60], B100 [39], Urban100 [22], and Manga109 [40]。
图像退化模型。我们用二进制(BI)、模糊-降尺度(BD)[61, 62, 66]和降尺度-噪声(DN)[61, 62]退化模型进行了实验。对于BD退化模型,HR图像首先被一个大小为7×7、标准偏差为1.6的高斯核模糊,然后用缩放系数×3进行降级。对于DN退化模型,HR图像首先用缩放系数×3进行降级,然后加入高斯噪声(噪声水平=30)。
评价指标。用PSNR和SSIM[53]对转换后YCbCr空间的Y通道(即亮度)的SR结果进行评估。我们还在网络参数数量、FLOPs和GPU内存使用方面与几种领先的SR方法进行了比较。
比较的方法。我们与许多图像SR方法进行了比较: SRCNN [11], FSRCNN [12], VDSR [26], IRCNN [61], EDSR [36], SRMDNF [62], DBPN [18], RDN [66], RCAN [64], RNAN [65], SRFBN [35], SAN [9], CSNLN [41], RFANet [38], HAN [43], IGNN [69] 和NSR [13]。所有的结果都是由作者提供的,或者由他们正式发布的代码产生的。
训练设置。数据增强是在训练图像上进行的,这些图像被随机地旋转了90◦、180◦、270◦并被水平翻转。在每个训练批次中,提取16个大小为48×48的LR颜色斑块作为输入。为了保持公平的比较,我们选择优化L1损失函数,这与其他比较的作品相同[36, 66]。我们的模型由ADAM optimizor[28]训练,β1 = 0.9, β2 = 0.999, and
$$\epsilon = 10^{-8}$$
初始学习率被设置为10-4,然后每2×105次反传播迭代就减少到一半。我们使用PyTorch[44]用Titan Xp GPU来实现我们的模型。
4.2. 消融研究
我们研究了我们提出的上下文描述符关系推理(CDRR)和上下文推理注意块(CRAB)的效果。我们进一步研究了通道交互、空间交互和CRAB位置的影响。我们使用EDSR基线[36]作为骨干,其中剩余块(RB)数量和特征数量为16和64。我们观察到,在BI模型下,×2 SR在200个历时中的验证数据表现最佳.
CDRR和CRAB的影响。
在EDSR基线中,我们用RCAB[64]取代所有的RB,我们的CRAB有无CDRR。在表1中,我们发现RCAB实现了轻微的性能提升。然而,我们的不含CDRR的CRAB获得了比基线明显的改进。这些比较表明,根据全局背景自适应地调节Conv内核对准确的图像SR有很大的帮助。通过CDRR,我们的CRAB获得了进一步的改善,这证明了CDRR的有效性。
通道相互作用和空间相互作用。我们研究了图像SR中的通道交互和空间交互[37]。如图3所示,通道交互产生FC1。空间交互由两个分支FA1和FA2组成。我们提供了空间互动和通道互动成分的几种组合,并在表2中报告了结果。我们发现,每个组件都对性能有贡献。最好的结果是全部使用它们,显示了我们选择它们的原因。
CRAB位置的影响。正如上面所分析的,我们利用一个CRAB来取代EDSR基线中的第1、4、8、16个RB,结果有四种情况。在表3中,CRAB在较低的级别(例如,第1级和第4级)会对性能增益略有贡献。当我们把CRAB插入到更高层次的位置时,我们可以获得更明显的收益。这样的观察有助于我们设置更深层次网络的最终配置。因此,对于我们的CRAN,我们保留前19个RB,并将CRAB作为所有20个剩余组的最后一个块。然后,我们在不同的退化模型下与其他较大的网络进行
4.3. 使用BI退化模型的结果
我们将我们提出的CRAN与最近的13种图像SR方法进行比较。与[36, 66, 64, 9, 43]类似,我们还引入了自组装策略来进一步改进我们的CRAN,并将自组装的CRAN表示为CRAN+。然而,我们主要是将我们的CRAN与其他的公平性进行比较。
定量结果。表4显示了×2、×3和×4 SR的定量比较。与以前的所有方法相比,我们的CRAN+在所有的数据集上,除了Set5(×2)的SSIM值之外,在所有的缩放因子上都表现得最好。即使没有自我组合,我们的CRAN在所有情况下也优于其他被比较的方法,除了Set5(×2)上的SSIM值(从SAN复制的)。和基于注意力的模型比较(例如,RCAN、SAN、RNAN、HAN和CSNLN),特别是我们工作中使用的骨干RCAN,我们的CRAN在大多数情况下取得了更高的PSNR/SSIM值。这种比较表明,我们提出的CRAN可以通过调制具有全局上下文推理注意力的Conv层内核来进一步提高性能。
视觉结果。在图5中,我们进一步展示了尺度×4的视觉比较。在这里,我们主要提供一些有代表性的关于纹理和小细节(例如,微小的线条)的挑战性案例。在图像 "img 034 "中,根据HR图像,有一些砖块的纹理。大多数比较的方法几乎不能恢复这种纹理,但会受到一些模糊伪影的影响。相比之下,我们的CRAN可以在一定程度上更好地缓解模糊伪影,恢复部分纹理。在图像 "img 044 "中,大多数比较方法都不能清楚地恢复微小的水平线。然而,我们的CRAN产生了更清晰的结构细节,更忠实于ground truth。
在图像 "img 092 "中,有几组不同方向的条纹。所有这些比较的方法不能直接重建右上方的条纹。它们要么存在严重的模糊假象(如EDSR、DBPN、RDN、RCAN和SAN),要么输出方向错误的条带(如CSNLN和RFANet)。然而,我们的CRAN更好地处理了这一挑战,恢复了整个条纹。这主要是因为我们考虑了全局信息,并将其编码到Conv层内核调制中。与最近的SOTA方法进行的这些明显的视觉比较进一步证明了我们CRAN的有效性。
4.4. 使用BD退化模型的结果
我们将我们的方法应用于具有模糊下降(BD)退化模型的超解图像,这也是近期图像SR工作中常用的方法[61, 62, 66, 64, 38]。
定量结果。在表5中,RFANet在每个数据集上都取得了非常高的性能。然而,我们提出的CRAN可以比RFANet获得明显的收益。我们可以通过自我组合(即CRAN+)取得更好的结果。我们的CRAN和基于注意力的SR方法相比取得了很大的增益。这一比较也表明,用上下文信息自适应地调节康夫层内核可能比修改局部特征的内核表现更好。
视觉结果。我们还在图6中提供了视觉上的比较,其中LR图像被进一步模糊了。对于图像 "img 015 "和 "img 078 "中具有挑战性的细节,大多数方法要么受到严重的模糊伪影的影响,要么恢复部分列。CRAN在更深的程度上对它们进行去模糊处理,并能恢复更多的列。在图像 "img 046 "中,大多数比较方法产生了一些方向错误的列状细节。相比之下,我们的CRAN通过恢复正确的成分获得了更好的结果。这些比较表明,带有上下文推理注意力的内核调制将缓解模糊的伪影。
4.5. DN退化模型的结果
我们进一步提供在更具挑战性的DN退化模型下的比较[61, 66],其中LR图像被进一步添加了重度噪声(噪声水平=30)。
定量结果。如表6所示,RDN在每个数据集上都取得了非常高的PSNR/SSIM值。而我们的CRAN可以比RDN进一步取得明显的性能提升。与RDN中层次特征的使用相比,我们的CRAN在处理具有上下文推理注意力的噪声图像方面显示出了很好的潜力。
视觉结果。我们在图7中进一步展示了对相当具有挑战性的案例的视觉比较。在图像 "img 076 "中,纹理结构是有噪声的,所比较的方法要么不能恢复纹理,要么产生明显不同的结构(例如,RDN)。我们的CRAN消除了噪声,获得了更好的纹理结构。我们还在图像 "img 099 "和 "Bye. "中展示了一些网格状的案例,其中严重的噪声可能导致大多数SR方法过度平滑的结果(例如VDSR和IRCNN)。RDN甚至可能产生错误的结构(例如,在图像 "Bye. "中)。然而,有了对噪声纹理的全局感知和上下文信息,我们的CRAN获得了更好的视觉结果,显示出更强的抑制噪声的能力。
4.6. 卷积核W∗的多样性
我们展示了公式(5)中的卷积核W在不同的输入下会被调制成多少W∗。也就是说,W∗的多样性会有多大?为了研究
$$W^*=W\odot F_A$$
的多样性,我们考虑FA和全一矩阵I之间的平均欧氏距离。我们随机地将100张图片转入网络,并计算每个样本的距离。我们在图8中显示了可视化的结果。我们可以看到,根据不同的输入,W∗是不同的,这表明W∗的自适应修改。
4.7. 模型复杂度分析
我们在表7中进一步显示了与最近有代表性的图像SR作品在模型大小、FLOPs、GPU内存、运行时间和性能方面的模型复杂度的比较。表中显示,EDSR[36]的模型规模最大。我们的CRAN比RCAN[64]和SAN[9]的参数数略少。CSNLN [41]在一个递归框架中的模型大小要小得多,这实际上花费了巨大的计算操作。具体来说,当输入尺寸为3×160×160时,CSNLN将使用超过2.2×103 G FLOPs,是我们的6倍以上。我们的CRAN也需要比CSNLN少得多的运行时间。SAN和CSNLN都会消耗超过8×103 Mb的GPU内存,是我们的12倍以上。尽管RCAN作为我们的主干,其模型大小、FLOPs、GPU内存和运行时间与我们的相似,但我们的CRAN比RCAN获得了明显的SR性能提升。这些比较和分析表明,我们的CRAN在模型复杂性和性能之间实现了更好的效率权衡
5. 结论
全局信息对准确的图像超分辨率(SR)至关重要。最近在神经科学方面的工作促使我们根据全局环境动态地修改卷积核。因此,我们提出了一个用于图像超分辨率的上下文推理注意网络(CRAN)。
具体来说,我们将输入特征投射到潜伏表征中并提取全局上下文描述符。通过使用具有语义推理的描述符关系,进一步增强了上下文关系描述符。然后引入通道和空间的相互作用来产生语境推理的注意掩码,应用于自适应地修改卷积核。我们使用调制的卷积层作为基本组件来构建块和网络。因此,我们的CRAN在不同的退化模型下实现了卓越的SR结果,并在性能和模型复杂性之间进行了有利的权衡。