文献阅读-UNet

Abstract

人们普遍认为，成功训练深度网络需要数千个带注释的训练样本。在本文中，我们提出了一种网络和训练策略，该策略依赖于数据增强的强大使用来更有效地使用可用的注释样本。该架构由一个用于捕获上下文的收缩路径和一个能够实现精确定位的对称扩展路径组成。我们表明，这样的网络可以从很少的图像进行端到端训练，并且在 ISBI 挑战赛中用于分割电子显微镜堆栈中的神经元结构，其性能优于先前的最佳方法（滑动窗口卷积网络）。使用在透射光显微镜图像（相差和 DIC）上训练的相同网络，我们在这些类别中大幅赢得了 2015 年 ISBI 细胞跟踪挑战赛。此外，网络速度很快。在最近的 GPU 上分割 512x512 图像只需不到一秒的时间。完整的实现（基于 Ca e）和经过训练的网络可在 http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net 获得。

1.Introduction

在过去的两年里，深度卷积网络在许多视觉识别任务中的表现都超过了最先进的水平，例如 [7,3]。虽然卷积网络已经存在了很长时间 [8]，但由于可用训练集的大小和所考虑网络的大小，它们的成功受到限制。 Krizhevsky 等人的突破。 [7] 是由于在具有 100 万张训练图像的 ImageNet 数据集上对具有 8 层和数百万参数的大型网络进行监督训练。从那时起，已经训练了更大更深的网络[12]。

卷积网络的典型用途是分类任务，其中图像的输出是单个类标签。然而，在许多视觉任务中，特别是在生物医学图像处理中，所需的输出应该包括定位，即应该为每个像素分配一个类标签。此外，数以千计的训练图像在生物医学任务中通常是遥不可及的。因此，Ciresan 等人在滑动窗口设置中训练网络，通过提供那个像素点周围的局部区域来预测每个像素的类别标签。首先，这个网络可以本地化。其次，就补丁而言，训练数据远大于训练图像的数量。由此产生的网络在 ISBI 2012 的 EM 分割挑战中大获全胜。

显然，Ciresan 等人的策略。 [1] 有两个缺点。首先，它非常慢，因为网络必须为每个补丁单独运行，并且由于重叠补丁而存在大量冗余。其次，在定位准确性和上下文使用之间存在权衡。较大的补丁需要更多的最大池化层，这会降低定位精度，而小补丁允许网络只能看到很少的上下文。最近的方法 [11,4] 提出了一个分类器输出，它考虑了来自多个层的特征。良好的本地化和上下文的使用是可能的。

在本文中，我们建立在一个更优雅的架构上，即所谓的“全卷积网络”[9]。我们修改和扩展了这个架构，使其适用于非常少的训练图像并产生更精确的分割；见图 1。 [9] 中的主要思想是通过连续层来补充通常的合同网络，其中池化算子被上采样算子取代。因此，这些层增加了输出的分辨率。为了定位，来自收缩路径的高分辨率特征图与来自上采样输出进行组合。然后一个连续的卷积层可以学习根据这些信息组装一个更精确的输出。

我们架构中的一个重要修改是，在上采样部分，我们还有大量的特征通道，这允许网络将上下文信息传播到更高分辨率的层。因此，扩展路径或多或少与收缩路径对称，并产生 u 形架构。网络没有任何全连接层，只使用每个卷积的有效部分，即分割图只包含输入图像中完整上下文可用的像素。该策略允许通过重叠平铺策略无缝分割任意大的图像（参见图 2）。为了预测图像边界区域的像素，通过镜像输入图像来推断缺失的上下文。这种平铺策略对于将网络应用于大图像很重要，因为否则分辨率将受到 GPU 内存的限制。

至于我们的任务，可用的训练数据非常少，我们通过对可用的训练图像应用弹性变形来使用过多的数据增强。这允许网络学习对此类变形的不变性，而无需在带注释的图像语料库中查看这些转换。这在生物医学分割中尤为重要，因为变形曾经是组织中最常见的变化，并且可以有效地模拟真实的变形。 Dosovitskiy 等人已经证明了数据增强对于学习不变性的价值。 [2] 在无监督特征学习的范围内。
许多细胞分割任务中的另一个挑战是分离同一类的触摸对象；参见图 3。为此，我们建议使用加权损失，其中接触单元之间的分离背景标签在损失函数中获得很大的权重。

由此产生的网络适用于各种生物医学分割问题。在本文中，我们展示了 EM 堆栈中神经元结构分割的结果（从 ISBI 2012 开始的持续竞赛），我们在其中执行了 Ciresan 等人的网络。 [1]。此外，我们在 2015 年 ISBI 细胞跟踪挑战赛的光学显微镜图像中展示了细胞分割的结果。在这里，我们在两个最具挑战性的 2D 透射光数据集上大获全胜。

2. 网络结构

网络架构如图 1 所示。它由收缩路径（左侧）和扩展路径（右侧）组成。收缩路径遵循卷积网络的典型架构。它由两个$3\times 3$卷积（未填充卷积）的重复应用组成，每个卷积后跟一个直角线性单元 (ReLU) 和一个$2\times 2$最大池化操作，步幅为 2，用于下采样。在每个下采样步骤中，我们将特征通道的数量加倍。扩展路径中的每一步都包括对特征图进行上采样，然后是将特征通道数量减半的$2\times 2$卷积 (\up-convolution")，与收缩路径中相应裁剪的特征图的连接，以及两个$3\times 3$卷积，每个后跟一个 ReLU。由于每个卷积中边界像素的丢失，裁剪是必要的。在最后一层，使用$1\times 1$卷积将每个 64 分量特征向量映射到所需数量的类。网络总共有 23个卷积层。为了允许输出分割图的无缝平铺（参见图 2），重要的是选择输入平铺大小，以便将所有$2\times 2$最大池操作应用于具有偶数 x 和 y 大小的层。

3. 训练

输入图像及其相应的分割图用于通过 Ca e [6] 的随机梯度下降实现来训练网络。由于未填充的卷积，输出图像比输入图像小一个恒定的边框宽度。为了最大限度地减少开销并最大限度地利用 GPU 内存，我们倾向于使用大输入图块而不是大批量大小，从而将批量减少为单个图像。因此，我们使用高动量（0.99），以便大量先前看到的训练样本确定当前优化步骤中的更新。

能量函数是通过最终特征图上的像素级 soft-max 结合交叉熵损失函数来计算的。Softmax被定义为

$$p_k(x)=exp(\alpha_k(x))/(\sum_{k'=1}^{K}exp(\alpha_k'(x)))$$ ，其中$\alpha_k(x)$表示特征通道 k 在像素位置$$x\in \Omega，\Omega \subset \mathbb{Z}^2$$的激活，K 是类数，$p_k(x)$是近似的最大函数。 对于具有最大激活$\alpha_k(x )$ 的 k，$p_k(x)\approx 1$和所有其他 k 的 $p_k(x )\approx 0$。 然后交叉熵在每个位置惩罚 $p_{\mathcal{l}(x)}$与 1 的偏差，使用: $$E=\sum\limits_{x\in \Omega}w(x)log(p_{\mathcal{l}(x)}(x))$$其中 $$\mathcal{l}: \Omega\rightarrow \{1,...K\}$$是每个像素的真实标签， $$w: \Omega \rightarrow \mathbb{R}$$是我们引入的权重图，用于在训练中赋予一些像素更多的重要性。 我们预先计算每个地面实况分割的权重图，以补偿训练数据集中某个类别的像素的不同频率，并强制网络学习我们在接触单元之间引入的小分离边界（见图 3c 和 d)。使用形态学运算计算分离边界。 然后将权重图计算为: $$w(\mathbf{x})=w_{c}(\mathbf{x})+w_{0} \cdot \exp \left(-\frac{\left(d_{1}(\mathbf{x}) +d_{2}(\mathbf{x})\right)^{2}}{2 \sigma^{2}}\right)$$ 其中 $$w_c:\Omega \rightarrow \mathbb{R}$$ 是平衡类频率的权重图，$d_1: \Omega \rightarrow \mathbb{R}$表示到最近单元格的距离和 $d_2: \Omega \rightarrow \mathbb{R}$边界的距离表示到第二近单元格边界的距离。 在我们的实验中，我们设置 $w_0=10$和 $\sigma \approx 5$个像素 在具有许多卷积层和通过网络的不同路径的深度网络中，良好的权重初始化非常重要。 否则，网络的某些部分可能会提供过多的激活，而其他部分则永远不会做出贡献。 理想情况下，应该调整初始权重，使得网络中的每个特征图都具有近似单位方差。 对于具有我们架构的网络（交替卷积和 ReLU 层），这可以通过从标准差为 $\sqrt{2/N}$的高斯分布中提取初始权重来实现，其中 N 表示一个神经元的传入节点数 [5] . 例如。 对于前一层 $N=9\cdot 64=576$ 的 $3\times 3$卷积和 64 个特征通道。

3.1 数据增强

当只有很少的训练样本可用时，数据增强对于教会网络所需的不变性和鲁棒性是必不可少的。在 6 张显微图像的情况下，我们主要需要移位和旋转不变性以及对变形和灰度值变化的鲁棒性。特别是训练样本的随机弹性变形似乎是训练带有很少注释图像的分割网络的关键概念。我们使用粗略的 3 x 3 网格上的随机位移矢量生成平滑变形。位移是从具有 10 像素标准偏差的高斯分布中采样的。然后使用双三次插值计算每像素位移。收缩路径末端的 drop-out 层执行进一步的隐式数据增强.

4. 实验

我们展示了 u-net 在三个不同的分割任务中的应用。第一项任务是电子显微镜记录中神经元结构的分割。图 2 显示了数据集和我们获得的分割的示例。我们将完整结果作为补充材料提供。该数据集由 2012 年 ISBI 开始的 EM 分割挑战 [14] 提供，并且仍然对新的贡献开放。训练数据是一组 30 张图像（512x512 像素），来自果蝇初龄幼虫腹神经索 (VNC) 的串行切片透射电子显微镜。每个图像都带有一个相应的完全注释的地面真实分割图，用于细胞（白色）和膜（黑色）。测试集是公开的，但它的分割图是保密的。可以通过将预测的膜概率图发送给组织者来获得评估。评估是通过在 10 个不同级别对地图进行阈值处理并计算“翘曲误差”、“兰德误差”和“像素误差”[14]来完成的。

u-net（输入数据的 7 个旋转版本的平均值）无需任何进一步的预处理或后处理即可实现 0.0003529 的翘曲误差（新的最佳分数，请参见表 1）和 0.0382 的随机误差.

这比 Ciresan 等人的滑动窗口卷积网络结果要好得多。 [1]，其最佳提交的翘曲误差为 0.000420，随机误差为 0.0504。就随机误差而言，在该数据集上唯一表现更好的算法，使用高度数据集特定的后处理方法1 应用于 Ciresan 等人的概率图。

我们还将 u-net 应用于光学显微图像中的细胞分割任务。此分割任务是 2014 年和 2015 年 ISBI 单元跟踪挑战的一部分 [10,13]。第一个数据集$"PhC-U373"^2$包含通过相差显微镜记录的聚丙烯酰亚胺基底上的胶质母细胞瘤-星形细胞瘤 U373 细胞（参见图 4a、b 和补充材料）。它包含 35 个部分注释的训练图像。在这里，我们实现了平均 IOU ("intersection over union") 为 92%，明显优于次优算法的 83%（见表 2）。第二个数据集 "DIC-HeLa"3 是通过微分干涉对比 (DIC) 显微镜记录的玻璃上的 HeLa 细胞（参见图 3、图 4c、d 和补充材料）。它包含 20 个部分注释的训练图像。在这里，我们实现了77.5% 的平均 IOU，这明显优于第二好的算法（46%）.

5. 结论

u-net 架构在非常不同的生物医学分割应用程序上实现了非常好的性能。由于弹性变形的数据缩放，它只需要很少的注释图像，并且在 NVidia Titan GPU (6 GB) 上的训练时间非常合理，只有 10 小时。我们提供完整的基于 Ca e[6] 的实现和训练有素的网络4。我们确信 u-net 架构可以轻松应用于更多任务。