nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation

Abstract

生物医学成像是科学发现的驱动力，也是医疗保健的核心组成部分，并受到深度学习领域的刺激。虽然语义分割算法可以在许多应用中实现图像分析和量化，但各自专业解决方案的设计是非平凡的，并且高度依赖于数据集属性和硬件条件。我们开发了nnU-Net，这是一种基于深度学习的分割方法，可以自动配置自己，包括预处理，网络架构，训练和后处理任何新任务。这一过程中的关键设计选择被建模为一组固定参数、相互依赖的规则和经验决策。在没有人工干预的情况下，nnU-Net超越了大多数现有方法，包括在国际生物医学分割竞赛中使用的23个公共数据集上高度专业化的解决方案。我们使nnU-Net作为开箱即用的工具公开可用，通过不需要专家知识或超出标准网络训练的计算资源，为广大受众提供最先进的分割

语义分割将原始生物医学图像数据转换为有意义的、空间结构化的信息，从而在科学发现中发挥重要作用1,2。同时，语义分割在许多临床应用中是必不可少的组成部分，包括人工智能在诊断支持系统中的应用5,6、治疗计划支持7、术中辅助2和肿瘤生长监测8。对自动分割方法的高度兴趣体现在蓬勃发展的研究领域，占生物医学领域国际图像分析竞赛的70%。

尽管最近基于深度学习的分割方法取得了成功，但它们对最终用户的特定图像分析问题的适用性往往有限。特定于任务的方法设计和配置需要高水平的专业知识和经验，小错误会导致性能的大幅下降。特别是在三维(3D)生物医学成像中，数据集属性(如成像方式，图像大小，(各向异性)体素间距和类比)变化很大，这个过程可能很麻烦，并且从一个数据集成功配置很少转换到另一个数据集。在适应和训练神经网络的过程中，涉及到从精确的网络架构到训练计划和数据增强或后处理的方法的众多专家决策。每个相互依赖的子组件都由基本参数控制，如学习率、批大小或类抽样策略。在整个设置中，另一层复杂性是由可用于训练和推理的硬件造成的。正如之前在自动机器学习(AutoML)领域的研究所提出的那样，在这个高维空间中对相互依赖的设计选择进行纯粹的经验优化，将所需训练案例的数量和计算资源以数量级增加，并且通常只覆盖分割管道的一小部分(例如架构或数据增强)，将相当大比例的配置留给实验者12。此外，AutoML在新数据集上的应用自带一套所需的专家选择，例如，在考虑构建一个合理的特定于问题的搜索空间时。正如我们对国际生物医学分割挑战当前形势的分析所表明的那样(结果)，这些实际限制通常会让用户在方法设计过程中使用手册和迭代的试错过程，这主要是由个人经验驱动的，几乎没有记录，并且经常导致次优分割管道10,13

在这项工作中，我们概述了在生物医学分割中主要由专家驱动的方法配置的现状和主要由数据驱动的AutoML方法之间的一条新路径。具体来说，我们定义了一个配方，该配方在任务不可知的水平上系统化配置过程，并在给定新任务时大大减少了经验设计选择的搜索空间。

收集不需要在数据集之间进行调整的设计决策，并确定一个健壮的公共配置(“固定参数”)。
对于尽可能多的剩余决策，以启发式规则的形式制定特定数据集属性(“数据集指纹”)和设计选择(“管道指纹”)之间的显式依赖关系，以允许几乎即时适应应用程序(“基于规则的参数”)。
只从数据(“经验参数”)中经验地学习剩余的决策。

我们在医疗细分十项全能提供的十个数据集上开发并验证了这个配方的实现。由此产生的分割方法，我们称之为nnU-Net，能够对任意新数据集执行自动配置。与现有的研究方法相比，nnU-Net具有整体性，即它的自动化配置涵盖了整个分割管道(包括网络架构的基本拓扑参数)，而无需任何人工决策。此外，nnU-Net中的自动配置速度很快，包括简单的规则执行，只需要做出一些经验选择，因此除了标准模型训练之外，几乎不需要计算资源。最后，nnU-Net具有数据效率;基于大型和多样化的数据池的编码设计选择对于具有有限训练数据的数据集的应用具有很强的归纳偏差。

nnU-Net的自动化配置的一般适用性在13个额外的数据集中得到了证明。总之，我们报告了53个分割任务的结果，涵盖了前所未有的目标结构、图像类型和图像属性的多样性。作为一个开源工具，nnU-Net可以简单地进行开箱即用的训练，以生成最先进的分割。

Results

nnU-Net是一种基于深度学习的分割方法，它可以自动配置自身，包括预处理、网络架构、训练和后处理，以适应生物医学领域的任何新任务。由nnU-Net对各种数据集生成的示例性分割结果如图1所示。

nnU-Net自动适应任何新的数据集。图2显示了nnU-Net如何系统地处理整个分割管道的配置，并提供了最相关设计选择的可视化和描述.

nnU-Net development. nnU-Net的自动配置是基于将领域知识提炼为三个参数组:固定参数组、规则参数组和经验参数组。首先，我们收集所有不需要在数据集之间进行调整的设计选择(例如将架构模板设置为“类似u - net”)，并优化它们的联合配置，以便在我们的开发数据集上进行稳健的泛化。其次，对于尽可能多的剩余决策，我们制定了“数据集指纹”和“管道指纹”之间的显式依赖关系，“数据集指纹”是一种标准化的数据集表示，包括图像大小、体素间距信息或类别比率等关键属性，我们将其定义为在方法设计期间所做的全部选择。依赖关系以相互依赖的启发式规则的形式建模，允许在应用程序上几乎即时执行。举例说明，批量大小、补丁大小和网络拓扑结构的相互依赖配置基于以下三个原则。

更大的批大小允许更准确的梯度估计，因此更可取(在我们的领域中通常没有达到最佳点)，但在实践中，任何大于1的批大小都已经导致鲁棒训练
在训练过程中，更大的补丁大小增加了网络吸收的上下文信息，因此对性能至关重要。
网络的拓扑结构应该足够深，以保证有效感受野大小至少与补丁大小一样大，这样上下文信息就不会被丢弃。

将这些知识提炼成成功的方法设计，可以得到以下启发式规则： “将补丁大小初始化为中位数图像形状，并在相应地调整网络拓扑(包括网络深度、每个轴上池化操作的数量和位置、特征图大小和卷积内核大小)的同时迭代地减少补丁大小，直到网络可以用至少两个给定GPU内存约束的批处理大小进行训练。”在线方法中提供了所有启发式规则的详细描述，并在补充注释2中提供了用于推导规则的指导原则的汇编。第三，我们只设置了剩余的设计选择，即模型选择和后处理，在应用过程中根据训练数据进行经验决定。我们将此配方的实现称为nnU-Net，它是专门在源自医疗十项全能细分挑战赛的一组10个开发数据集上开发的。

nnU-Net应用程序。当将nnU-Net应用于新数据集时，nnU-Net的自动配置无需人工干预即可运行。因此，除了剩下的几个经验选择之外，除了标准的网络训练程序之外，不需要额外的计算成本。nnU-Net的自动方法配置从提取数据集指纹和随后执行启发式规则开始。默认情况下，nnU-Net生成三种不同的U-Net15配置:二维(2D) U-Net，全图像分辨率下运行的3D U-Net和3D U-Net级联，其中第一个U-Net在下采样图像上运行，第二个U-Net被训练以细化由前者在全分辨率下创建的分割图。经过交叉验证后，nnU-Net经验地选择性能最好的配置或集成。最后，如果测量性能增益，nnU-Net经验地选择“非最大分量抑制”作为后处理步骤。nnU-Net的自动化配置和训练过程的输出是经过充分训练的模型，可以用于对未见过的图像进行预测。我们通过将nnU-Net的固定的、基于规则的和经验的参数应用于13个额外的数据集，证明了设计选择编码的泛化能力。

nnU-Net背后的方法及其总体设计原则的深入描述分别在方法和补充说明2中提供。由nnU-Net为所有数据集生成的分割管道在补充说明6中提供。

nnU-Net处理各种各样的目标结构和图像属性。我们通过将nnU-Net应用于11个国际生物医学图像分割挑战，包括23个不同的数据集和53个分割任务，证明了它作为开箱即开的分割工具的价值6,14,16 - 24。
这一选择包括各种器官、器官亚结构、肿瘤、病变和细胞结构的二维和三维图像，这些图像是通过磁共振成像(MRI)、计算机断层扫描(CT)、电子显微镜(EM)和荧光显微镜(FM)获得的。“挑战”是旨在评估标准化环境中多种算法性能的国际竞赛。在所有的分割任务中，nnU-Net只使用提供的挑战数据从头开始训练。定性上，我们观察到nnU-Net可以处理数据集属性和目标结构多样性的巨大差异;也就是说，生成的管道配置符合人类专家认为的合理或明智的设置(补充说明3，第1节和第2节)。图1给出了nnU-Net生成的分割结果示例。

在一系列不同的任务中，nnU-Net优于专门的管道。图3提供了由nnU-Net和竞争挑战团队在所有53个分割任务中实现的定量结果的概述。尽管具有通用性，但nnU-Net优于大多数现有的分割解决方案，尽管后者是针对各自的任务进行了专门优化的。总的来说，nnU-Net在53个目标结构中的33个中设置了新的技术状态，并且在其他方面显示出与排行榜前几名相当或接近的性能。

方法配置中的细节比体系结构变化对性能的影响更大。为了更深入地了解当前基于深度学习的生物医学图像分割实践，我们以医学图像计算和计算机辅助干预(MICCAI)协会主办的2019年肾脏和肾脏肿瘤分割(KiTS)挑战赛中的参与算法为例进行了分析。MICCAI协会一直主办至少50%的年度生物医学图像分析挑战赛9。kit挑战赛有100多名参赛者，是MICCAI 2019上规模最大的比赛。第一个观察结果是，AutoML方法在排行榜上明显缺席。只有一个提交(100个中排名第18位)报告了“通过网格搜索选择几个超参数”(http://results.kits-challenge.org/miccai2019/manuscripts/peekaboo_2.pdf)，而人工试错优化代表了不可否认的现状。值得注意的是，这一观察结果并非仅针对kit;我们不知道在任何生物医学图像分割竞赛中使用AutoML的成功提交。图4a提供了kit排行榜的总体总结(http://results.kits-challenge.org/miccai2019)，揭示了对基于深度学习的分割方法设计的当前前景的进一步见解。首先，排名前15位的方法来自2016年的(3D) U-Net架构(参考文献)。15,26)，证实了其对生物医学图像分割领域的影响。其次，使用相同类型网络的贡献会导致整个排行榜上的表现分散。第三，在检查前15种方法时，没有一种常用的架构修改(例如，残差连接27,28，密集连接29,30，注意机制31或扩张卷积32,33)代表了kit任务良好性能的必要条件。

图4b强调了找到好的方法配置的重要性。它说明了对算法的分析，这些算法都使用了与挑战获胜贡献相同的架构变体，即带有剩余连接的3D U-Net。虽然其中一种方法赢得了挑战，但基于相同原则的其他贡献涵盖了整个评估分数和排名范围。从各自的管道指纹中选择关键配置参数，说明每个团队在方法配置期间所做的相互依赖的设计选择。参赛者提交的不同配置表明了高维优化问题的潜在复杂性，这是通过配置深度学习方法来进行生物医学图像分割所隐含的。

nnU-Net通过实验强调了方法配置相对于工具包数据集中架构变化的重要性，在开放排行榜上设置了一个新的技术状态(nnU-Net是在原始挑战结束后提交到排行榜上的，因此不是原始排行榜分析的一部分)。图4中分析的方法也列在开放排行榜中，具有简单的3D U-Net架构。这一观察结果与我们从另外22个数据集得到的结果一致(图3)。

不同的数据集需要不同的管道配置。我们提取了23个生物医学分割数据集的数据指纹。如图5所示，这证明了生物医学成像中数据集的异常多样性，并揭示了缺乏开箱即用分割算法的根本原因:方法配置的复杂性被这样一个事实放大:合适的管道设置直接或间接地取决于潜在复杂关系下的数据指纹。因此，对于一个数据集(如工具包，见上文)被确定为最佳的管道设置可能无法推广到其他数据集，从而导致需要对每个单独的数据集进行重新优化。nnU-Net通过识别稳健的设计决策和显式建模关键的相互依赖性来解决这一挑战(图2)。

多个任务可以实现健壮的设计决策。nnU-Net的自动方法配置可以被研究人员利用用于新分割方法的发展。新颖的想法可以很容易地集成到nnU-Net中，从而在多个数据集上进行测试，而不必为每个数据集手动重新配置整个管道。为了证明这种方法的好处，也为了支持在nnU-Net中做出的一些核心设计选择，我们通过系统地修改一些nnU-Net的固定参数，系统地测试了常见管道变化的性能。以下变化在10个不同的数据集上进行了评估，并与我们的默认nnU-Net配置进行了比较，该配置在这些实验中作为基线(图6)。

数据集之间排名的波动性表明了单个设计选择如何根据数据集影响分割性能。结果清楚地表明，在基于数量不足的数据集的评估中得出方法学结论时需要谨慎。虽然9个变体中有5个在至少一个数据集中排名第一，但它们在10个任务中都没有表现出一致的改进。原始的nnU-Net配置显示出最好的泛化效果，在所有数据集的结果汇总时排名第一。

Discussion

我们提出了一种基于深度学习的分割方法nnU-Net，它可以自动配置自身，包括预处理、网络架构、训练和后处理，以适应生物医学领域的任何新任务。nnU-Net为其评估的大多数任务设置了一个新的艺术状态，优于所有各自的专门处理管道。nnU-Net的强大性能不是通过新的网络架构，损失函数或训练方案实现的(因此名称nnU-Net，“无新网络”)，而是通过将手动方法配置的复杂过程系统化，这是以前通过繁琐的手动调整或纯经验方法解决的，具有实际局限性。我们假设nnU-Net最先进的性能背后的原因在于从数据池里提取知识转化为一组稳健的设计选择，当应用于新数据集时，这些选择转化为强大的归纳偏差。这使得模型的泛化能力超越了在单个数据集上配置的模型。此外，通过将领域知识压缩为一组固定的、基于规则的经验参数，我们概述了一条计算上可行的自动化方法配置的新路径，同时涵盖了整个分割管道，包括网络架构的基本拓扑参数。nnU-Net是一种新的分割工具，可以开箱即用，无需任何用户干预，适用于大范围的生物医学成像数据集，因此非常适合需要使用语义分割方法，但没有专业知识、时间、数据或计算资源来适应现有解决方案的用户。

我们对KiTS排行榜的分析揭示了生物医学图像分割方法配置的手册和不够系统的现状，并强调了当前该领域研究的几个含义。例如，我们观察到使用相同类型网络的贡献导致整个排行榜上的表现分布(图4)。这一观察结果与Litjens等人的观点一致，他们在评论中发现“许多研究人员使用完全相同的架构”，“但结果却大相径庭”(参考文献10)。有几个可能的原因可以解释为什么文献中提出的基于架构扩展的性能改进可能无法转化为领域中的所有数据集。首先，生物医学领域数据集的多样性需要专门的方法配置(图5)。因此，新数据集上方法配置的质量可能会掩盖评估的架构修改的效果。这种解释与Litjens等人的观察一致，他们得出的结论是“精确的体系结构并不是获得好的解决方案的最重要决定因素”(参考文献10)，并得到了基于强大方法配置和简单U-Net体系结构相结合的nnU-Net最先进结果的支持。其次，在目前的研究实践中，评估很少在两个以上的数据集上进行，即使这样，数据集大量重复(比如都是腹部CT扫描)。正如我们的多数据集研究(图6)所示，这种评估不适合得出一般的方法学结论。我们将缺乏足够广泛的评估与手动调整所建议方法的配置以及现有管道(即基线)以适应单个数据集所需的大量工作联系起来。至关重要的是，这个繁琐的过程也可能导致基线配置不理想，从而导致文献中的潜在偏差。nnU-Net能够缓解当前研究的这些瓶颈。一方面，nnU-Net代表了一种新的方法，它不需要人工对特定任务进行调整，因此可以很容易地作为任何新的分割任务的强大和标准化基线。另一方面，nnU-Net可以帮助增加用于该领域评估的数据集的数量，作为一个可扩展的实验框架，研究人员可以轻松地实施方法修改。

虽然nnU-Net已被证明可以在新数据集上稳健地找到高质量的配置，但特定任务的经验优化可能具有进一步提高分割性能的潜力。然而，正如在引言中所阐述的，经验AutoML方法的实际局限性目前阻碍了它们在生物医学图像分割中的应用。与nnU-Net相比，另一个限制是缺乏与数据驱动优化(“黑箱算法”(参考文献12))相关的透明度，对于nnU-Net，由于基本使用指导原则，每个设计决策可以追溯到某些数据集属性或有限的经验实验集。展望未来，我们认为我们的工作是对实证AutoML研究的补充;nnU-Net可以作为整体自动化的基础，可以通过对选定的设计决策(如数据增强或网络架构)进行经验优化来增强整体自动化。

尽管它在53种不同的任务中表现出色，但可能存在nnU-Net自动适应的分段任务。例如，nnU-Net的开发重点是将Dice系数作为性能指标。然而，有些任务可能需要高度特定于领域的目标指标来进行评估，这可能会影响方法设计。此外，尚未考虑的数据集属性可能存在，这可能会导致次优分割性能。CREMI挑战中的突触间隙分割任务就是一个例子(https://cremi.org)。虽然nnU-Net的表现非常有竞争力(在39个榜单中排名第6)，为了超越最先进的性能，可能需要手动调整损失函数，以及特定于em的预处理。原则上，有两种方法可以处理网络尚未充分涵盖的情况。对于可能重复出现的情况，nnU-Net的启发式可以相应扩展; 对于高度特定于领域的情况，nnU-Net应被视为进行必要修改的良好起点。

总之，nnU-Net在各种语义分割挑战中开创了新的技术水平，并显示出强大的泛化特征，既不需要专家知识，也不需要超出标准网络训练的计算资源。正如Litjens等人指出并在此定量证实的那样，生物医学成像中的方法配置曾被认为是“高度经验性的练习”，“无法给出明确的处方”(参考文献10)。基于这项工作中提出的配方，nnU-Net能够自动化这一往往不够系统化和繁琐的过程，从而可能有助于减轻这一负担。我们建议利用nnU-Net作为最先进的分割工具，作为标准化和数据集不可知的比较基线，作为无需人工操作的新想法大规模评估的框架。