High-Resolution Image Synthesis with Latent Diffusion Models

Abstract

通过将图像形成过程分解为去噪自动编码器的连续应用，扩散模型（DMs）在图像数据和其他方面取得了最先进的合成结果。此外，它们的表述允许一个指导机制来控制图像生成过程，而无需重新训练。然而，由于这些模型通常直接在像素空间中运行，强大的DMs的优化往往需要消耗数百个GPU天，并且由于顺序评估，推理的成本很高。为了使DM在有限的计算资源上进行训练，同时保留其质量和灵活性，我们在强大的预训练自动编码器的潜在空间中应用它们。与以前的工作相比，在这样的表征上训练扩散模型首次允许在降低复杂性和保留细节之间达到一个接近最佳的点，极大地提高了视觉保真度。通过在模型结构中引入交叉注意力层，我们将扩散模型变成了强大而灵活的生成器，用于一般的条件输入，如文本或边界框，并且高分辨率合成以卷积方式成为可能。我们的潜伏扩散模型（LDMs）在图像绘画和类条件图像合成方面取得了新的最先进的分数，并在各种任务上取得了极具竞争力的性能，包括文本到图像合成、无条件图像生成和超分辨率，同时与基于像素的DMs相比，大大降低了计算要求。

1. Introduction

图像合成是计算机视觉领域中最近发展最引人注目的领域之一，但也是计算需求最大的领域之一。特别是复杂自然场景的高分辨率合成，目前主要是通过扩大基于似然的模型，在自回归（AR）变换器中可能包含数十亿的参数[66,67]。相比之下，GANs[3, 27, 40]的有希望的结果已被发现大多局限于具有相当有限的变异性的数据，因为他们的对抗性学习程序不容易扩展到复杂、多模式分布的建模。最近，扩散模型[82]，它是由去噪自动编码器的层次结构建立的，在图像合成领域取得了很大成就，及其他[7,45,48,57]，并定义了类条件图像合成[15,31]和超分辨率[72]中的最先进技术。此外，与其他类型的生成模型[19,46,69]相比，即使是无条件的DMs也可以很容易地应用于绘画和着色[85]或基于笔画的合成[53]等任务。作为基于似然的模型，它们不会像GANs那样表现出模式崩溃和训练不稳定性，而且通过大量利用参数共享，它们可以对自然图像的高度复杂分布进行建模，而不像AR模型那样涉及数十亿的参数[67]。

高分辨率图像合成的民主化 DM属于基于似然的模型，其模式覆盖行为使它们容易在对数据的不可察觉的细节进行建模时花费过多的容量（以及计算资源）[16, 73]。尽管重加权变异目标[30]旨在通过对初始去噪步骤进行低采样来解决这个问题，但DMs在计算上仍然要求很高，因为训练和评估这样的模型需要在RGB图像的高维空间中重复进行函数评估（和梯度计算）。例如，训练最强大的DMs通常需要数百个GPU日（例如[15]中的150 1000 V100日），并且在输入空间的噪声版本上的重复评估也使推理变得昂贵。

因此，在单个A100 GPU上产生5万个样本大约需要5天[15]。这对研究界和一般用户来说有两个后果。首先，训练这样一个模型需要大量的计算资源，只有一小部分领域可以使用，并留下巨大的碳足迹[65, 86]。其次，评估一个已经训练好的模型在时间和内存上也很昂贵，因为同一个模型架构必须连续运行大量的步骤（例如[15]中的25-1000步）。

为了提高这个强大的模型类别的可及性，同时减少其大量的资源消耗，需要一种方法来降低训练和采样的计算复杂性。因此，减少DMs的计算需求而不损害其性能，是提高其可及性的关键。

向潜伏空间出发 我们的方法是从分析已经训练好的像素空间的扩散模型开始的。图2显示了一个训练好的模型的速率-失真权衡。与任何基于似然的模型一样，学习可以粗略地分为两个阶段。首先是感知压缩阶段，该阶段去掉了高频细节，但仍能学习到很少的语义变化。在第二阶段，实际生成模型学习数据的语义和概念构成（语义压缩）。因此，我们的目标是首先找到一个感知上等效，但计算上更合适的空间，我们将在其中训练用于高分辨率图像合成的扩散模型。

按照通常的做法[11, 23, 66, 67, 96]，我们把训练分成两个不同的阶段。首先，我们训练一个自动编码器，它提供了一个较低维度的（因而也是有效的）表示空间，它在感知上等同于数据空间。重要的是，与以前的工作[23,66]相比，我们不需要依赖过度的空间压缩，因为我们在学习到的潜在空间中训练DM，它在空间维度方面表现出更好的缩放特性。复杂度的降低也为我们提供了高效的图像生成，只需通过一次网络就能从潜伏空间生成图像。我们将产生的模型类称为潜伏扩散模型（LDMs）。

这种方法的一个显著优势是，我们只需要训练一次通用的自动编码阶段，因此可以将其重复用于多个DM训练或探索可能完全不同的任务[81]。这使得我们能够为各种图像到图像和文本到图像的任务有效地探索大量的扩散模型。对于后者，我们设计了一个架构，将转化器连接到DM的UNet主干网[71]，并启用任意类型的基于标记的调节机制，见3.3节。

总之，我们的工作有以下贡献：

(i) 与纯粹的基于变换器的方法[23, 66]相比，我们的方法对高维数据的扩展更加优雅，因此可以(a) 在压缩水平上工作，提供比以前的工作更忠实和详细的重建（见图1），(b) 可以有效地应用于百万像素图像的高分辨率合成。

(ii)我们在多个任务（无条件的图像合成、绘画、随机超分辨率）和数据集上取得了有竞争力的性能，同时大大降低了计算成本。与基于像素的扩散方法相比，我们还大大降低了推理成本。

(iii) 我们表明，与以前同时学习编码器/解码器结构和基于分数的先验的工作[93]相比，我们的方法不需要对重建和生成能力进行精细的加权。这确保了极其忠实的重建，并且对潜在空间的正则化要求很低。

(iv) 我们发现，对于密集条件的任务，如超分辨率、绘画和语义合成，我们的模型可以以卷积方式应用，并呈现10242 px的大型一致图像。

(v) 此外，我们设计了一个基于交叉注意的通用调节机制，实现了多模式训练。我们用它来训练类别条件、文本到图像和布局到图像模型。

(vi) 最后，我们将预训练的潜在扩散和自动编码模型发布在https : / / github .com/CompVis/latent-diffusion，除了训练DMs之外，还可以重用在各种任务中。

2. 相关工作

图像合成的生成模型图像的高维特性对生成模型提出了明显的挑战。生成对抗网络（GAN）[27]允许对具有良好感知质量的高分辨率图像进行有效采样[3, 42]，但优化起来很困难[2, 28, 54]，而且很难捕捉到全部数据分布[55]。相比之下，基于似然的方法强调良好的密度估计，这使得优化更加顺畅。变异自动编码器（VAE）[46]和基于流量的模型[18, 19]能够有效地合成高分辨率图像[9, 44, 92]，但样本质量与GANs不相上下。虽然自回归模型（ARM）[6, 10, 94, 95]在密度估计方面取得了强大的性能，但对计算要求很高的架构[97]和连续的采样过程将它们限制在低分辨率图像上。因为基于像素的图像表示包含几乎无法感知的高频细节[16,73]，最大似然训练在建模上花费了不成比例的容量，导致训练时间过长。为了扩展到更高的分辨率，一些两阶段的方法[23,67,101,103]使用ARMs对压缩的潜在图像空间进行建模，而不是原始像素。

最近，扩散概率模型（DM）[82]，在密度估计[45]以及样本质量[15]方面取得了最先进的成果。这些模型的生成能力源于当它们的底层神经骨干被实现为UNet时，自然适合图像类数据的归纳偏差[15, 30, 71, 85]。当使用重新加权的目标[30]进行训练时，通常能达到最佳的合成质量。在这种情况下，DM相当于一个有损的压缩器，允许用图像质量换取压缩能力。然而，在像素空间评估和优化这些模型，有推理速度低和训练成本高的缺点。虽然前者可以通过先进的采样策略[47, 75, 84]和分层方法[31, 93]部分解决，但在高分辨率图像数据上的训练总是需要计算昂贵的梯度。我们提出的LDMs解决了这两个缺点，它在低维度的压缩潜在空间中工作。这使得训练的计算成本降低，并在几乎不降低合成质量的情况下加快推理速度（见图1）。

两阶段图像合成 为了减轻单个生成方法的缺点，很多研究[11, 23, 67, 70, 101, 103]通过两阶段方法将不同方法的优势结合到更有效和更有性能的模型中。VQ-VAEs[67, 101]使用自回归模型在离散的潜在空间上学习表达式先验。[66]通过学习离散化图像和文本表示的联合分布，将这种方法扩展到文本到图像的生成。更广泛地说，[70]使用条件可逆网络来提供不同领域潜空间之间的通用转移。与VQ-VAEs不同，VQGANs[23, 103]采用具有对抗性和感知性目标的第一阶段，将自回归变换器扩展到更大的图像。然而，可行的ARM训练所需的高压缩率，引入了数十亿的可训练参数[23, 66]，限制了此类方法的整体性能，而且较少的压缩是以高计算成本为代价的[23, 66]。我们的工作防止了这种权衡，因为我们提出的LDMs由于其卷积骨架，可以更温和地扩展到更高维的潜空间。因此，我们可以自由地选择压缩水平，在学习一个强大的第一阶段之间进行最佳调解，而不把太多的感知压缩留给生成的扩散模型，同时保证高保真重建（见图1）。

虽然存在联合[93]或单独[80]学习编码/解码模型和基于分数的先验的方法，但前者仍然需要在重建和生成能力之间进行困难的加权[11]，并被我们的方法所超越（第4节），而后者专注于高度结构化的图像，如人脸。

3. 方法

为了降低训练扩散模型对高分辨率图像合成的计算要求，我们注意到，尽管扩散模型允许通过对相应的损失项进行低采样来忽略感知上不相关的细节[30]，但它们仍然需要在像素空间进行昂贵的函数评估，这导致对计算时间和能量资源的巨大需求。

我们建议通过引入明确的压缩性学习和生成性学习阶段的分离来规避这一缺点（见图2）。为了实现这一目标，我们利用了一个自动编码模型，该模型学习了一个在感知上与图像空间相当的空间，但提供了显著降低的计算复杂性。

这种方法有几个优点：（i）通过离开高维图像空间，我们得到的DMs在计算上更有效率，因为采样是在低维空间上进行。(ii) 我们利用了从UNet架构中继承下来的DMs的归纳偏见[71]，这使得它们对具有空间结构的数据特别有效，因此减轻了以前的方法[23, 66]要求的积极的、降低质量的压缩水平。(iii) 最后，我们获得了通用的压缩模型，其潜在空间可用于训练多个生成模型，也可用于其他下游应用，如单图像CLIP指导的合成[25]。

3.1. 感知性图像压缩

我们的感知性压缩模型是基于以前的工作[23]，包括一个由感知性损失[106]和基于补丁[33]的对抗性目标[20, 23, 103]组合训练的自动编码器。这确保了重建被限制在图像流形内，通过执行局部的真实性，并避免了仅仅依靠像素空间损失（如L2或L1目标）而引入的模糊性。

更准确地，给定RGB空间的输入图像
$$
x\in \mathbb^{{H\times W\times 3}

$$

，编码器

$$\varepsilon$$

把x编码成隐式表达

$$z=\varepsilon(x)$$，

解码器

$$\mathbb$$

从隐空间中重建图像，得到

$$\tilde x=D(z)=D(\varepsilon(x))$$

，其中

$$z\in \mathbb}{h\times w\times c}$$
，重要的是编码器把输入图像进行下采样，下采样因子为
$$f=H/h=W/w$$
，我们尝试了不同的下采样因子
$$f=2^m,m\in N$$.

为了避免任意的高变异性隐空间，我们试验了两种不同的正则化。
第一种变体，KL-reg.，对学习到的隐空间施加一个轻微的KL-惩罚，类似于VAE[46, 69]，而VQ-reg.在解码器中使用一个矢量量化层[96]。这个模型可以被解释为VQGAN[23]，但量化层被解码器吸收了。因为我们的后续DM被设计为与我们学习的隐空间
$$z=\varepsilon(x)$$
的二维结构一起工作，所以我们可以使用相对温和的压缩率，并实现非常好的重建。这与之前的工作[23, 66]形成了对比，后者依靠对所学空间z的任意一维排序来建立其分布的自回归模型，从而忽略了z的大部分固有结构。因此，我们的压缩模型更好地保留了x的细节（见表8）。完整的目标和训练细节可以在附录中找到.

3.2 Latent Diffusion Models

扩散模型[82]是一种概率模型，旨在通过逐渐去噪正态分布变量来学习数据分布p(x)，这相当于学习长度为T的固定马尔科夫链的反向过程。对于图像合成，最成功的模型[15,30,72]依赖于p(x)的变异下限的再加权变体，它反映了去噪得分匹配[85]。这些模型可以被解释为同等权重的去噪自动编码器序列$$\varepsilon_{\theta}(x_t,t)$$
，它们被训练来预测其输入
$$x_t$$
的去噪变体，其中
$$x_t$$
是输入x的噪声版本。

L_{D M}=\mathbb{E}_{x, \epsilon \sim \mathcal{N}(0,1), t}\left[\left\|\epsilon-\epsilon_{\theta}\left(x_{t}, t\right)\right\|_{2}^{2}\right] \qquad (1)

其中t是从{1,...,T}中均匀采样得来。

潜在表征的生成模型 有了由
$$\mathcal{E,D}$$
组成的训练有素的感知压缩模型，我们现在可以获得一个有效的、低维的潜在空间，其中高频的、不易察觉的细节被抽象掉了。与高维像素空间相比，这个空间更适合基于似然的生成模型，因为它们现在可以(i)专注于数据的重要语义位，(ii)在一个低维的、计算上更有效的空间中训练。
不像以前的工作，在一个高度压缩的、离散的潜伏空间中依靠自回归的、基于注意力的转化器模型[23,66,103]，我们可以利用我们的模型提供的图像特定的归纳偏差。包括主要从二维卷积层建立底层UNet的能力，以及使用重新加权的约束将目标进一步集中在感知上最相关的位上，现在是这样的：

L_{L D M}:=\mathbb{E}_{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0,1), t}\left[\left\|\epsilon-\epsilon_{\theta}\left(z_{t}, t\right)\right\|_{2}^{2}\right] \qquad(2)

我们模型的神经骨架
$$\varepsilon_{\theta}(\circ, t)$$是作为一个时间条件的UNet[71]实现的。由于前向过程是固定的，在训练过程中可以有效地从$\mathcal$中获得$z(t)$，并且p(z)中的样本可以通过$\mathcal$进行一次解码到图像空间。

3.3. 条件机制

类似于其他类型的生成模型[56, 83]，扩散模型原则上能够对$p(z|y)$形式的条件分布进行建模。这可以用条件去噪自动编码器$\varepsilon_{\theta}(z_t,t,y)$来实现，并为通过输入y控制合成过程铺平道路，如文本[68]、语义图[33, 61]或其他图像到图像的翻译任务[34]。

然而，在图像合成的背景下，将DMs的生成能力与超越类标签[15]或输入图像的模糊变体[72]的其他类型的条件相结合，到目前为止是一个未充分探索的研究领域。

我们通过用交叉注意力机制[97]增强其底层UNet主干，将DMs变成更灵活的条件性图像生成器，该机制对学习各种输入模态的基于注意力的模型很有效[35,36]。为了预处理来自各种模式（如语言提示）的y，我们引入了一个特定领域的编码器$\tau_{\theta}$，将y投射到一个中间表示$\tau_{\theta}(y)$，然后通过交叉注意力层实现映射到UNet的中间层。

{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d}}\right) \cdot V

其中$Q=W_Q^{{(i)}\cdot\varphi_i\left(z_t\right), K=W_K}{(i)}\cdot\tau_\theta(y) , V=W_V^{{(i)}\cdot\tau_\theta(y)$，这里$\varphi_i(z_t)\in \mathbb}{N\times d_{\varepsilon}^{i}$表示UNet实现$\varepsilon_{\theta}$的一个(扁平化的)中间表示，其中$W_V}{(i)}\in\mathbb^{{d\times d_{\mathcal}i}},W_Q^{{(i)} \in \mathbb}{d \times d_\tau} ＆ W_K^{{(i)} \in \mathbb}{d \times d_\tau}.$是可学习的映射矩阵，视觉描述见图3。基于图像-条件对，我们再通过以下方式学习条件LDM

L_{L D M}:=\mathbb{E}_{\mathcal{E}(x), y, \epsilon \sim \mathcal{N}(0,1), t}\left[\left\|\epsilon-\epsilon_\theta\left(z_t, t, \tau_\theta(y)\right)\right\|_2^2\right]

其中，$\tau_{\theta}$和$\epsilon_{\theta}$和都是通过公式3共同优化的。这种调节机制是灵活的，因为它可以用特定领域的专家进行参数化，例如，当y是文本提示时就变成了(unmasked) transformers.

4. 实验

LDMs为各种图像模式的基于扩散的图像合成提供了灵活的、可计算的手段，我们在下文中以经验的方式展示了这一点。然而，首先，我们分析了我们的模型与基于像素的扩散模型相比在训练和推理方面的收益。有趣的是，我们发现在VQregularized潜空间中训练的LDMs有时能获得更好的样本质量，尽管VQregularized第一阶段模型的重建能力略微落后于其连续对应的模型，参见. 表8。8. 第一阶段正则化方案对LDM训练的影响和它们对分辨率>$256^2$的泛化能力的直观比较可以在附录D.1中找到。在E.2中，我们列出了本节中所有结果的结构、实现、训练和评估的细节。

4.1. 关于感知压缩的权衡

本节分析了不同下采样系数$f\in {1,2,4,8,16,32}$（缩写为LDM-f，其中LDM-1对应于基于像素的DMs）的LDMs行为。为了获得一个可比较的测试领域，我们将本节所有实验的计算资源固定在一台NVIDIA A100上，并以相同的步骤和参数数量训练所有模型。表

表8显示了超参数和表现。8显示了本节所比较的LDMs第一阶段模型的超参数和重建性能。图6显示了在ImageNet[12]数据集上2M步的类条件模型的样本质量与训练进度的关系。我们看到，i）LDM-{1,2}的小下采样系数导致训练进度缓慢，而ii）f值过大导致训练步骤相对较少后保真度停滞。重新审视上面的分析（图1和图2），我们将其归结为：i）将大部分感知压缩留给扩散模型；ii）第一阶段压缩太强，导致信息损失，从而限制了可实现的质量。LDM-{4-16}在效率和感知上的忠实结果之间取得了良好的平衡，这表现在基于像素的扩散（LDM-1）和LDM-8在2M训练步骤后的FID[29]差距明显，为38。在图7中，我们比较了在CelebAHQ[39]和ImageNet上用DDIM采样器[84]对不同的去噪步骤进行采样速度训练的模型，并将其与FID-cores[29]进行对比。LDM-{4-8}的表现优于具有不合适的感知和概念压缩比率的模型。特别是与基于像素的LDM-1相比，它们实现了低得多的FID分数，同时大大增加了样本的吞吐量。像ImageNet这样的复杂数据集需要降低压缩率以避免降低质量。总之，LDM-4和-8为实现高质量的合成结果提供了最佳条件。

4.2 使用LDM的图像生成

我们在CelebA-HQ[39]、FFHQ[41]、LSUN-Churches和-Bedrooms[102]上训练$256^2$图像的无条件模型，并使用ii）FID[29]和ii）Precision-and-Recall[50]评估i）样本质量和ii）它们对数据流形的覆盖。表1总结了我们的结果。在CelebA-HQ上，我们报告了一个新的最先进的FID为5.11，超过了以前基于似然的模型以及GANs。我们也优于LSGM[93]，其中潜伏扩散模型是与第一阶段共同训练的。相反地，我们在固定空间训练diffusion models并避免了权衡重建质量和在潜在空间学习先验的困难，见图1-2。

除LSUN-Bedrooms数据集外，我们在其他所有数据集上的表现都优于基于先验扩散的方法，在LSUN-Bedrooms数据集上，我们的得分接近ADM[15]，尽管利用了其一半的参数，并且需要4倍的训练资源（见附录E.3.5）。此外，LDMs在精确度和召回率方面一直比基于GAN的方法有所提高，从而证实了其基于模式覆盖的似然训练目标比对抗性方法的优势。在图4中，我们还展示了每个数据集的定性结果。

4.3. 条件性Latent Diffusion

4.3.1 LDMs作为transformer编码器

通过在LDMs中引入基于交叉注意力的条件，我们为扩散模型以前未曾探索过的各种条件性模式打开了大门。对于文本到图像的图像建模，我们在LAION-400M[78]上训练一个以语言提示为条件的1.45B参数KL-regularized LDM。我们采用BERT-tokenizer[14]，并将其作为转化器[97]来推断潜伏代码，通过（多头）交叉注意力（第3.3节）映射到UNet。这种将特定领域的专家学习语言表征和视觉合成结合起来的结果是一个强大的模型，它可以很好地概括复杂的、用户定义的文本提示，参见图8和图5。图8和5。对于定量分析，我们遵循先前的工作，在MS-COCO [51]验证集上评估文本到图像的生成，我们的模型改进了强大的AR [17, 66]和基于GAN [109]的方法，参看。表2. 2. 我们注意到，应用无分类的扩散指导[32]极大地提高了样本质量，因此，指导下的LDM-KL-8-G与最近最先进的AR[26]和扩散模型[59]在文本到图像的合成方面不相上下，同时大大减少了参数数量。为了进一步分析基于交叉注意力的调节机制的灵活性，我们还训练模型在OpenImages[49]上基于语义布局合成图像，并在COCO[4]上进行微调，见图8。定量评估和实施细节见D.3节。

最后，根据之前的工作[3, 15, 21, 23]，我们对表现最好的类条件ImageNet模型进行了评估，其中$f\in{4,8}$来自4.1节的Tab3. 在这里，我们的表现超过了最先进的扩散模型ADM [15]，同时大大降低了计算要求和参数数量，参见表18.

4.3.2 卷积采样超越$256^2$

通过将空间对齐的调节信息与$\epsilon_{\theta}$的输入相连接，LDMs能作为有效的通用目的的IIT模型。我们用它来训练语义合成、超分辨率（第4.4节）和内绘（第4.5节）的模型。对于语义合成，我们使用与语义图配对的景观图像[23, 61]，并将语义图的下采样版本与f=4模型（VQ-reg.，见表8）的潜在图像表示连接起来。我们在$256^{2$的输入分辨率上进行训练（从$384}2$裁剪），但发现我们的模型可以适用于更大的分辨率，当以卷积方式评估时，可以生成高达兆像素的图像（见图9）。我们利用这一行为，也应用了第4.4节中的超级分辨率模型和第4.5节中的绘画模型来生成5122和10242之间的大图像。对于这种应用，信噪比（由潜伏空间的尺度引起）明显影响到结果。在D.1节中，我们在学习LDM时说明了这一点：(i)由f=4模型（KL-reg.，见Tab.8）提供的潜伏空间，以及(ii)由分量标准差缩放的重新缩放版本。

后者与无分类指导[32]相结合，也能直接合成>$256^2$幅图像的文本条件LDM-KL-8-G，如图13所示。

4.4. Latent Diffuse用于超分辨率

LDMs可以通过直接调节低分辨率图像来有效地训练超级分辨率（参见第3.3节）。在第一个实验中，我们遵循SR3并将图像退化固定为4次下采样的二元插值，按照SR3的数据处理管道在ImageNet上进行训练。我们使用在OpenImages上预训练的f=4自动编码模型（VQ-reg.，参看第2页）Tab. 8），并将低分辨率的条件y和UNet的输入连接起来，$\tau_{\theta}$是判断依据。我们的定性和定量结果（见图10和Tab.5）显示了有竞争力的性能，LDM-SR在FID方面优于SR3，而SR3有更好的IS。一个简单的图像回归模型取得了最高的PSNR和SSIM分数；但是这些指标与人类的感知并不一致[106]，并且有利于模糊度而不是不完全对齐的高频细节[72]。此外，我们进行了一项用户研究，对像素基线和LDM-SR进行了比较。我们按照SR3[72]的方法，在两张高清晰度图像之间显示一张低清晰度图像，并询问受试者的偏好。表4中的结果肯定了LDM-SR的良好性能。表4中的结果证实了LDM-SR的良好性能。PSNR和SSIM可以通过使用事后引导机制来推动[15]，我们通过感知损失来实现这个基于图像的引导器，见D.6节。

由于二次方降解过程不能很好地适用于不遵循这种预处理的图像，我们也通过使用更多样的降解来训练一个通用模型，LDM-BSR。结果显示在D.6.1节。

4.5. Latent Diffuse用于绘画

绘画是用新的内容填充图像的遮蔽区域的任务，这是因为图像的某些部分被破坏了，或者是为了替换图像中现有的但不想要的内容。我们评估了我们用于条件性图像生成的一般方法与该任务的更专业、更先进的方法相比的情况。我们的评估遵循LaMa[88]的协议，这是一个最新的绘画模型，引入了一个依赖于快速傅里叶卷积的专门架构[8]。关于Places[108]的确切训练和评估协议在E.2.2节中描述。

我们首先分析了第一阶段不同设计选择的效果。特别是，我们比较了LDM-1（即基于像素的条件DM）和LDM-4的绘画效率，对于KL和VQ正则化，以及VQLDM4在第一阶段没有任何关注（见表8），后者在高分辨率下减少了解码的GPU内存。为了便于比较，我们固定所有模型的参数数量。表6 6报告了在分辨率为2562和5122时的训练和采样吞吐量，每个历时的总训练时间（小时）和六个历时后的验证分割的FID得分。总的来说，我们观察到基于像素和基于潜伏的扩散模型的速度至少提高了2.7，而FID得分至少提高了1.6。

与其他绘画方法的比较见表7。我们的注意力模型比[88]的模型提高了以FID衡量的整体图像质量。unmask的图像和我们的样本之间的LPIPS比[88]的略高。我们将此归因于[88]只产生了一个单一的结果，与我们的LDM cf产生的不同结果相比，它更倾向于恢复一个平均的图像。图21。此外，在一项用户研究中（表4），人类受试者比[88]更喜欢我们的结果。

基于这些初步结果，我们还在没有注意力的VQregularized第一阶段的潜空间中训练了一个更大的扩散模型（表7中的大）。按照[15]，这个扩散模型的UNet在其特征层次的三个层面上使用了注意层，BigGAN[3]的残差块用于上采样和下采样，有387M个参数而不是215M。训练结束后，我们注意到在分辨率$256^2$和$5122$下产生的样本质量有差异，我们假设这是由额外的注意力模块造成的。然而，在分辨率为5122的情况下对模型进行半次元微调，使模型能够适应新的特征统计，并在图像绘制上设置了一个新的最先进的FID（大，w/o attn，w/ft，见表7，图11）。

5. 局限性和社会影响

局限性 虽然与基于像素的方法相比，LDMs大大降低了计算要求，但其顺序采样过程仍然比GANs慢。此外，当需要高精度时，LDMs的使用可能会受到质疑：尽管在我们的f=4自动编码模型中，图像质量的损失非常小（见图1），但对于需要在像素空间中的细粒度精度的任务来说，它们的重建能力可能成为一个瓶颈。我们假设我们的超分辨率模型（第4.4节）在这方面已经有一定的限制。

社会影响 图像等媒体的生成模型是一把双刃剑。一方面，他们使得各种创造性的应用成为可能，特别是像我们这样降低训练和推理成本的方法，有可能促进对这一技术的获取并使其探索民主化。另一方面，这也意味着创造和传播被操纵的数据或传播错误信息和垃圾邮件变得更加容易。
特别是，在这种情况下，故意操纵图像（"深度造假"）是一个常见的问题，尤其是妇女受到的影响更大[13, 24]。

生成模型也会暴露他们的训练数据[5, 90]，当数据包含敏感或个人信息，并且是在没有明确同意的情况下收集的，这就很令人担忧。然而，这在多大程度上也适用于图像的DMs，目前还不完全了解。

最后，深度学习模块往往会重现或加剧数据中已经存在的偏见[22, 38, 91]。虽然扩散模型比基于GAN的方法能更好地覆盖数据分布，但我们的两阶段方法结合了对抗性训练和基于可能性的目标，在多大程度上误导了数据，仍然是一个重要的研究问题。

关于深度生成模型的伦理考虑的更普遍、更详细的讨论，见例如[13]。

6. 结论

我们提出了潜伏扩散模型，这是一种简单有效的方法，可以显著提高去噪扩散模型的训练和采样效率而不降低其质量。基于这一点和我们的交叉注意力调节机制，我们的实验与最先进的方法相比，可以在广泛的条件性图像合成任务中表现出有利的结果，而没有特定的任务架构