文献阅读-Masked Autoencoders Are Scalable Vision Learners

Scroll Down

摘要

本文表明,掩码自编码器 (MAE) 是用于计算机视觉的可扩展自监督学习器。 我们的 MAE 方法很简单:我们屏蔽输入图像的随机补丁并重建丢失的像素。 它基于两个核心设计。 首先,我们开发了一个非对称的编码器-解码器架构,其中一个编码器只对可见的补丁子集(没有掩码令牌)进行操作,以及一个轻量级解码器,它从潜在表示和掩码令牌重建原始图像。 其次,我们发现屏蔽输入图像的高比例,例如 75%,会产生一个重要且有意义的自我监督任务。 将这两种设计结合起来使我们能够高效地训练大型模型:我们加快训练速度(提高 3 倍或更多)并提高准确性。 我们的可扩展方法允许学习泛化良好的大容量模型:例如,在仅使用 ImageNet-1K 数据的方法中,vanilla ViT-Huge 模型实现了最佳精度 (87.8%)。 下游任务中的迁移性能优于有监督的预训练并显示出有希望的扩展行为。

1. 介绍

深度学习见证了能力和容量不断增长的架构的爆炸式增长[33,25,57]。 借助硬件的快速增长,今天的模型可以轻松地过拟合一百万张图像 [13] 并开始需要数亿张(通常是公众无法访问的)标记图像 [16]。通过自我监督的预训练,自然语言处理 (NLP) 已成功解决了这种对数据的需求。

基于 GPT [47, 48, 4] 中的自回归语言建模和 BERT [14] 中的掩码自动编码的解决方案在概念上很简单:它们删除一部分数据并学习预测删除的内容。 这些方法现在可以训练包含超过一千亿个参数的可泛化 NLP 模型 [4]。掩蔽自动编码器的想法,一种更通用的去噪自动编码器 [58] 的形式,在计算机视觉中也很自然且适用。因此,最近在视觉方面的相关研究推动了BERT,然而,尽管随着 BERT 的成功对这一想法产生了浓厚的兴趣,但视觉自动编码方法的进展仍落后于 NLP。 我们问:是什么让Masked AutoEncoder在视觉和语言之间有所不同? 我们试图从以下角度回答这个问题:

(i)直到最近,架构还是不同的。 在视觉方面,卷积网络 [34] 在过去十年中占据主导地位 [33]。 卷积通常在规则网格上运行,将诸如掩码标记 [14] 或位置嵌入 [57] 之类的“指标”集成到卷积网络中并不简单。 然而,这一架构差距已通过引入视觉转换器 (ViT) [16] 得到解决,不应再成为障碍。

(ii) 语言和视觉的信息密度不同。 语言是高度语义和信息密集的人类生成的信号。 当训练一个模型来预测每个句子中只有几个缺失的单词时,这个任务似乎会引发复杂的语言理解。相反,图像是具有大量空间冗余的自然信号——例如,一个丢失的小块可以从相邻的小块用对这些部分、对象和场景很少的高水平理解来恢复。为了克服这种差异并鼓励学习有用的特征,我们证明了一种简单的策略在计算机视觉中效果很好:掩盖很大一部分随机补丁。 这种策略在很大程度上减少了冗余并创建了一项具有挑战性的自我监督任务,需要超越低级图像统计的整体理解。 要对我们的重建任务有一个定性的认识,请参见图 2-4。

(iii) 自编码器的解码器将潜在表示映射回输入,在重建文本和图像之间扮演不同的角色。 在视觉中,解码器重建像素,因此其输出的语义级别低于常见的识别任务。 这与语言形成对比,在语言中,解码器预测包含丰富语义信息的缺失词。 虽然在 BERT 中,解码器可能很简单(一个 MLP)[14],但我们发现对于图像,解码器设计在确定学习的潜在表示的语义级别方面起着关键作用。

在此分析的推动下,我们提出了一种简单、有效且可扩展的Marked AutoEncoder (MAE) 形式,用于视觉表示学习。 我们的 MAE 从输入图像中屏蔽随机补丁,并在像素空间中重建缺失的补丁。 它具有不对称的编码器解码器设计。 我们的编码器只对可见的补丁子集(没有掩码标记)进行操作,我们的解码器是轻量级的,可以从潜在表示中重构输入以及掩码标记(图 1)。 在我们的非对称编码器-解码器中将掩码令牌转移到小型解码器会导致计算量大大减少。在这种设计下,非常高的掩蔽率(例如,75%)可以实现双赢:它优化了准确性,同时允许编码器只处理一小部分(例如,25%)的补丁。 这可以将整体预训练时间减少 3 或更多,同时减少内存消耗,使我们能够轻松地将 MAE 扩展到大型模型。

我们的 MAE 学习了泛化能力非常高的模型。 通过 MAE 预训练,我们可以在 ImageNet-1K 上训练数据密集型模型,如 ViT-Large/-Huge [16],并提高泛化性能。 使用 vanilla ViT-Huge 模型,我们在 ImageNet-1K 上微调时达到 87.8% 的准确率。 这优于之前仅使用 ImageNet-1K 数据的所有结果。 我们还评估了对象检测、实例分割和语义分割的迁移学习。 在这些任务中,我们的预训练比有监督的预训练取得了更好的结果,更重要的是,我们通过扩大模型观察到了显着的收益。 这些观察结果与 NLP 自我监督预训练中的观察结果一致 [14、47、48、4],我们希望它们能让我们的领域探索类似的轨迹。

2. 相关工作

Masked language modeling 及其自回归模型,例如 BERT [14] 和 GPT [47, 48, 4],是 NLP 预训练非常成功的方法。 这些方法保留了输入序列的一部分并训练模型来预测丢失的内容。 这些方法已被证明可以很好地扩展[4],并且大量证据表明这些预训练的表示可以很好地推广到各种下游任务。

Autoencoding 是学习表示的经典方法。它有一个将输入映射到潜在表示的编码器和一个重构输入的解码器。 例如,PCA 和 k-means 是自动编码器 [29]。 去噪自动编码器 (DAE) [58] 是一类自动编码器,它破坏输入信号并学习重建原始的、未破坏的信号。 一系列方法可以被认为是不同损坏下的广义 DAE,例如,屏蔽像素 [59、46、6] 或移除颜色通道 [70]。我们的 MAE 是一种去噪自动编码的形式,但在许多方面与经典 DAE 不同。

Masked image encoding 方法从被掩蔽破坏的图像中学习表示。 [59] 的开创性工作将掩蔽作为 DAE 中的一种噪声类型。 上下文编码器 [46] 使用卷积网络修复大的缺失区域。 受 NLP 成功的推动,最近的相关方法 [6, 16, 2] 基于 Transformers [57]。iGPT [6] 对像素序列进行操作并预测未知像素。 ViT 论文 [16] 研究了用于自我监督学习的掩蔽补丁预测。 最近,BEiT [2] 提出预测离散令牌 [44, 50]。

自监督学习方法对计算机视觉产生了极大的兴趣,通常专注于预训练的不同借口任务[15、61、42、70、45、17]。 最近,对比学习 [3, 22] 很流行,例如 [62, 43, 23, 7],它模拟两个或多个视图之间的图像相似性和不相似性(或仅相似性 [21, 8])。 对比和相关方法强烈依赖于数据增强 [7, 21, 8]。 自动编码追求一个概念上不同的方向,它表现出我们将要呈现的不同行为。

3. 方法

我们的掩码自动编码器 (MAE) 是一种简单的自动编码方法,它根据部分观察重建原始信号。 像所有自动编码器一样,我们的方法有一个将观察到的信号映射到潜在表示的编码器,以及一个从潜在表示重建原始信号的解码器。 与经典的自动编码器不同,我们采用非对称设计,允许编码器仅对部分观察到的信号(没有掩码令牌)进行操作,并采用轻量级解码器从潜在表示和掩码令牌重建完整信号。 图 1 说明了这个想法,接下来介绍。

Masking 在 ViT [16] 之后,我们将图像划分为规则的非重叠块。 然后我们对一个补丁子集进行采样并屏蔽(即删除)剩余的补丁。 我们的抽样策略很简单:我们按照均匀分布对随机补丁进行抽样而不进行替换。我们简单地将其称为“随机抽样”。具有高掩蔽率(即,已删除补丁的比率)的随机采样在很大程度上消除了冗余,从而创建了一项无法通过从可见的相邻补丁外推来轻松解决的任务(参见图 2-4)。 均匀分布可防止潜在的中心偏差(即图像中心附近有更多的蒙版补丁)。最后,高度稀疏的输入为设计高效编码器创造了机会,接下来介绍。

MAE encoder 我们的编码器是 ViT [16],但仅应用于可见的、未屏蔽的补丁。 就像在标准 ViT 中一样,我们的编码器通过线性投影嵌入补丁并添加位置嵌入,然后通过一系列 Transformer 块处理结果集。 然而,我们的编码器只对整个集合的一小部分(例如 25%)进行操作。被屏蔽的补丁被移除; 不使用掩码标记。这使我们能够只用一小部分计算和内存来训练非常大的编码器。 全套由轻量级解码器处理,如下所述。

MAE decoder MAE 解码器的输入是由 (i) 编码可见补丁和 (ii) 掩码令牌组成的完整令牌集。 参见图 1。每个掩码标记 [14] 是一个共享的学习向量,表示存在要预测的缺失补丁。 我们将位置嵌入添加到这个完整集合中的所有标记; 没有这个,掩码标记将没有关于它们在图像中的位置的信息。 解码器有另一个系列的 Transformer 块。

MAE 解码器仅在预训练期间用于执行图像重建任务(仅编码器用于生成用于识别的图像表示)。因此,解码器架构可以以独立于编码器设计的方式灵活设计。 我们尝试了非常小的解码器,比编码器更窄更浅。 例如,我们的默认解码器与编码器相比,每个令牌的计算量 <10%。 采用这种非对称设计,全套令牌仅由轻量级解码器处理,大大减少了预训练时间。

Reconstruction target。 我们的 MAE 通过预测每个蒙面补丁的像素值来重建输入。 解码器输出中的每个元素都是代表补丁的像素值向量。 解码器的最后一层是线性投影,其输出通道数等于补丁中像素值的数量。 解码器的输出被重新整形以形成重建图像。 我们的损失函数计算像素空间中重建图像和原始图像之间的均方误差 (MSE)。 我们只计算蒙版块的损失,类似于 BERT [14]。1 我们还研究了一种变体,其重建目标是每个蒙版块的归一化像素值。 具体来说,我们计算一个补丁中所有像素的平均值和标准偏差,并使用它们来规范化这个补丁。 在我们的实验中,使用归一化像素作为重建目标可以提高表示质量。

Simple implementation 我们的 MAE 预训练可以有效地实施,重要的是,不需要任何专门的稀疏操作。 首先,我们为每个输入补丁生成一个标记(通过添加位置嵌入的线性投影)。 接下来,我们根据掩码率随机打乱令牌列表并删除列表的最后一部分。 此过程为编码器生成一小部分令牌,相当于在不替换的情况下对补丁进行采样。 编码后,我们将一个掩码标记列表附加到编码补丁列表中,并取消打乱这个完整列表(反转随机打乱操作)以将所有标记与其目标对齐。 解码器应用于这个完整列表(添加了位置嵌入)。 如前所述,不需要稀疏操作。 这个简单的实现引入了可忽略的开销,因为混洗和非混洗操作很快。

4. ImageNet 实验

我们在 ImageNet-1K (IN1K) [13] 训练集上进行自我监督的预训练。 然后我们进行监督训练,通过 (i) 端到端微调或 (ii) 线性探测来评估表示。 我们报告了单个 224 224 作物的 top-1 验证准确度。 详细信息在附录 A.1 中。

Baseline:ViT-large。 我们使用 ViT-Large (ViT-L/16) [16] 作为我们消融研究的主干。 ViT-L 非常大(比 ResNet-50 [25] 大一个数量级)并且容易过拟合。 以下是从头开始训练的 ViT-L 与从我们的基线 MAE 微调的对比:

image.png

我们注意到,从头开始训练有监督的 ViT-L 并非易事,并且需要具有强正则化的良好配方(82.5%,参见附录 A.2)。 尽管如此,我们的 MAE 预训练还是做出了很大的改进。 这里微调仅针对 50 个 epoch(而从头开始为 200 个),这意味着微调的准确性在很大程度上取决于预训练。

4.1 主要属性

我们使用表 1 中的默认设置消融我们的 MAE(见标题)。 观察到几个有趣的特性。

Masking ratio。 图 5 显示了掩蔽率的影响。 最佳比率惊人地高。 75% 的比率对线性探测和微调都有好处。这种行为与 BERT [14] 形成对比,后者的典型掩蔽率为 15%。 我们的掩蔽率也远高于计算机视觉中的相关工作 [6, 16, 2](20% 到 50%)。该模型推断缺失的补丁以产生不同但合理的输出(图 4)。 它使物体和场景的格式塔变得有意义,这是不能简单地通过延伸线条或纹理完成的。 我们假设这种类似推理的行为与学习有用的表示有关。图 5 还显示线性探测和微调结果遵循不同的趋势。 用于线性探测,随着masking ratio不断提升,准确率也不断提升,直到达到最优点,准确率差距高达 20%(54.6% vs.73.5%)。 对于微调,结果对比率不太敏感,并且大范围的掩蔽比率(40-80%)效果很好。 图 5 中的所有微调结果都优于从头开始训练 (82.5%)。

Decoder design。 我们的 MAE 解码器可以灵活设计,如表 1a 和 1b 所示。表 1a 改变了解码器深度(Transformer 块的数量)。 足够深的解码器对于线性探测很重要。 这可以通过像素重建任务和识别任务之间的差距来解释:自动编码器中的最后几层更专门用于重建,但与识别的相关性较低。 一个相当深的解码器可以解释重建专业化,将潜在表示留在更抽象的级别。 这种设计可以在线性探测方面产生高达 8% 的改进(表 1a,“lin”)。 但是,如果使用微调,则可以调整编码器的最后几层以适应识别任务。 解码器深度对改进微调的影响较小(表 1a,“ft”)。有趣的是,我们的带有单块解码器的 MAE 可以通过微调 (84.8%) 表现出色。 请注意,单个 Transformer 块是将信息从可见令牌传播到掩码令牌的最低要求。 这么小的解码器可以进一步加快训练速度。

在表 1b 中,我们研究了解码器宽度(通道数)。我们默认使用 512-d,它在微调和线性探测下表现良好。 较窄的解码器也适用于微调。总的来说,我们默认的 MAE 解码器是轻量级的。 它有 8 个块,宽度为 512-d(表 1 中的灰色)。 与 ViT-L(24 个区块,1024-d)相比,每个代币只有 9% 的 FLOP。因此,虽然解码器处理所有令牌,但它仍然只是整体计算的一小部分。

Mask token。 我们的 MAE 的一个重要设计是跳过编码器中的掩码标记 [M],然后在轻量级解码器中应用它。 表 1c 研究了这种设计。如果编码器使用掩码标记,它的表现会更差:在线性探测中其准确度下降 14%。 在这种情况下,预训练和部署之间存在差距:该编码器在预训练中的输入中有很大一部分掩码标记,这在未损坏的图像中不存在。 这种差距可能会降低部署的准确性。 通过从编码器中移除掩码标记,我们约束编码器始终看到真实的补丁,从而提高准确性。

此外,通过跳过编码器中的掩码标记,我们大大减少了训练计算。 在表 1c 中,我们将整体训练 FLOPs 减少了 3.3 。 在我们的实现中,这导致了 2.8 个挂钟加速(参见表 2)。 对于较小的解码器(1-block)、较大的编码器(ViT-H)或两者兼而有之,挂钟加速甚至更大(3.5–4.1)。 请注意,对于 75% 的掩蔽率,加速可以大于 4,部分原因是自注意复杂度是二次的。 此外,内存大大减少,可以训练更大的模型或通过大批量训练加快速度。 时间和内存效率使我们的 MAE 有利于训练非常大的模型。

Reconstruction target。 我们在表 1d 中比较了不同的重建目标。 到目前为止,我们的结果是基于没有(每个补丁)归一化的像素。 使用归一化的像素可以提高准确性。 这种逐块归一化在局部增强了对比度。 在另一个变体中,我们在补丁空间中执行 PCA,并使用最大的 PCA 系数(此处为 96)作为目标。 这样做会降低准确性。两个实验都表明高频分量在我们的方法中很有用。

我们还比较了一个预测标记的 MAE 变体,这是 BEiT [2] 中使用的目标。 特别是对于这个变体,我们使用 DALLE 预训练的 dVAE [50] 作为标记器,遵循 [2]。 这里 MAE 解码器使用交叉熵损失来预测令牌索引。 与非归一化像素相比,这种标记化将微调精度提高了 0.4%,但与归一化像素相比没有优势。 它还降低了线性探测精度。 在第 5 节中,我们进一步表明在迁移学习中不需要标记化。

我们基于像素的 MAE 比标记化简单得多。dVAE 标记器需要一个额外的预训练阶段,这可能取决于额外的数据(250M 图像 [50])。
dVAE 编码器是一个大型卷积网络(ViT-L 的 40% FLOPs)并增加了非平凡的开销。 使用像素不会遇到这些问题。数据增强。 表 1e 研究了数据增强对我们的 MAE 预训练的影响。

Data augmnetation。 表 1e 研究了数据增强对我们的 MAE 预训练的影响。我们的 MAE 使用仅裁剪增强效果很好,无论是固定大小还是随机大小(都具有随机水平翻转)。 添加颜色抖动会降低结果,因此我们不会在其他实验中使用它。令人惊讶的是,即使不使用数据增强(仅中心裁剪,没有翻转),我们的 MAE 也表现得很好。 此属性与严重依赖数据增强的对比学习和相关方法 [62、23、7、21] 截然不同。只使用裁剪增强会降低13%的准确率,BYOL [21] 和 SimCLR [7] 分别为 28%。 此外,没有证据表明对比学习可以在没有增强的情况下工作:图像的两个视图是相同的,并且可以很容易地满足一个简单的解决方案。

在 MAE 中,数据增强的作用主要是通过随机掩码(ablated next)来完成的。 每次迭代的掩码都是不同的,因此无论数据增强如何,它们都会生成新的训练样本。 掩蔽使借口任务变得困难,并且需要较少的增强来规范训练。

Mask sampling strategy。 在表 1f 中,我们比较了不同的掩码采样策略,如图 6 所示。

[2] 中提出的逐块屏蔽策略倾向于删除大块(图 6 中)。 我们的 MAE 具有分块遮罩的效果相当好,比例为 50%,但下降的比例为 75%。 这个任务比随机抽样更难,因为观察到更高的训练损失。 重建也更加模糊。

我们还研究了网格抽样,它定期保留每四个补丁中的一个(图 6 右)。 这是一项更容易的任务,并且训练损失更低。 重构更加清晰。 但是,表示质量较低。

简单随机抽样最适合我们的 MAE。 它允许更高的掩蔽率,从而提供更大的加速优势,同时还具有良好的准确性。

训练安排。 到目前为止,我们的消融是基于 800 epoch 的预训练。 图 7 显示了训练计划长度的影响。 随着训练时间的延长,准确率稳步提高。 事实上,即使在 1600 个 epoch 时,我们也没有观察到线性探测精度的饱和。这种行为与对比学习方法不同,例如,MoCo v3 [9] 在 ViT-L 的 300 个 epoch 处饱和。 请注意,MAE 编码器每个 epoch 只能看到 25% 的补丁,而在对比学习中,编码器每个 epoch 看到 200%(twocrop)甚至更多(multi-crop)的补丁。

4.2. 与先前结果的比较与自我监督方法的比较。

在表 3 中,我们比较了自监督 ViT 模型的微调结果。 对于 ViT-B,所有方法的性能都非常接近。 对于 ViT-L,方法之间的差距更大,这表明更大模型的挑战是减少过度拟合。

我们的 MAE 可以轻松扩展,并且从更大的模型中显示出稳定的改进。 我们使用 ViT-H(224 大小)获得了 86.9% 的准确率。 通过使用 448 大小进行微调,我们仅使用 IN1K 数据即可达到 87.8% 的准确率。 基于高级网络,在所有仅使用 IN1K 数据的方法中,之前的最佳准确率为 87.1%(512 大小)[67]。在极具竞争力的 IN1K 基准测试(无外部数据)中,我们以不平凡的幅度改进了最先进的技术。 我们的结果基于 vanilla ViT,我们预计高级网络将表现更好。

与 BEiT [2] 相比,我们的 MAE 更准确,同时更简单、更快。 与预测标记的 BEiT 相比,我们的方法重建像素:BEiT 在使用 ViT-B.2 重建像素时报告了 1.8% 的退化 [2] 我们不需要 dVAE 预训练。 此外,我们的 MAE 比 BEiT 快得多(每个 epoch 3.5),原因如表 1c 所示。

表 3 中的 MAE 模型经过 1600 个 epoch 的预训练以获得更好的准确性(图 7)。 即便如此,在相同硬件上进行训练时,我们的总预训练时间仍少于其他方法。 例如,在 128 个 TPU-v3 核心上训练 ViT-L,我们的 MAE 的训练时间是 31 小时,1600 个 epoch,而 MoCo v3 的训练时间是 36 小时,300 个 epoch [9]。

Comparisons with supervised pre-training。 在最初的 ViT 论文 [16] 中,ViT-L 在 IN1K 中训练时会降级。我们实施的监督训练(见 A.2)效果更好,但准确性饱和。 请参见图 8。我们的 MAE 预训练,仅使用 IN1K,可以更好地泛化:对于更高容量的模型,从头开始训练的收益更大。 它遵循类似于 [16] 中的 JFT-300M 监督预训练的趋势。 这种比较表明,我们的 MAE 可以帮助扩大模型大小。

4.3. 部分微调

表 1 显示线性探测和微调结果在很大程度上是不相关的。 线性探测在过去几年中一直是一种流行的协议。 然而,它错过了追求强大但非线性特征的机会——这确实是深度学习的一个优势。 作为中间立场,我们研究了一种部分微调协议:微调最后几层,同时冻结其他层。 该协议也用于早期工作,例如 [65, 70, 42]。

图 9 显示了结果。 值得注意的是,仅微调一个 Transformer 块即可将准确度从 73.5% 显着提高到 81.0%。 此外,如果我们只微调最后一个块的“一半”(即它的 MLP 子块),我们可以获得 79.1%,比线性探测要好得多。 这个变体本质上是微调 MLP 头。 微调几个块(例如,4 或 6 个)可以达到接近完全微调的精度。

在图 9 中,我们还与 MoCo v3 [9] 进行了比较,这是一种具有 ViT-L 结果的对比方法。 MoCo v3具有更高的线性探测精度; 但是,它的所有部分微调结果都比 MAE 差。 调整 4 个块时,差距为 2.6%。 虽然 MAE 表示的线性可分性较差,但它们是更强的非线性特征,并且在调整非线性磁头时表现良好。

这些观察表明,线性可分性并不是评估表示质量的唯一指标。 还观察到(例如,[8])线性探测与迁移学习性能的相关性不是很好,例如,对于对象检测。 据我们所知,线性评估在 NLP 中并不经常用于对预训练进行基准测试。

5. 迁移学习实验

我们使用表 3 中的预训练模型评估下游任务中的迁移学习。

对象检测和分割。 我们在 COCO [37] 上端到端微调 Mask R-CNN [24]。 ViT 主干适用于 FPN [36](见 A.3)。 我们将这种方法应用于表 4 中的所有条目。我们报告用于对象检测的框 AP 和用于实例分割的掩码 AP。

与有监督的预训练相比,我们的 MAE 在所有配置下都表现得更好(表 4)。 使用较小的 ViT-B,我们的 MAE 比监督预训练高 2.4 点(50.3 对 47.9,APbox)。 更重要的是,使用更大的 ViT-L,我们的 MAE 预训练比监督预训练高 4.0 分(53.3 对 49.3)。

基于像素的 MAE 优于或与基于令牌的 BEiT 相当,而 MAE 更简单、更快。MAE 和 BEiT 都优于 MoCo v3,而 MoCo v3 与有监督的预训练相当。

语义分割。 我们使用 UperNet [63](见 A.4)在 ADE20K [72] 上进行实验。 表 5 显示,我们的预训练显着提高了监督预训练的结果,例如,ViT-L 提高了 3.7 分。 我们基于像素的 MAE 也优于基于令牌的 BEiT。 这些观察结果与 COCO 中的观察结果一致。

分类任务。 表 6 研究了 iNaturalists [56] 和 Places [71] 任务的迁移学习(见 A.5)。 在 iNat 上,我们的方法显示出强大的缩放行为:使用更大的模型可以显着提高准确性。 我们的结果大大超过了以前的最佳结果。 在 Places 上,我们的 MAE 优于之前通过对数十亿张图像进行预训练获得的最佳结果 [19, 40]。

像素与令牌。 表 7 比较了像素与标记作为 MAE 重建目标。 虽然使用 dVAE 令牌比使用非归一化像素更好,但它在统计上类似于在我们测试的所有情况下使用归一化像素。 它再次表明我们的 MAE 不需要标记化

6. 讨论和结论

可扩展性良好的简单算法是深度学习的核心。 在 NLP 中,简单的自我监督学习方法(例如,[47,14,48,4])可以从指数缩放模型中受益。 在计算机视觉中,尽管自监督学习取得了进展,但实际的预训练范式主要受到监督(例如 [33、51、25、16])。 在这项研究中,我们在 ImageNet 和迁移学习中观察到自动编码器(一种类似于 NLP 技术的简单自我监督方法)提供了可扩展的优势。 视觉中的自我监督学习现在可能走上了与 NLP 类似的轨迹。

另一方面,我们注意到图像和语言是不同性质的信号,必须仔细处理这种差异。 图像只是记录下来的光,没有将语义分解为单词的视觉类似物。 我们没有尝试删除对象,而是删除了最有可能不形成语义段的随机补丁。 同样,我们的 MAE 重建不是语义实体的像素。 尽管如此,我们观察到(例如,图 4)我们的 MAE 推断出复杂的整体重建,这表明它已经学习了许多视觉概念,即语义。 我们假设这种行为是通过 MAE 内部丰富的隐藏表示发生的。 我们希望这种观点能够激发未来的工作。

更广泛的影响。 所提出的方法基于训练数据集的学习统计数据来预测内容,因此将反映这些数据中的偏差,包括具有负面社会影响的偏差。 该模型可能会生成不存在的内容。 在此工作的基础上生成图像时,这些问题值得进一步研究和考虑