Unpaired Image-to-Image Translation

using Cycle-Consistent Adversarial Networks

Abstract

图像到图像转换是一类视觉和图形问题，其目标是使用一组对齐的图像对来学习输入图像和输出图像之间的映射。但是，对于许多任务，配对训练数据将不可用。我们提出了一种在没有配对示例的情况下学习将图像从源域 X 转换到目标域 Y 的方法。我们的目标是学习一个映射 $G: X \rightarrow Y$使得来自 G(X) 的图像分布与使用对抗性损失的分布 Y 无法区分。因为这个映射是高度欠约束的，所以我们将它与一个逆映射 $F: Y \rightarrow X$结合起来！并引入循环一致性损失来强制执行 $F(G(X))\approx X$（反之亦然）。在不存在配对训练数据的几个任务上给出了定性结果，包括集合风格迁移、对象变形、季节迁移、照片增强等。与几种先前方法的定量比较证明了我们方法的优越性。

1. Introduction

1873 年一个可爱的春日，克劳德·莫奈将画架放在阿让特伊附近的塞纳河畔时看到了什么（图 1，左上角）？如果一张彩色照片被发明出来，它可能会记录下清澈的蓝天和反射它的玻璃河。莫奈通过纤细的笔触和明亮的调色板传达了他对同一场景的印象。

如果莫奈在一个凉爽的夏日傍晚发生在卡西斯的小港口会怎样（图 1，左下角）？在莫奈画作画廊中短暂漫步，可以想象他会如何渲染场景：也许是柔和的色调，突然的油漆，以及有点扁平的动态范围。

尽管从未在莫奈画的场景照片旁边看到莫奈画作的并排示例，但我们可以想象这一切。取而代之的是，我们对莫奈的那组画作和风景照片的那组有所了解。我们可以质疑两个数据集风格上的区别，从而想象如果我们将一个场景从一个场景“翻译”到另一个场景会是什么样子。

在本文中，我们提出了一种可以学习做同样事情的方法：在没有任何配对训练示例的情况下，捕获一个图像集合的特殊特征并弄清楚这些特征如何转化为另一个图像集合。

这个问题可以更广泛地描述为图像到图像的转换[22]，将图像从给定场景的一种表示 x 转换为另一种表示 y，例如，灰度到颜色，图像到语义标签，边缘图到照片。在计算机视觉、图像处理、计算摄影和图形方面的多年研究已经在监督环境中产生了强大的翻译系统，其中示例图像对