Pix2Pix——基于GAN的图像风格迁移模型wzduang的博客-

17 八月

星期一, 17 八月 2020 17:20 Last Updated on 星期一, 17 八月 2020 17:20 0 Comments

Pix2Pix——基于GAN的图像风格迁移模型

写在前面

本文是文献Image-to-image translation with conditional adversarial networks的笔记。Pix2Pix 基于 GAN 架构，利用成对的图片进行图像翻译，即输入为同一张图片的两种不同风格，可用于进行风格迁移。

本文目录

Pix2Pix——基于GAN的图像风格迁移模型

引言部分

计算机视觉方面有许多问题涉及到了将输入图像转换成相应的输出图像。即使为解决某种特定问题有针对性的设计的算法，归根结底都是像素到像素的映射（Pixel to Pixel）。
由此，文章认为条件对抗网络（GAN, Generative Adversarial Networks ）是对该类问题的一种通用解决方案。

为什么要基于GAN

Pix2Pix——基于GAN的图像风格迁移模型wzduang的博客-

如今，卷积神经网络（CNN）成为了各种图像预测问题背后的常用方法。但是要使得一个 CNN 学会最小化损失函数，仍然需要大量的人工甚至专家知识进行损失函数的设计。如果只是随意地采取一个简单的损失函数，例如欧氏距离。仅仅最小化预测像素与地面真实像素之间的欧氏距离，而欧式距离平均了所有可能输出，所得到的结果将会是模糊的。

因此，如果我们可以只指定一个高级目标，例如“无法区分输出与现实（make the output indistinguishable from reality）”，然后自动学习适合于实现该目标的损失函数，就可以得到一个解决该类问题的通用框架，而GAN正好可以做到。

对于为何选择 GAN ，文章的原话是这样的：
GANs learn a loss that tries to classify if the output image is real or fake, while simultaneously training a generative model to minimize this loss. Blurry images will not be tolerated since they look obviously fake. Because GANs learn a loss that adapts to the data, they can be applied to a multitude of tasks that traditionally would require very different kinds of loss functions.

Pix2Pix 的结构

一个 GAN 结构的网络至少由两部分构成：生成器模型（Generative Model）与判别器模型（Discriminative Model）。GAN 通过两个模块的互相博弈学习产生相当好的输出。一个优秀的 GAN 需要有良好的训练方法，否则可能由于神经网络模型的自由性而导致输出不理想。

Pix2Pix 的生成器模型

Pix2Pix 的生成器模型基于 U-Net 结构。U-Net 的结构示意图如下：
Pix2Pix——基于GAN的图像风格迁移模型wzduang的博客-
U-Net 是一个全卷积网络，在计算机视觉的语义分割领域同样有着广泛的应用。位于最底层的特征图（feature map）通过逆卷积的形式生成图像。

Pix2Pix——基于GAN的图像风格迁移模型wzduang的博客-
上图解释了 U-Net 结构如何通过逆卷积生成与输入相同维度的图像。有许多人将 U-Net 的这个架构称为反卷积，但卷积与反卷积是相对于一个卷积核在前向传播与反向传播的两种操作，这两种操作是互相对应的。所以本人认为将其称为逆卷积更为合理。同时，U-Net 除了编码-解码（Encoder-decoder）结构外，还具有跳过连接（skip connections）的结构。

Pix2Pix——基于GAN的图像风格迁移模型wzduang的博客-

Pix2Pix 的判别器模型

GAN 的判别器采用了 PatchGAN 的判别器结构。PactchGAN 与一般的 GAN 有什么不同之处呢？

一般 GAN 的判别器只需要输出一个 true or fasle 的矢量，代表对整张图像的评价。但是 PatchGAN 输出的是一个 N x N 的矩阵，这个 N x N 的矩阵里的每一个元素，比如 a(i,j) 只有 True or False 这两个选择即判别器输出的 label 是 N x N 的矩阵，矩阵中的每一个元素是 True 或者 False。

这样的结果往往是通过卷积层来达到的，因为逐次叠加的卷积层最终输出的这个N x N 的矩阵，其中的每一个元素，实际上代表着原图中的一个比较大的感受野，即对应原图的一个 Patch ，因此具有这样结构以及这样输出的 GAN 被称之为 PatchGAN。下面是 Pix2Pix 论文原作者对该问题的回答：

Pix2Pix——基于GAN的图像风格迁移模型wzduang的博客-
问题链接：https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix/issues/39

Pix2Pix 目的函数设计

Pix2Pix 的目的可以表示为

$mathcal{L}_{cGAN}(G,D ) = mathbb{E}_{x,y} [log D(x,y)]+ \mathbb{E}_{x,z}[log(1-D(x,G(x,z)))]$

其中 G 会尝试将目的最大化，而 D 会尝试将目的最小化。可以用下面的公式表示

$G^{*} =arg min_{G} max_{D} L_{cGAN}(G, D)$

为了探索目的函数中各参数的重要性，作者还对这个函数进行了一些探索。例如团队还提出了去掉原图像 x 的函数：

$mathcal{L}_{cGAN}(G,D ) = mathbb{E}_{y} [log D(y)]+ \mathbb{E}_{x,z}[log(1-D(G(x,z)))]$

通过比较该函数与原函数的区别，发现将生成图像与原图像融合是有益的。同时为了更好地使得输出图像接近真实图像，作者使用了 L1 距离而不是 L2 距离，因为 L1 距离鼓励减少模糊。修正后公式如下

$mathcal{L}_{L1}(G ) = mathbb{E}_{x,y,z} [||y-G(x,z)||_{1}]$

最终得到的损失函数为

$G^{*} =arg min_{G} max_{D} L_{cGAN}(G, D)+lambdamathcal{L}_{L1}(G )$

Pix2Pix 模型的优化与推理

模型优化

在这部分的内容中，作者的训练始终遵循在判别器
$D$

的一个梯度下降 step 与生成器
$G$

的一个 step 之间交替。同时作者在优化判别器
$D$

的时减慢了
$D$

相对于
$G$

的学习速度。

优化器方面，作者使用了 minibatch SGD 并使用了 Adam solver。初始学习率（learning rate）为 0.0002，动量参数设置
$beta_{1} = 0.5$

，
$beta_{2} = 0.999$

模型推理

在模型推理的过程中，相对于训练作者添加了 drop out 与 batch normalization 。并通过实验证明这些这些添加项对图像生成任务有效。

除此之外，作者还做了大量的实验验证不同结构与参数对模型训练效果的影响。在这里就不展开讨论了。

Pix2Pix 模型效果

Pix2Pix 作为风格迁移器，可以完成不同风格的图像转换。

例如将一张素描图变成猫的形状：

Pix2Pix——基于GAN的图像风格迁移模型wzduang的博客-
或者由黑白素描生成彩色油画：

Pix2Pix——基于GAN的图像风格迁移模型wzduang的博客-

也可以完成从卫星遥感图到二维地图的转换：

Pix2Pix——基于GAN的图像风格迁移模型wzduang的博客-
甚至可以由语义分割图生成逼真的图像：

Pix2Pix——基于GAN的图像风格迁移模型wzduang的博客-
在图像生成、图像编辑、图像超分辨率、图像风格迁移、文本到图像的翻译等任务中都能得到广泛的应用。

总结

本文基于 Image-to-image translation with conditional adversarial networks 一文谈了谈自己的理解，同时展示了 Pix2Pix 模型的一些实际应用。

本人以后会发布一些关于机器学习模型算法，自动控制算法的其他文章，也会聊一聊自己做的一些小项目，希望读者朋友们能够喜欢。

6
评论
x
海报

扫一扫，海报
手机看

到微信朋友圈

x

扫一扫，手机阅读
打赏

打赏

ZiSeoi

“你的鼓励将是我创作的最大动力”

C币余额

2C币 4C币 6C币 8C币 10C币 20C币

确定
关注

阿光砸瓮

07-13 Pix2Pix——基于GAN的图像风格迁移模型wzduang的博客- 960

基于tensorflow2.0-GAN-CycleGAN图像风格迁移应用编成实战系列(一）

GAN目前发展的很快，成果也很多，从GAN->Pix2pix->CycleGAN1.GAN1.1 GAN 的本质是一个概率生成模型，其目的是找出给定训练数据的概率分布模型，并基于概率分布模型来生成符合真实概率分布的数据。GAN作为一种更好的生成模型避免了马尔科夫链式的学习机制，理论上能够整合各种各样的损失函数1.2 基本工作机制至少拥有2个组成部分，生成G模型和判别D模型，G和D形成了一组左右互博的对手。在训练过程中，GAN会把生成模型G生成的数据和真实数据随机传送给判别模型D。…

jackzhang11的博客

05-11 Pix2Pix——基于GAN的图像风格迁移模型wzduang的博客- 500

CycleGAN实现图像风格迁移的神作

论文链接：https://openaccess.thecvf.com/content_ICCV_2017/papers/Zhu_Unpaired_Image-To-Image_Translation_ICCV_2017_paper.pdf在CycleGAN出现之前，pix2pix网络在处理image-image translation问题上比较state-of-the-art。但是pix2pix需要利用成对（pair）的数据进行模型训练，如下图所示：成对的数据在自然界中是非常稀有的，因此pix2pix对…

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

Pix2Pix——基于GAN的图像风格迁移模型wzduang的博客-

Pix2Pix——基于GAN的图像风格迁移模型

写在前面

本文目录

引言部分

为什么要基于GAN