如何评价Google最新发布的增强型风格迁移算法_[#第一枪]

发布时间：2021-06-07 12:56:57 阅读：次来源：洗米筛厂家

Google最新发布了一种新的迁移网络（来自其论文《A Learned Representation for Artistic Style》）同时学习多种风格的简单方法，可以简单地让单个深度卷积风格迁移网络（Deep Convolutional style Transfer Network）同时学习多种艺术风格。

这种方法能实现实时的风格插补（Style Interpolation），其不仅可以应用于静态图像，还可应用于视频中。

如上图所示，在实际使用中用户可使用13种不同的绘画风格，通过滑块调整这些风格的相对强度。多种风格实时结合到一起，最后得到一个输出。

下图是 4 种风格按不同比例结合的成果：

与之前快速迁移风格的方法不同，这种同时建模多种风格的方法让用户能实时与风格迁移算法进行交互，而且可以基于多个风格的混合进行自由创造。

这让我们想起了之前红极一时的图片应用Prisma，Google所推出的这种迁移网络方法与之有哪些异同点呢？

Prisma

Prisma应用基于论文《A Neural Algorithm of Artistic Style》中一种使用深度卷积神经网络（CNN）分类器的方法开发而来，其系统核心是利用神经表征来进行分离，再组合随机图片的内容和风格，以此来实现一个可用来描绘艺术图像的算法。

该算法利用一个多层的卷积神经网络（CNN）抽象出给定绘画作品里一些高级的隐藏特征用来模仿绘画风格，并把这个绘画风格应用到一个新的图片上。此外，该算法会寻找一张给出该 CNN 的底层中同种类型激活（activation）的图像，这些底层会获取风格的输入（宽笔触和立体美感等等）。另外，该算法还会在更高层产生激活。

这项成果——《A Neural Algorithm of Artistic Style》首次提供了基于神经网络的风格迁移的概念证明，但是这种为单张图像施加风格的方法对计算的要求很高。

Prisma 的CEO Alexei Moiseyenkov也曾提到，他们打算把应用从静态图片扩展到视频领域，但这种拓展将主要有两个挑战：

视频的数据处理量比图片更大，对计算能力的要求将显著提升。

如何保持帧图像在时间轴上的信息一致性，而不是单独处理每一帧图像。

目前最新版本的Prisma也能实现对视频进行处理，但是由于手机计算能力的限制，其目前无法做到实时处理的效果。

对于这个问题，我们有请教华南理工大学在读博士研究生蔡博伦（主要研究方向是：机器学习、计算机视觉、图像处理等）他表示：

Prisma是约束两张图片在cnn的中间层具有相同的表示，然后再反向传导回去，是一个迭代收敛过程。

Google提出的迁移网络是直接训练一个Artistic Style network，它是一个end-to-end的网络，只需前向、不需迭代，所以其可以做到实时的风格迁移。Prisma则是用了imagenet预先训练好了的网络（也是end-to-end的）。

另外，Prisma的技术属于生成网络的一种，是从Science 那篇BPL《Human-level concept learning through probabilistic program induction》）开始火起来的一个深度学习方向。Google的方法是工业上的好方法，Prisma的方法则在学术研究上会更有趣。

另外来自图普科技的工程师认为：

Google此项技术所利用的网络结构和Prisma所利用到的网络结构几乎是一样的（卷积神经网络）。最大的不同就是这个网络用了一个叫"Conditional Instance Normalization"的层来代替原网络的"Batch Normalization"。

这篇文章的猜想是，其实把一张图片转变成多种风格，在计算上有很多相似的地方，而卷积层起到的作用是提取图片的风格基本元素，而Normalization层的scale & shift参数对不同风格的转换起着决定性的作用。所以N种风格转换的卷积网络，它们的卷积核是完全一样的，唯一的不同就是Normalization层的scale & shift参数。

Google这篇文章虽然展示了不错的结果，但是对背后原理的解释还停留在猜想阶段。

之前版本的Prisma将他们的模型放在云端，所以除了风格转换的实际时间，还有网络传输的时间（Prisma的服务器应该在莫斯科）。最新的Prisma iOS版本可以实现离线风格转换，原理是把模型下载到手机上，然后利用CPU计算，这样每对一张图片进行风格化需要6～7秒的时间。目前现有的技术可以都可以在GPU上做到实时，但是这依然是一个计算量非常大的工作（Prisma返回的图片都是1080P）。

视频风格化和图片风格化的原理是一样的，因为视频本质上就是一帧帧的图片。第一代风格化技术很难用在视频上的原因是因为利用这种方法即使是风格化一张图片在GPU上都要非常长的时间。

鉴于上面两位的分析有一定的分歧，雷锋网另外咨询了图森科技的首席科学家，他表示，

“我的理解和图普的基本一致，之前Google也有至少两三个style transfer工作也都是只要前向传播不需要迭代。”（注：Google之前就有至少两三个style transfer工作也都是只要前向传播不需要迭代，所以这个原因很有可能不是它此次“其可以做到实时的风格迁移。”的关键）。

另外，《我是如何用TensorFlow 做出属于自己的Prisma的？》的作者牟中强则表示：

小结：

从各方的评论及反馈来看，相较于Prisma，Google最新发布的增强型风格迁移算法与其相比有相同点，也有不同点。

相同点

都是基于论文《A Neural Algorithm of Artistic Style》改进而来。

所利用到的网络结构几乎是一样的（卷积神经网络）。

视频本质上就是一帧帧的图片，两者都可以做到。

不同点

最大的不同就是这个网络用了一个叫"Conditional Instance Normalization"的层来代替原网络的"Batch Normalization"。

N种风格转换的卷积网络，它们的卷积核是完全一样的，唯一的不同就是Normalization层的scale & shift参数。