新知一下
海量新知
6 2 9 1 1 1 8

AI 换脸项目 ALAE 登顶 Github,AI 换脸又升级?

磐创AI | 人工智能领域前沿自媒体。 2020/05/05 18:44

新知达人, AI 换脸项目 ALAE 登顶 Github,AI 换脸又升级?



磐创AI分享

转自 | CSDN(ID:CSDNnews)

作者 | 马超

【导读】 基于自编码技术的AI换脸 项目 ALAE成功登 顶了Github趋势榜(https://github.com/podgorskiy/ALAE)。

新知达人, AI 换脸项目 ALAE 登顶 Github,AI 换脸又升级?

相比于之前的人脸图像处理的项目,ALAE可谓是大BOSS的级别了,随便贴几张效果图大家来感受一下。

新知达人, AI 换脸项目 ALAE 登顶 Github,AI 换脸又升级?

不但图像分辨甩之前几代的换脸模型几条街,学习过程的可视化也更强:

新知达人, AI 换脸项目 ALAE 登顶 Github,AI 换脸又升级?

截至笔者发稿时,ALAE有两个自编码器:一个是基于MLP编码器,另一个基于StyleGAN对抗神经网络的生成模型,也可以称之为StyleALAE。ALAE的作者们将这两种体系结构的结合。结果表明,StyleALAE在各方面的性能都优于上一代的StyleGAN,且在相同分辨率下还可以生成更真实的人脸重构信息。

笔者初步在GitHub上看了一下,由那个大名鼎鼎的换脸应用Deepfaks衍生的如faceswap,DeepFaceLab的开源项目数量不下十几个,其中以faceswap、Openfaceswap等开源项目为代码的换脸技术在GitHub上的更新与讨论十分热烈,推动了开源换脸技术的迭代速度。

以FaceApp为代表的项目虽然没有开源,但是它们提供了支持一键式操作的应用程序,极大地降低了换脸技术的使用门槛。

Pix2Pix:AI换脸的祖师级模型


刚刚提到如deepfaks的换脸应用,是参考了Pix2Pix的思想。Pix2Pix是基于对抗神经网络GAN的模型,其目标是由图像的轮廓,还原回真实图像,目前读者可以到https://affinelayer.com/pixsrv/这个网站来感受一下,如何从随便画出的简笔画转换成真实的图像。

新知达人, AI 换脸项目 ALAE 登顶 Github,AI 换脸又升级?

后来N厂又提出了Pix2PixHD技术, Pix2PixHD 把之前由Pix2Pix生成的图像分辨率提高了很多。可以说PIX2PIX是后面这些AI换脸等技术的理论基础,正是凭借AI强大的联想及脑补能力使以上应用成为了可能。

CycleGAN:风云变色的模型


2017年,加州大学伯克利分校的教授提出了CycleGAN模型,CycleGAN使用循环一致性损失函数来实现训练,来完成将图片中一个域到另一个域的无缝转换。简单来说CycleGAN能将图像的主题风格或者某一域主体完美进行切换,具体效果如下:

新知达人, AI 换脸项目 ALAE 登顶 Github,AI 换脸又升级?

斑马与马的互转

CycleGAN有升级版的UGATIT,其效果更好,可以用在卡通风格的转换:

新知达人, AI 换脸项目 ALAE 登顶 Github,AI 换脸又升级?

CycleGAN出现后,图像主题无缝切换将图像伪造技术提升了一个高度,在换脸之余还能把原背景主题进行切换,给鉴定带来麻烦。

StyleGAN:ALAE先导模型


StyleGAN模型也是N厂提出的,用来计算Picure A与Picture B结合的结果,StyleGAN还支持多种结合模式,详见下表:

Style 等级

Picture A

Picture B

高等级(粗略)

所有颜色(眼睛,头发,光线)和细节面部特征来自Picture A

继承Picture B高级的面部特征,如姿势、一般的发型、脸部形状和眼镜

中等级

姿势、一般的面部形状和眼镜来自Picture A

继承Picture B中级的面部特征 ,如发型,张开/闭着的眼睛

高等级(细微)

主要面部内容来自Picture A

继承Picture B高级面部特征,如颜色方案和微观结构

其两张图像按照三种style结合的效果如下图:

新知达人, AI 换脸项目 ALAE 登顶 Github,AI 换脸又升级?


AI换脸的发展趋势


目前AI换脸的相关模型除了在效果方面不断取得突破之外,也有其它方面的发展动向,具体如下:

图像修复 :Partialconv模型可以通过AI对于图像进行修复,这又是一个N厂提出的模型,即使图像丢失了大面积的像素,能通过AI将损失进行修复,Partialconv也是所谓的一键”去“衣、一键”去“码之类应用的鼻祖,其效果图如下:

新知达人, AI 换脸项目 ALAE 登顶 Github,AI 换脸又升级?

多媒体合成 :Speech-Driven Facial Animation是一个由三星提出的使用照片加音频合成视频的模型。SDA能够仅使用人的静止图像和包含语音的音频剪辑来产生动画面部。其生成的视频不仅可以产生与音频同步的唇部动作,还可以呈现特有的面部表情,例如眨眼,眉毛等,同时能够捕捉说话者的情绪并将其反映在面部表情中。

原图如下:

新知达人, AI 换脸项目 ALAE 登顶 Github,AI 换脸又升级?

SDA处理之后生成的图像,静止图像立刻活灵活现起来。

新知达人, AI 换脸项目 ALAE 登顶 Github,AI 换脸又升级?


AI换脸等技术的兴起可能会让未来的身份识别及认证造成一些麻烦,如果一旦将人脸面部信息与具体的人联系起来,那么人脸信息就可能被滥用,如何研发可靠的技术来鉴定真伪?是我们开发者值得关注的地方。

新知达人, AI 换脸项目 ALAE 登顶 Github,AI 换脸又升级?

- End -


新知精选

更多新知精选