把视频玩出花的快手来到CVPR ,解密背后AI能力,落地空间有多大?

量子位 2019/06/22 12:49

郭一璞 发自 凹非寺

量子位 报道 | 公众号 QbitAI

AI研究,从论文到应用有多远?

我们见到的不少有趣的AI应用,修改图片,编辑视频,生成音乐,绝大多数都是乖乖躺在论文里,好心的作者会开源到GitHub上,分享Demo让大家体验。

但感受AI技术带来的乐趣,门槛还是很高,普通人,比如你老家的大爷大妈,是很难去打开一个Colab,运行Demo的。

不过,“让村里的老大爷体验到AI乐趣”这件事,快手做到了。无论他们用的是硬件多么低配的千元机、百元机,通过快手一系列的AI技术积累和算法优化,普通人也能够体验到基于人脸识别、肢体识别、手势识别、人体分割、AR等技术的魔法表情,享受前沿科技带来的乐趣。

比如让“哥斯拉”来到工地现场。

新知图谱, 把视频玩出花的快手来到CVPR ,解密背后AI能力,落地空间有多大?

来自快手用户 星云『Xy』

又比如,用“萌面”魔法表情,阖家换上绿色爆炸头跳一段最流行的拳击舞,带上头套也不耽误展示各种表情。

新知图谱, 把视频玩出花的快手来到CVPR ,解密背后AI能力,落地空间有多大?

来自快手用户 张小姐教穿搭

新知图谱, 把视频玩出花的快手来到CVPR ,解密背后AI能力,落地空间有多大?

近日,快手一项最新AI互动装置更是引爆了美国加州CVPR2019的会场,引得全场参会者驻足体验,连声称赞:nice! 有趣!甚至被本届CVPR主席朱松纯教授赞为最出色的展厅。

新知图谱, 把视频玩出花的快手来到CVPR ,解密背后AI能力,落地空间有多大?

通过多模态融合人脸识别技术、肢体识别技术、手部动作识别三项AI技术的识别结果,该互动装置能够让虚拟3D形象实时复制体验者面部表情、肢体动作、手部动作。

通过人脸关键点识别和人脸表情识别,虚拟形象能跟随体验者实时做出微笑、闭眼、张嘴、吐舌头等50余种细微表情。

通过三维人脸重建技术,恢复出人脸的三维几何信息及人头在世界坐标空间中的姿态,用来精准的驱动人头转动和人脸朝向。

此外,也充分考虑了肢体运动的物理限制,有效规避出现真实人体无法完成的动作。

新知图谱, 把视频玩出花的快手来到CVPR ,解密背后AI能力,落地空间有多大?

这一技术也早在两个月前使用在快手APP中,让多个知名短视频动漫IP形象开启直播,跟用户实时互动。一禅小和尚3D形象首次直播的49分钟时间里,就获得了64.9万个点赞,观看人数超过25万人,不少用户都被暖心的一禅小和尚治愈。

新知图谱, 把视频玩出花的快手来到CVPR ,解密背后AI能力,落地空间有多大?

这些多种多样的AI玩法,背后都有怎样的技术基础?

在今年的CVPR上,快手Y-tech西雅图人工智能实验室和FeDA商业化Y-tech联合实验室负责人刘霁、快手Y-tech硅谷实验室负责人王华彦两位揭开了背后的秘密。

七大支撑,三大实验室

在快手,AI技术不仅被用于常规的内容分发、广告推荐上,更为重要的则是短视频、直播相关的内容生产。

这背后,倚赖的是快手的计算机视觉、图像处理、语音识别、多模态理解等多重技术,以及七大AI技术构成的技术平台与底层支撑。

新知图谱, 把视频玩出花的快手来到CVPR ,解密背后AI能力,落地空间有多大?

针对用户行为的推荐,需要高效的 离线及在线学习训练服的推荐系统 ,能将万亿级特征大数据进行全链路实时在线学习。这里,快手的广告推荐离线训练系统达到了百T数据,百G特征,1小时以内训练完成。

将技术落地到手机端,需要 基于深度学习的模型压缩与AutoML ,快手利用自创的端到端模型压缩算法,不仅发表了多篇论文,更是在线上的实际表现中,超越了以往常用的经典算法。

而从游戏到广告出价,AI系统的 决策能力 也在受到考验,快手的专家团队用强化学习的方法,将多种智能决策技术应用在用户每天看到的短视频中。

而背后的神经网络基础,则是依靠快手自研的 YCNN深度学习推理引擎 ,针对不同手机硬件做了适配与优化,这样,无论哪里的用户,在拍摄各种特效时都能保证实时性和流畅性。

此外,在机器学习方面,快手有自己的 机器学习平台 ,结合自研的服务器资源虚拟化技术、RDMA高速网络、CPU/GPU/F- PGA异构计算系统与共享存储系统,提供了快手公司内部的AI基础功能。还专门推出 亚瑟自助式机器学习开发平台 ,用全自助的方式简化机器学习开发的操作。

有了工具,还需数据的支持。快手自由 大数据平台 ,提供了海量多模式数据存储、异构资源调度,以及Tensorflow/Mxnet/XDL/MPI等多种主流机器学习引擎 的分布式化训练与预测。

在7大平台之外,快手在美国还有西雅图、硅谷、圣地亚哥三大实验室的人才与技术支撑。

快手Y-tech西雅图人工智能实验室

快手Y-tech西雅图人工智能实验室、FeDA商业化Y-tech联合实验室负责人刘霁教授从事机器学习以及人工智能研究已经超过15年了。

此前,刘霁教授和快手创始人宿华一同获得了2017麻省理工中国35岁以下35位最佳创新人才奖,两人也刚好在颁奖时相遇。同样研究机器学习领域,相似的经历让他们一见如故。

新知图谱, 把视频玩出花的快手来到CVPR ,解密背后AI能力,落地空间有多大?

在这样的缘分之下,刘霁教授在去年10月加入快手,成为西雅图两个实验室的负责人,同时他现在还在罗切斯特大学计算机系和电子工程系任教。

西雅图实验室是快手在美国的三个实验室之一,主要聚焦于智能决策问题,承担了大量快手的主要业务,如商业化广告推荐、竞价、大规模离线训练平台,游戏AI以及游戏关卡自动生成,手机端的AI模型优化以及AutoML,视频图像的分析、理解与生成等。

对于一项AI技术的研发来说,在有数据的基础上,必须合理的设计模型并训练,才能让AI系统真正运行起来。不过,对于快手来说,要让AI模型服务于使用千元机的大众群体,模型压缩是关键的一步(Model compression)。

新知图谱, 把视频玩出花的快手来到CVPR ,解密背后AI能力,落地空间有多大?

刘霁教授介绍说,让AI技术落地,越是在这样效果性能并不是那么好的机型上面,对技术的挑战越大,而模型压缩这项任务就是专门为了让AI能力服务每一个用户的关键一步,这也是西雅图实验室除了训练AI模型之外主要承当的一项任务。

因此,像这样的娱乐效果,把熊二带入现实,或是变身雷神,无论是强大的旗舰机,还是普通的千元机,快手都能保证实现。

新知图谱, 把视频玩出花的快手来到CVPR ,解密背后AI能力,落地空间有多大?

来自快手用户 任性卟卟乖巧

新知图谱, 把视频玩出花的快手来到CVPR ,解密背后AI能力,落地空间有多大?

来自快手用户 拉面哥-辛拉面

除了短视频平台,快手的业务也涉及广告和游戏。在广告方面,西雅图实验室主要运用强化学习等方法,实现广告的推荐、竞价等功能。

刘霁也带领FeDa商业化Ytech联合实验室也在广告推荐方面做了一些技术革新。此前,针对一种广告推荐商业化平台,行业内的通行做法是用CPU做,效率较低。刘霁团队改良了这一做法,换成了GPU方法来做,单机的效率提高了640多倍。此前需要50台CPU机器训练20个小时的数据,现在只要一块GPU训练1个小时就够了。

在游戏方面,快手拥有近100款自己开发的小游戏,AI也被应用在游戏方面,一块是游戏AI,另一部分是游戏关卡的自动生成和难度评定,还有游戏数据分析和智能运营。

比如三消类游戏,需要更新全新的关卡,但人工设计关卡、测试关卡工作量非常大,因此,在快手,通过AI系统来自动生成关卡、自动测试难度,得出的通关率相当精准,误差率只在7~8%左右。

目前,虽然西雅图实验室只有十余人,但效率非常高,在研究方面,今年已经有7篇论文被各大会议接收;而在落地方面,通常只要一周左右,就能把实验结果落地,并正式投放市场。

快手Y-tech硅谷实验室

快手Y-tech硅谷实验室负责人王华彦本硕皆毕业于北大,后来到斯坦福AI Lab读博,在加入快手前,王华彦曾在硅谷AI创业公司Vicarious任高级研究员。

新知图谱, 把视频玩出花的快手来到CVPR ,解密背后AI能力,落地空间有多大?

硅谷实验室坐落在斯坦福校园附近,与前面介绍的西雅图实验室不同,快手硅谷实验室更注重计算机视觉,用AI的方式创造各种特效,供用户在创作短视频的时候增添丰富多彩的内容。

比如有这样:

新知图谱, 把视频玩出花的快手来到CVPR ,解密背后AI能力,落地空间有多大?

还可以实现这样的变化,将一张静态照片直接变成延时摄影,白天变夜景:

新知图谱, 把视频玩出花的快手来到CVPR ,解密背后AI能力,落地空间有多大?

将这些功能实现并部署在用户的手机上,就是硅谷实验室的核心技术挑战。

“这个里面就有两个很大的挑战,一个是我们需要以非常高效的方式来训练和开发模型,另一个是我们也需要让这些模型以最高的效率在移动的设备上运行起来,所以就需要在数据和计算上都达到非常高的效率”王华彦说。

比如,在视频图像分割人物中,现行的方法是通过标注大量图像,作为数据集进行监督学习,训练出模型。但这种方式并不十分有效,相比人类的只需要少量样本的学习方式,效率更低。

也正是因此,快手硅谷实验室正在不断延揽人才,提升AI算法,提高数据和计算两方面的效率,让模型的训练和部署都能高效完成。

传送门

最后,快手Y-Tech西雅图AI Lab联合罗切斯特大学等研究者提出了一种基于能耗建模的压缩方法,该工作的论文也被CVPR2019收录,需要的朋友可自取~

ECC: Platform-Independent Energy-Constrained Deep Neural Network Compression via a Bilinear Regression Model

作者:Haichuan Yang, Yuhao Zhu, and Ji Liu

https://arxiv.org/abs/1812.01803

作者系网易新闻·网易号“各有态度”签约作者

新知图谱, 把视频玩出花的快手来到CVPR ,解密背后AI能力,落地空间有多大?

量子位
+ 关注

更多新知