• 找新知
  • 找课程
  • 找服务/产品
  • 找LIVE
  • 找活动
  • 找新知号/店
新知一下
海量新知
1 5 9 0 5 6 3

被AI颠覆的用户体验,到底有多爽?

笔记侠 | 中国新商业知识干货笔记平台 2020/01/18 11:55

内容来源 2019年12月21日,在极客公园创新大会上,搜狗公司CEO王小川进行了以“语言AI的未来构想”为主题的精彩分享。 笔记侠作为合作方,经主办方和讲者审阅授权发布。

笔记达人 | 朱宝

封面设计 & 责编 | 子墨

活动笔记•人工智能

本文优质度:★★ 口感:六个核桃

笔记君邀您阅读前,先思考:

  • AI 代智能硬件的趋势是什么?

  • 语言AI为什么极其重要?

大家早上好! 我们一直在做的事情,是让表达与获取信息变得更简单,而表达和获取这两件事都起源于语言,代表着语言的输入与输出。 所以,我今天的分享,将沿着语言的输入与输出这两条正在无限延伸的线展开。

一、AI驱动硬件,颠覆用户体验

1.AI录音笔

虽然说录音笔是个小众市场,但有了人工智能的加持,录音笔变成了电商爆款。

我们今年出品了一款人工智能的加持的AI录音笔,它在双十一多个主流电商平台上取得了单品销量第一的成绩,同时复购率还很高。

相对传统录音笔来说,我们的AI录音笔不仅有双麦克风阵列,同时还有AI降噪、实时转写文字、云端存储和搜索、智能编辑、同声传译等功能。

这款产品上线后,整个市场都改变了,索尼、爱国者、纽曼都加入进来,成立了一个联盟,而搜狗成了盟主。

根据我们的调查,我们的AI录音笔上线之前,整个录音笔市场销量是逐年下滑的,市场保有量只有400万支。

从3月份我们上线第一代产品开始,主流电商平台的录音笔搜索量开始上升,到12月份我们发布了第二代产品,开始一点点变硬,就像之前手机从功能机走向智能机一样。 而且,加上AI能力的注入,带来的注定是颠覆式的体验。

2.AI时代个人硬件的趋势

有了AI的注入,C端消费品也发生了变化,这个变化主要有两大趋势。

① 变得更加便携

以前放在桌上的PC机很大,随后智能硬件开始走向笔记本、iPad、手机,甚至开始走向可穿戴,因此未来个人硬件的趋势是越来越移动化、便携化。

② 拥有更强的IO能力

从以前的计算能力走向传感器能力,并且基于AI的处理能力,将从人去适应机器,变成机器适应人,最终机器接管人的感官,成为人的助理。

AI对硬件会产生什么影响呢? 对于未来10年路径,我的畅想是智能硬件从手机走向手表、耳机,到未来走向眼镜,这可能会逐渐改变我们以手机为中心的使用方式,比如眼镜和耳机会取代手机作为我们接触外界信息的通道。

新知图谱, 被AI颠覆的用户体验,到底有多爽?

硬件背后,是人去感知这个世界。

除了有图像和声音之外,很重要的就是语言,它是我们与世界交互的一种抽象方式。 而且,只有人类能够处理语言。

亚里士多德曾讲到,“语言是心灵印象的符号,是人类思维的工具,是知识的载体。 有了语言,人类社会才能沟通交流。 不管是我们生产的语言,还是计算机处理的语言,语言都是最难的一件事情,是人工智能皇冠上的明珠。

图灵测试中提到,机器能够用语言与人交流,就代表它拥有智能。

新知图谱, 被AI颠覆的用户体验,到底有多爽?

今天我们的人工智能还不具有创造力和通用的推理能力,但是可以做这样一个猜想:

只有当机器掌握了语言之后,它才能够完整地拥有创造力和推理能力。

不会讲话的机器,你会认为它智能吗? 当然不会。 因此,语言在智能当中极其重要,这也是人与动物的重大区别。

二、语言AI的发展趋势

我们会看到,以语言为核心变成了人工智能发展路径的关键节点。 我们做输入法、做搜索,其实都是在处理语言,都是为了帮大家更好地表达、更好地获取信息。

1.语言的自然交互和认知问题

关于语言,我有两部分内容要分享给大家:

第一,自然交互。

自然交互让人跟机器之间能够用语音、图像、手势等各种方式产生交流,其中用到了语音、图像技术,也包括视觉技术。

第二,认知问题,我们叫做知识计算。

基于语言,机器能够进行问答和对话,机器翻译是认知技术入门的门槛。 有了更好的感知技术,机器会从手机走向新的智能硬件; 有了更好的认知技术,机器对知识会产生理解和推理,尤其是在垂直领域拥有问答的能力。

智能硬件新的硬件形式与新的对话和问答能力,未来会走向智能助理,这也是整个AI行业在产品层面上最明珠的地方。

苹果大概在2006年就开始推出智能助理,到今天Google、百度、阿里、小米做这样的音箱产品,核心都是在做智能助理。 但是从外壳上来说,我认为并不是最好的方向。

布局时,语音、图像都有大量的技术要去做,包括语音识别、语音合成、语音变声,包括搜索独有的辨别能力。

新知图谱, 被AI颠覆的用户体验,到底有多爽?

其中,语音识别是自然交互中最自然的事情。 搜狗输入法,今天我们做到了每天超过8亿次的使用量,而且这个数字上升很快。 春节期间,可能就会超过9-10亿次的日请求量。 我们也积累了大量的数据,包括了语种、方言等各种能力。

在知识计算之后,我们强调一个核心观点,就是机器做阅读理解之后做问答,传统的搜索是通过关键词给你10条链接,随着技术的进步,我们整个处理能力会从词变成句子、段落、篇章,用户的表达也可能会转换成句子,机器的阅读理解也会走向篇章和整个文章体系,这是技术进步带来的机会。

2.语音识别

语言识别听着好像是一件很简单的事情,但其实并不是纯粹的单点技术,在识别过程当中,对于语音、语义的理解还有一些点需要攻克。

首先 ,人声分离,如果是两个人在对话,机器要能识别不同的人,能动态地去判断是第一个人还是第二个人。

其次 ,机器要能够识别掌声、笑声或其它声音,帮助我们理解内容。

最后 ,中英文混合是非常难的事情,从传统的深度学习网络数据中得不到一个混合的模型,所以要在机器中加入一些特定知识,来改变这个系统。

在这个识别背后,还会有更复杂的技术需要我们解决。 比如我们做录音笔时会考虑很多问题,其中一个就是如何让机器在嘈杂的环境里听清人的声音,帮助后面进行识别,这也是我们最前沿的技术。

传统的硬件是用麦克风矩阵实现的,用多个麦克风进行中间的数字计算、信号处理。 今天依靠人工智能,我们有了新的方法,我们的工程师在现实场景中对4万种噪音进行了学习,使得机器有能力分辨噪音。

原始的机器识别、处理是不够的。 为了让录音笔与声音的交互更好,我们有了新的算法,降噪技术在实验中已经完成了,未来的新款录音笔会给大家带来极致的AI体验。

从语音识别里面,除了语音识别外,我们往前做了很多前沿的事情,比如语音的合成,它可以惟妙惟肖地用人的音色进行表达。

3.语音合成

做技术的人都知道,以今天的AI能力,机器不会有非常精准的认知理解,大家听到的可能还是转述师那种毫无情感的声音,为了让合成的声音更加具有感情、更加像本人真实声音,我们使用了一种新技术: 声音皮肤。 在技术上,我们称之为特征的提取能力。

比如,大家在得到听梁宁的课程,其实就是让另外一个人读一篇文章,再把声音皮肤附到这个声音里面来,使得合成的声音可以表达他的情感,经过合成之后,最后由梁宁来呈现。

这种做法能改善整个音频节目的生产环节,表演者和生产者做到一定的分离,避免因为人员离职、生病等带来的各种不确定因素。

这种情况下,使得我们每个人在互联网上不仅可以换成其它形象,也可以换成自己想要的任何一个声音形象。

在生活中也有实际用处,年底马上要开年会了,如果你要表演唱歌,但是五音不全怎么办呢? 可以把你的声音特征做一次提取,然后放到《蓝精灵》歌里,会比你自己唱得好听。

这样一些技术,使得在交互中间能够做到人机结合,使得制作能力能够放大。

4.从语音变声到视频合成

当然,除了声音的识别、合成、迁移以外,我们也做了一些更前沿的工作,即从语音走向了视觉,从语音变声走向视频合成。 这就不得不提搜狗的分身,这是我们产品上一个重大的进展。

搜狗分身发展到现在经历了多次技术迭代,从最早给新华社做主持人,到给央视做主持人,再到第二代能够让它更丰富地表达;

第三代,能够站起来有手势;

到第四代之后就开始做到了多语言、多场景的播报能力;

到了第五代之后开始能够做交互,比如平安普惠的保险项目,服务人员已经被机器取代了,实际你在保险签约的时候,是机器人跟你做交互回答。

我们将很快发布第六代产品,它将拥有大角度、大幅度的动作能力。

这样的技术是机器在取代人上面的一次重大应用。 所以,这里面我们可以看到,以语言为核心,背后配上语音、人的表情、肢体、唇语,是能够使得人机交互实现更自然的状态的。

在未来,也许不到10年时间,我们将会构建这样一条路径: 自然交互会从文字走向语音、图像理解,大家看到的录音笔、同传、合成主播等,其实是在语音图像的交互能力里面做增强,背后还是语言。

新知图谱, 被AI颠覆的用户体验,到底有多爽?

另外一条道路就是认知能力不断提升,使得从搜索走向、辅助医疗、辅助问答以及合并语音图像技术,最终走向行业终极的理想,就是每个人都拥有一个个人助理。

在一些垂直领域当中,能够帮你去做秘书的工作,或者是成为你的分身,跟世界进行沟通。

我们也会持续布局语言AI下的产品,为大家呈现颠覆体验的个人助理,用机器帮助每一个人,让表达、获取信息更加简单。 谢谢!

*文章为作者独立观点,不代表笔记侠立场。