专访Gary Marcus:脆弱、贪婪、晦涩、浅薄,AI的前景和桎梏

大数据文摘 2019/10/13 12:06

大数据文摘出品

来源: flagshippioneering

编译: 张大笔茹、Luciana、李雷、钱天培

所谓人工智能,究竟有多智能?

“智能”音箱可以理解我们的基本命令,但却无法理解我们的长篇对话。

“智能”图像识别模型可以在ImageNet数据库上超越人类水平,却会把贴了贴纸的交通标牌认成冰箱。

“智能”游戏系统可以在Dota等多种复杂游戏中击败人类,但只要稍微游戏操作规则,就会束手无策。

面对当今AI所表现出来的智能,麻省理工学院计算机科学和人工智能实验室(CSAIL)的前任负责人Rod Brooks,以及纽约大学认知科学教授Gary Marcus给出了八个字的评价。

脆弱、贪婪、晦涩、浅薄。

“从这个角度来说,我认为从1959年到2019年,我们其实没前进多少。 ”Gary Marcus如是说。

近日,风险投资集团Flagship Pioneering的高级顾问Jason Pontin与Brooks和Marcus进行了一次深度访谈。 在这次访谈中,Brooks和Marcus详细阐释了他们的八字评价。

AI背后的智能,为何被评价为脆弱、贪婪、晦涩以及浅薄? 我们一起来看这次访谈的精选。

深度学习可以解决所有问题吗?并非如此。

Jason Pontin 当前的人工智能热潮是特定技术巨大成功的产物。 这项技术是什么,什么时候发明的,为什么会如此成功?

Gary Marcus 这项技术就是深度学习。 尽管没有正式命名,但这一概念从40年代开始就有了。 其基本原理是监督学习,就是向所谓的神经网络输入样本数据,这些样本与用于网络训练的标记数据相匹配,重复这一过程(即反向传播)调整网络连接权重以最大程度地减少实际输出和期望输出两者之间的差异。 网络在输入和输出层之间具有“隐藏层”,随着权重的不断更新,匹配效果越好。

人们很早以前就已经开始或者尝试“深度学习”。 其数学原理是在1960年代到70年代间产生的,并在80年代得到重新应用,但真正起作用是大数据时代到来之后。 80年代,有些人直觉认为深度学习将是一种技术突破。 但由于缺乏足够的数据和高速计算机,他们无法证明自己的观点。 2012年左右,人们开始使用专为视频游戏设计的GPU(图形处理单元)。 与此同时,数据变得更易获取,一些聪明的技术人员就想出了如何将深度学习应用于人工智能。

2012年,突然之间,万事俱备。 有了足够的数据和计算能力,深度学习可以又快又好地解决某些问题,比如可以以空前的准确度地识别Image Net上的图像(这些特定图像的标签大约有100万个)。 有些人认为深度学习可以解决所有问题,事实并非如此。 但是,对于标记图像和识别音节以解码语音来说,深度学习可以做的非常好。

人们可以理性地思考事情发生的过程,深度学习则不能,这些系统对自己的思维或者分类方式毫无概念。

RODNEY BROOKS

为何神经网络“脆弱”且“贪婪”

JP 模式识别如何能与现实世界的商业应用结合?

GM 最常见的日常应用是语音识别,比如你在家中与Alexa或Google智能音箱对话,就是在使用深度学习技术。 如果你在Google相册使用自动标签,那么也是在使用深度学习技术。 某种程度上,深度学习还部分成功地应用在无人驾驶汽车中。 此外,还有各种创新应用,例如为旧电影着色。 它确实具有许多应用场景,包括科学研究,但也有其局限性,然而这些局限并没有被媒体充分报道。

JP 你说的局限性是什么? 深度学习不能做什么? 为什么呢?

Rodney Brooks 首先,人们认为机器学习系统非常精确,但最近研究发现,自动驾驶汽车使用的算法会将停车标志识别成45英里/小时的限速标志,原因只是在标志的关键位置上贴了几条胶带。 而对于人来说,它就是贴了电工胶带的停车标志而已。 这让人感觉有点后怕,深度学习算法并不像我们想象的那样智能。

JP 这些神经网络算法如此“脆弱”,是否因为深度学习没有真正的理解能力?

RB 深度学习系统的理解方式与人类的不同。 有人说: “嘿,人工智能怎么能将停车标志看成45英里的限速标志呢? 停车标志是红色的,而限速标志是白色。 这怎么可能呢? ”事实证明这里的红色不是真的红色。 在不同的光照下,我们眼中像素的颜色与我们标记的颜色是不同的。 对于光照的变化,人眼会进行自动纠正。 而算法仅仅是在照片集上训练,没有建立所谓的色彩恒常性(color constancy),也就是人类感知色彩的基础。 因此,它们的行为与人类视觉系统是不一样的。 我们所看到的世界就是为我们的视觉系统而量身定做的。

JP Gary,你还说过这些深度学习系统除了是“脆弱”的,还是“贪婪的”,对此如何解释?

GM 深度学习需要大量数据,如果你的被测对象不会频繁发生变化,又可提供数百万个观测结果,那么深度学习将是一个很好的工具。 但如果你的被测对象频繁改变而观测数据只有几十个,机器学习则不适合。 从某种意义上说,如果拥有大量数据,深度学习将发挥最佳作用,因此它们对数据是“贪婪的”。 在人工智能领域,我们很清楚这个问题但没有去探讨。 有时你可以获得“贪婪的”深度学习所需的数据,有时却不行。 例如当需要做英语法语翻译时,我们可以通过同时从加拿大英语和法语数据库中对照获取已知数据而实现。 但是,当需要将英语翻译成斯瓦希里语时,我们并没有相应的对照数据库,深度学习不再适用。

如何理解“晦涩”和“浅薄”?

JP 除了“脆弱”和“贪婪”外,为什么深度学习又是“晦涩”和“浅薄”的呢?

RB “晦涩”意味着对于一个结论或决策没有合理的解释,我们可以对思考过程中发生的事情进行合理的解释,但深度学习不行,因为这些系统对自己的思维或分类方式毫无概念。 “浅薄”是因为虽然它们被称为深度网络,但“深度”一词实际上来自系统采用的层数。 在80年代以前,我们的网络只有三层,随后增加到十来层,如今有些网络可超过100层。 当人们听到深度二字,就以为是深思熟虑的意思,但实际上这两个字来的很随意。

GM 其实这有点像因果关系和关联关系之间的区别,深度学习本质上是复杂的关联关系,你可能知道两件事关联但并不知道它们为什么相关。 因此,深度学习实际上是浅薄的,它只是从统计学的角度描述倾向于同时发生的两个事件,但并不能够给出它们同时发生的原因。 因此,如果测试环境发生变化,那么这些统计信息就不再有意义,因为系统没有办法理解问题背后的原因。

还记得Deep Mind开发的Atari游戏系统吗? 表面上看它可以玩Breakout(打砖块游戏)而且玩的不赖,但它并不能真正深刻理解游戏中出现的球拍、球或者砖块是什么,它只是了解某些特定的统计信息。 现在如果你打乱球和球拍的位置并将砖块向上移动几个像素,深度学习系统就不知道该怎么玩下去了,这正是因为其所“学到”的东西还只是浅层的。

新知图谱, 专访Gary Marcus:脆弱、贪婪、晦涩、浅薄,AI的前景和桎梏

真正的智能是无需大量经验就能够解决新问题,我们可以在几分钟之内就学会玩一个从未玩过的游戏,但机器仍然无法做到这一点。

GARY MARCUS

JP 这是因为深度学习系统根本连一点常识都没有,因此不能理解某些规则吗? 那为什么要吹得天花乱坠呢? 二位的回答都让人觉得“人工智能”的标签被错误地贴到了深度学习的身上?

GM 深度学习是可以用于人工智能的一种工具,但它本身并不如我们想象的那样智能。 我认为在很多领域中,都有一种“万灵药”情结。 举个例子,在我出生之前,我国心理学领域著名心理学家斯金纳(Skinner)创立了行为主义理论,当时的人们希望寻找一个可以描述所有行为的神奇方程。 当然这从未实现,这种方式不适合用来理解人类的行为。 但如今在人工智能领域,我们正在尝试找到一组基于反向传播的方程式来进行神经网络调优,并希望可以用它来解决所有问题。 这种想法很美好,某些情况下也能起到一点作用,但这并不是真正解决问题的恰当方式。

RB 无可否认,目前深度学习系统的确能够做到10年前我们认为不可能做到的事情。 在智能家居领域,Amazon 智能音箱Echo、Alexa以及Google音箱的表现实际上比之前有了很大的飞跃。 人们看到了这一点便因此得出结论: 根据50年前提出的摩尔定律,未来这种发展将会呈指数型增长。 但这些技术并不能依靠自身的力量变得更好,而是需要创新的理念才能得到进一步的发展。 新理念什么时候出现是很难说的,每隔几十年才出现一次。

GM 谷歌技术总监Ray Kurtzweil一直认为,某些进步确实是呈指数增长的。 但在人工智能的其他领域,我们看到的进步更多是呈线性甚至是停滞的。 真正的智能应该是无需大量经验就能够解决新问题,我们可以在几分钟之内就学会玩一个从未玩过的游戏,但机器仍然无法做到这一点。 对于自然语言的理解问题,已经有了一些进步: Alexa音箱可以理解我们的基本命令,但是还没有哪个系统可以真正理解我们三个人在这里做的这一番对话。

从这个角度来说,我认为从1959年到2019年,我们其实没前进多少。

相关报道:

https://www.flagshippioneering.com/stories/brittle-greedy-opaque-and-shallow-the-promise-and-limits-of-todays-artificial-intelligence

新知图谱, 专访Gary Marcus:脆弱、贪婪、晦涩、浅薄,AI的前景和桎梏

大数据文摘
+ 关注

更多新知