新知一下
海量新知
5 8 9 4 4 0 9

如何看待swin transformer成为ICCV2021的 best paper?

深度学习技术前沿 | 深度学习技术前沿信息 2021/10/14 13:58

编辑:深度学习技术前沿

转载请注明来源,谢谢!

【导读】 今年ICCV2021, 在所有被接收的论文中,来自中国的论文数量占比最高,达到了 43.2%,约为第二位美国(23.6%)的两倍 中国学者凭借Swin Transformer荣获ICCV 2021 马尔奖(最佳论文) 。这一研究由微软亚研院(MSRA)提出,论文的四位共同一作分别是来自中国科学技术大学的刘泽、西安交通大学的林宇桐、以及MSRA的曹越和胡瀚。微软亚研院不愧是CV界的顶流!(凯明大神当初也是在这里做出了很多solid的工作).下文主要选取了知乎上的热门回答,一起来看看大家怎么评价这篇论文!(也欢迎大家在文末留言区留言哈!)

新知达人, 如何看待swin transformer成为ICCV2021的 best paper?

作者:胡瀚

链接:https://www.zhihu.com/question/492057377/answer/2168936621

作为作者之一来答一波

有生之年从没想过有机会解锁马尔奖,感觉自己很幸运!坦率讲,这次的奖项应该共同属于更早以及同期一起推进Transformer在CV中基本建模的很多工作, Swin Transformer很幸运被选中了作为其中的代表,感谢&感恩!

借此机会,再次推荐大家在CV中拥抱Transformer,现在NLP、CV和众多AI领域在建模和学习上越来越近,我认为这是一个好事情,如我们在论文里所说:希望Swin Transformer在各种视觉任务上的强大表现,能鼓励CV community拥抱Transformer以及视觉和语言更统一的建模。我们相信,这也会让我们离AGI更近一点点(尽管路途依旧遥远)。

为何Transformer在计算机视觉中如此受欢迎?- 微软亚洲研究院的文章 - 知乎 https://zhuanlan.zhihu.com/p/413579631

如何看待Transformer在CV上的应用前景,未来有可能替代CNN吗?- 胡瀚的回答 - 知乎 https://www.zhihu.com/question/437495132/answer/1834774638

另一方面,Transformer来自于NLP,不得不说NLP过去几年引领了整个AI领域,他们过去几年的思考非常值得我们学习。当然,我们也不用妄自菲薄,事实上更早前的很多年里,更多的时候是CV在引领整个领域,包括预训练范式的提出和广泛应用、residual连接、normalization层等等很多技术都来自CV领域。现在正是我们CV领域的研究者们打开思路,想的更远更超前一些的时候。我对此很有信心,CV领域非常open-minded,能接受很多不同的方向以及风格迥异的作品,我相信这也是CV领域过去能长期保持活力和越来越壮大的重要原因。我也很期待我们CV领域的研究员们将来和NLP以及其它AI领域的朋友们一起前行,让AI变得更好,对整个社会产生更多有益的影响!

这里还分享一下论文背后的几个小故事(共一作者已经出现在很多地方了,因此我这里会特别涉及其他几位作者非常关键的贡献):

1) 关于名字。 Arxiv放第一版时忘记了注明名字的由来,后来有朋友问起来才意识到。Swin是Shifted window的缩写,这也是投稿前最后一天才确定下来的名字。很长一段时间我们在考虑是否以hierarchical(H)作为名字,但最后觉得shifted window是这篇论文最有意思的一个设计,也是实现局部性和层次性的关键所在,于是决定在方法的名字里强调这个技术。Swin这个名字是合作者郭百宁的贡献。

2) Shifted window这个idea的由来和解释。 其实决定做层次化Transformer的时候,几乎一瞬间就想到了这样一个设计。主要是因为有两年前在ICCV 2019上我们做的局部关系网络(Local Relation Networks)的基础,当时尝试了第一个完全基于自注意力而无需卷积的骨干网络,但发现基于滑动窗口的自注意单元对GPU显存访问不太友好,计算速度较慢不太实用,因此我们直接跳过了这个选项尝试了不重叠窗口的设计。而移位的思想则来自我4年前另一个没有发表工作的想法(当时因为做的不够solid所以放弃了),想不到在这里产生了妙用。而关于速度快的精确解释主要归功于合作者张拯,他提出了共享key集合是导致显存访问友好的关键所在。

3) 这篇论文更长久的贡献可能是让领域普遍意识到Transformer可以在广泛的视觉问题中超越CNN,以及为下游密集任务提供一个还不错的训练和测试菜谱(recipe)。在投稿前最后一个多月我们的主要精力就在于此,希望调一个Transformer时代靠谱的菜谱来。这方面韦毅轩做了大量贡献。说实话学生们被我们push得是比较狠的,这里表示抱歉,也要特别感谢所有学生们的理解。另外,毅轩在这个项目之前是和组里另一个同学姚朱亮一起在做和CLIP几乎一样的方法,做着做着就看到CLIP出来了。当然我们的目标有所不同,所以按照我们当时认知的高度,即使在某些场合证明了效果,也是做不出CLIP来的。

4) 在MSRA这几年,向代季峰、危夷晨、Steve Lin,以及读恺明大神和孙老大的文章学到了 很多做问题的方式和写作方面的技巧 :季峰的实验设计和作图,夷晨精密的行文逻辑,恺明讲story的能力,Steve Lin逻辑和语言上的gift,对我帮助很大很大。尽管如此,Swin的初稿经过Steve Lin和百宁加工后,还是焕然一新。

MSRA有两点我觉得是特别unique的,一个是自由的学术氛围,二是很好的传承 。我个人就非常受益于此,向很多前辈们学习,得到了很多成长,相信我身边的研究员们如曹越张拯等等深有同感。也希望能将这些好的方法论传承下去,我想这也是MSRA能长青的重要原因之一。最近两年我个人主要的精力就是从前几年的IC,慢慢过渡到了以培养学生和帮助年轻的研究员为主,也希望MSRA能为公司,以及国内的工业和科研界培养越来越多的人才。

最后,还是例行给大家安利下MSRA的研究员职位以及我们的联合培养博士生项目,这些联培项目的博士生们在读博期间普遍都有非常好的成长,几位合作的联博同学就都已经具备了很强的潜力,尽管还非常年轻,例如刘泽在中科大刚开始博三,宇桐和毅轩都分别是西交和清华博二的同学。对于有意联合培养项目的博士生,或者有意和微软亚洲研究院建立联培合作项目的学校,可以联系我或者相关的同事哈!

作者:大白杨

链接:https://www.zhihu.com/question/492057377/answer/2168287957

首先肯定是恭喜了。我本来以为是个oral,或者是best paper提名(不知道iccv有没有这个),直接best paper我也是没想到。如果以一种精益求精的观点去看swin,还是有很多可提高之处的,比如说:

  • 虽然在几个常用benchmark上提升明显,但是在某些实际项目的落地中发现可能还不如vit好用,或者需要精细调参,这个在resnet中是不存在的;

  • 整个模型设计,我认为并没有真正从原理上真正解决cnn和vit之间的问题。transformer放在cv两个问题,local feat无法专注,长序列导致显存炸裂。swin采用的local self attention等于是套着cnn的模式到了transformer中,后面接一个shift window,我理想当中应该是采用一种全新的attention设计去解决这两个问题,我甚至有点好奇把local self attention替换一个普通卷积会怎么样。再者就是shift window那一步略显复杂,毕竟simple is best。

  • 计算损耗就不多说了,显存这块要求是很高的,平民组不知道能不能玩。

不过不管怎么说,我认为也担得起best paper,只是很好奇vit和detr怎么连best paper提名都没上,从novelty上来讲的话,这两篇是大规模采用transformer到CV的开山之作了。

作者:Zhenzhi Wang

链接:https://www.zhihu.com/question/492057377/answer/2168414644

从论文的另一个作者han hu老师的角度说一下。首先恭喜胡老师作为作者之一的文章拿到了如此之高的认可。有些初学者(包括刚入门时期的我)有可能会认为这篇文章有点追transformer热点的感觉,而不知道别人的工作背后往往有多年积累和没有被如此广泛认可的阶段,作为researcher而言研究的历史路径其实是很漫长的。

胡老师去年来nju给过一个talk,我作为听众和胡老师有过一面之缘。talk的背景是那个时候ViT刚刚发布到openreview官网上还没中,CV领域的transformer热潮基本上还属于DETR,当时胡老师介绍了自己一系列通过attention/relation建模进行改进CNN的工作,例如RelationNet(++),Local Relation, GCNet, Disentangled Non-Local等等一系列成体系也很solid的工作。我印象很深的是胡老师提到了kaiming的non-local,认为自己的工作虽然也比较像,但是影响力毕竟没有non-local大。作为end-to-end object detector,RelationNet已经可以将NMS纳入网络一起训练,所以貌似DETR也不算是第一个end-to-end的object detector,虽然DETR应该是影响力最大的那个。后来又提到了近期提出的ViT,这种完全使用transformer(此处不讨论分patch再linear proj算不算conv)的大新闻毕竟总是可以引起更大的关注,我感觉胡老师当时好像略微有点失落的样子,他觉得自己CNN+attention的工作总是不能引起如此大的影响力。

过一阵子swin transformer系列的文章和code发布了以后,在网上又看了胡老师的新talk《Swin Transformer and 5 Reasons to use Transformer/Attention in Computer Vision》,这个时候我感觉胡老师已经all in transformer了,也算是多年的努力正好赶上了一个大家都关注这方面工作的时期。我猜胡老师最开始也没有想到能中marr prize,也许他觉得应该差不多能中一个oral,但是近期这篇文章受到这么大的关注,我觉得他应该是满意的。我作为一个硕士生,当然是没有能力也没有资格评价胡老师,只是作为一个很敬佩他的学生,表达一下对于胡老师多年solid工作的赞扬。无论这篇文章是best paper还是只是一个比较受关注的oral,我觉得背后的作者们都是实至名归,都是值得大家学习的。以后有机会的话会写一点technical report解读一下CNN+attention -> transformer这一系列的工作。

更多“transformer”相关内容

更多“transformer”相关内容

新知精选

更多新知精选