新知一下
海量新知
6 6 1 0 5 6 8

全网超火的AlphaFold,你知道吗?

运筹OR帷幄 | 运筹学/优化理论的前沿专业报道 2021/08/08 07:19

『运筹OR帷幄』转载

作者:探臻科技评论

一. 什么是AlphaFold

如今,人工智能已经渗透到人们生活的方方面面, 各种深度学习算法也越来越多地应用于各个领域。 尤其在生物和医学领域,人工智能技术可以说大放异彩,极大加速了有关生物、病理等科学的发展。

蛋白质作为构成人体组织器官的支架和主要物质,在人体生命活动中起着重要作用。 蛋白质几乎参与人体的所有生命现象, 从催化化学反应的酶、到对抗病毒的抗体和激素、以及作为信号物质的胰岛素。生物体会根据构成基因 DNA 的四个碱基的排列,以各种方式连接 20 个氨基酸。打个比方, 如果蛋白质是房子,DNA就是蓝图,氨基酸则是砖块。 蛋白质不在氨基酸链中,而是折叠形成三维结构,这就像钥匙和锁一样,各种蛋白质相互结合从而去影响生命现象。

新知达人, 全网超火的AlphaFold,你知道吗?

图2 蛋白质结构(图片来源于网络)

谷歌旗下的DeepMind 团队就将人工智能引入了蛋白质结构预测。前段时间该团队研发的AlphaFold人工智能系统在国际蛋白质结构预测竞赛(CASP)上取得惊人的准确度, 多数预测模型与实验测得的蛋白质结构模型高度一致, 引起了大家的关注。当然最引人瞩目要属DeepMind 团队这两周接连在《自然》杂志上发表的两篇论文, 提到AlphaFold 预测的蛋白质结构已经能达到原子水平的准确度。AlphaFold 对人类蛋白质组的准确结构预测, 其得到的数据集涵盖了人类蛋白质组近 60% 氨基酸的结构位置预测, 且预测结果具有可信度。另外DeepMind团队还向公众发了一波福利,AlphaFold的源代码以及预测蛋白结构信息库将免费向公众开放。

新知达人, 全网超火的AlphaFold,你知道吗?

图3 AlphaFold预测蛋白质结构(图片来自于《自然》杂志)

二.AlphaFold对结构领域及其下游领域,是促进而非替代作用

AlphaFold的成果出来后,大家都开玩笑说做结构的要失业了。其实严格来讲,AlphaFold所做的事和大家想象的可能有一定偏差。它的目标是fold,也就是根据核酸序列预测肽链的折叠方式,做完了这一步它的任务就完成了。但要清楚蛋白质的结构和生理功能,甚至提供相关靶点进行药物设计等等可不止于此,那涉及更繁杂,更细节,甚至需要借助经验的深入研究。所以我的个人观点是,AlphaFold对结构领域及其下游领域,是促进而非替代作用。生物学是对生命领域的探索发掘,很高兴AI的加入,助力人类在生命这个永恒的命题里奔跑得更快更稳。

——清华大学生命科学学院 2020级直博生 曾乐嘉

三.AlphaFold很大的一个意义就是体现AI向善

AlphaFold可能是目前生物学和AI结合的巅峰之作之一。它可以通过氨基酸序列直接推断蛋白质的三维结构,为我们对于人类蛋白质组的理解填补了一定空白。它借助了来自CV,NLP等领域的最新思想,体现了何谓AI向善。

希望 有更多如AlphaFold的成果可以更好的帮助人类理解生命的组成,在成果开源的基础上,为新药研发等科技前沿发展做出贡献。

——清华大学地学系2020级直博生 孙韬淳

五.蛋白质结构的解析过程也是在逐渐的工具化,现在AlphaFold的出现,像是3.0版的工具。

人工智能技术发展到这一程度并不意外,它已经对各个学科产生了深度渗透。在蛋白质结构预测方面,DeepMind 已经做了许多预先研究,并且经过了多轮的技术迭代。单就这一成果本身来说,如果假以时日,得以验证并普及,我想它将在很大程度上把传统结构生物学的部分研究人员解放出来,对于诸如要药物开发等工作也有着重要的帮助。从更广义的角度上说,这是一个采用非参数方法预测复杂系统的典型成功案例。复杂系统在各个领域里普遍存在,蛋白质结构是生物学中的代表,在其他学科中,也存在如湍流模拟、地震预测等复杂系统的仿真工作,我相信如果有足够强大的科研或市场需求,这些困难的问题也会在从AI中获得帮助。

——清华大学工程物理系2017级直博生 任赞

五.蛋白质结构的解析过程也是在逐渐的工具化,现在AlphaFold的出现,像是3.0版的工具。

上周五晚上我边操作电镜边刷朋友圈,好多朋友都转发这则消息,戏称要失业了。我从最开始选择来清华读研,就考虑的结构生物学,因为“结构决定功能”,我很喜欢这样子的思考逻辑,那么我们在进行生物研究的过程中,蛋白质的结构可以提供很多信息。这是我认为好的生物学问题研究的第一步,就像western blot对于生物学的重要性,蛋白质结构也是重要的。同时WB发展到现在已经十分工具化,我认为蛋白质结构的解析过程也是在逐渐的工具化,随着技术的发展,从以前的蛋白质晶体学到现在的冷冻电镜,都是让我们可以更好的知晓蛋白质的结构。现在AlphaFold的出现,像是3.0版的工具,都是为了更好的服务生命科学的问题研究。我本身没有计算机背景,但是对AI技术对生物学研究方式的革新很感兴趣。生命体有太多未知的事情,而这样的技术革新可以很好的促进学科的发展。

——清华大学生命科学学院2018级直博生 段劲松

六.真正的看点,在于pLDDT得分90分以上的情况下,预测的蛋白质结构和实际的差异,是否在人类实验观测的误差范围内。

近日,DeepMind在nature上发表了一篇accelerated article preview,预测了98.5%的人类蛋白质全链结构。论文自创新裁,提出了一种名为pLDDT的度量,并表示此度量在实际数据集上表现良好,可以作为结构预测效果的估算,并根据此度量的值rescale了0-100的得分,并定义90分以上为预测的比较精准,并发现35.7%的蛋白质获得了90分以上的pLDDT分数,此比例是人类实验观测的结构数量的两倍。我认为,pLDDT是一个相对分数,所以按照定义,总会有大约35%的蛋白质落在90分以上,此比例总会是人类实验观测的结构数量的两倍。而真正的看点,在于pLDDT得分90分以上的情况下,预测的蛋白质结构和实际的差异,是否在人类实验观测的误差范围内。目前,对于这个最关键的信息,我们还是所知甚少。另外,根据AlphaFold算法的流程,算法本身会基于pLDDT进行优化,因此可能会有overfit的现象,即算法得到pLDDT为90以上的情况下,由于算法是以最大化pLDDT为目标的,实际准确率可能不如实际中以非pLDDT为目标的方法得到相同pLDDT 的预测。尽管如此,Alphafold还是很可能成为DeepMind又一个里程碑-式的突破。

——清华大学计算机系2018级直博生 邹旭

七.技术无疑是一个超级大的突破,但也没有特别意外。它现在预测的是单个蛋白质的结构,而我们的蛋白质发挥功能往往是复合体,大的复合体,这时候它们的组装会是怎样的预测也是一个需要进一步发展。

我认为这个技术无疑是一个超级大的突破,但也没有特别意外。因为现在机器学习和深度学习在各种各样的领域都发挥出耀眼的光芒,包括我们结构生物学计算领域,给了我们很多惊喜。AlphaFold的出现,我最直观的感受是,以后根据电子密度图搭建模型会简单很多。因为我们一开始假如只知道序列和电子密度图,要来搭建蛋白质的结构还是存在一定困难的。我们之前一般都会用同源序列进行预测,然后去搭建相应密度图的模型,或者是通过电子密度图中的一些大的残基,慢慢往前往后根据序列进行推测,这都会存在一些困难。现在有了AlphaFold这个就会简单方便很多。但是他仍然具有一定的局限性,可能也是将来要突破的,它现在预测的是单个蛋白质的结构,而我们的蛋白质发挥功能往往是复合体,大的复合体,这时候它们的组装会是怎样的预测也是一个需要进一步发展。另外蛋白质发挥功能是一个动态变化的过程,这与我们的分子动力学模拟息息相关,当AlphaFold进一步提升,可以用一种机器学习的方法去模拟蛋白质动态变化的过程的时候也会是一件超级惊喜的事情。

——清华大学生命科学学院2018级直博生 陈帅嘉彬

八. 前景展望

基于氨基酸序列进行蛋白质三级结构预测向来是生命科学领域的重要议题,其间,众多学术及工业界的探索者都做出了独特的贡献,而历届CASP比赛也不断见证了他们的智慧与努力。深度学习作为机器学习的重要手段,以其为基础的预测方法开发也有了数十年的历史,然而,仅当近两年, AlphaFold团队通过对算法应用的创新思路,才凭借version1与version2,拥有了近乎完美的预测准确度。其中, 2020年CASP14中的AlphaFold实现了比前一年version1更高的准确性,并基于该算法将构建涵盖近90%编码蛋白质三级结构的预测数据库(AlphaFold DB),覆盖人类及常用模式生物,填补了既往实验手段难以解构的蛋白质的空缺,因而为生命科学及医学等领域的研究者们提供了更全面的参考。

自然,理论计算并不等同真实世界,预测必然需要后期实验科学的严谨验证,但精确的模型若可实现由零到有的进步,则可极大便利诸多以蛋白质模型为基础的领域中实验假说的提出与设计验证;如药物设计、蛋白质动力学、大分子复合物及复杂生物系统等。同时,AlphaFold的成就并不意味着结构生物学的大厦即将建成,抑或机器在科学领域对人类的战胜,而更应被视作一次人工智能工具化的完美体现,即,通过深度学习算力的机械力量最大程度解决人类的基础问题,从而便于人类科学家将其关注点更深一步:如,蛋白质无功能区的三维结构何如;蛋白质在真实生理条件下(如在修饰状态,与配体、药物等作用下,或不同物理环境中)结构的动态变化与其相应的功能;蛋白质突变对其动态结构及功能的影响等。上述问题是目前仅为特定氨基酸序列提供唯一结构解的AlphaFold尚未解决的,或成为其未来version的攻克目标,亦或成为实验科学领域进一步的探索方向。

新知达人, 全网超火的AlphaFold,你知道吗?

图4 DeepMind(图片来源于网络)

AlphaFold的成果是人类历史上的光环,是应用科学的重要突破,同时亦与基础科学和产业界互相促进,相辅相成。其开源数据极大便利了方法的普及应用,其方法上的创新为科学同侪提供了宝贵的参考,同时DeepMind团队在疫情期间互助协作的经历也同样鼓舞人心。科学无国界,文明共同体,相信人类与机器的智慧将不断推动学界与产业的发展,为世人带来更多的惊喜与突破。

更多“AlphaFold”相关内容

更多“AlphaFold”相关内容

新知精选

更多新知精选