特稿|AI小样本训练,16秒精准预测蛋白质结构:自起炉灶有深意

2016年 , DeepMind人工智能机器人AlphaGo以4:1的总比分取胜围棋世界冠军韩国棋手李世石 。这一年 , 一家刚刚成立的上海AI企业开始参考AlphaGo开发一套AI围棋程序 , 随后击败世界围棋冠军朴廷桓 。2020年 , DeepMind人工智能程序AlphaFold2快速精准预测蛋白质结构 , 准确度媲美冷冻电镜等实验技术 。一年后 , 这家本土AI企业再次推出国产自研蛋白质结构预测平台TRFold 。
近日 , 上海天壤智能科技有限公司XLab发布蛋白质结构预测平台TRFold , 其最新版本的预测精度接近AlphaFold2 , 并突破AlphaFold2需要超大算力的瓶颈 , 采取权重共享的方式节约算力 , 预测大多数蛋白质链所需时间不超过16秒 。
在AlphaFold2已开源的情况下为何还要做人工智能蛋白质结构测序?再做一遍的挑战在哪?数据、算力不足情况下如何训练出一个好模型?接下来又会用TRFold做什么?
天壤创始人薛贵荣在接受澎湃新闻(www.thepaper.cn)专访时表示 , AlphaFold2为结构生物学研究打开了大门 , 它就像“莱特兄弟的飞机” , 其中的核心技术一定要自己掌握 。如果不参与其中的技术演变 , 只能停留在最初的“飞机”结构 。
研发TRFold也让薛贵荣意识到 , AlphaFold2另一个贡献是其训练方法可以回馈AI , 去做更好的AI 。
薛贵荣表示 , 如果每个模型都需要标注10000个数据才能训练 , 对AI是一场灾难 。实际上 , 数据是永远不够的 , 算力也是永远不够的 , 这种情况下算法的创新就显得更加重要了 , 比如能否用10张图片跑出一个好模型 。他认为 , 小样本下的机器学习对AI来说是个大挑战 , 而AI的工业化生产并不需要那么多数据 , 这才是正道 。
未来 , 团队也将继续深入模拟蛋白质与蛋白质之间的相互作用 , 基于相互作用可构建大规模相互作用网络图、靶点发现、突变蛋白质结构模拟、抗体模拟等 。

特稿|AI小样本训练,16秒精准预测蛋白质结构:自起炉灶有深意
文章图片

文章图片

TRFold 基于 CASP14 蛋白质测试集的评估数据 。绿色:真实结构 , 蓝色:预测结构 。单张GPU下16秒精准预测
蛋白质是生命的物质基础 , 其三维结构直接决定了它的功能 , 一旦三维结构被破坏 , 蛋白质功能随之丧失或改变 , 许多疾病就是由体内重要的蛋白质结构异常所致 。
每个蛋白质的氨基酸链扭曲、折叠、缠绕成复杂的结构 , 想要破解这种结构通常需要花很长时间 , 甚至难以完成 。截至目前 , 约有18万个蛋白质的结构已经用实验方法得到了解析 , 但这在已经测序的数十亿计的蛋白质中只占了很小一部分 。
在蛋白质结构解析的几十年历史中 , X射线晶体学、核磁共振波谱学(NMR)、冷冻电镜(Cryo-SEM)技术纷纷发挥了巨大贡献 。但这些传统方法往往依赖大量试错和昂贵设备 , 每种结构的研究都要花数年时间 。
直到AI的加入 , 让单个蛋白质折叠预测问题得到基本解决 , 加速结构生物学的发展 。2020年 , DeepMind人工智能程序AlphaFold2在蛋白质结构预测竞赛CASP14中首次利用人工智能技术快速精准预测蛋白质结构 , 准确度达到原子级别 , 可与冷冻电镜等实验技术相媲美 。
而国内的学术界和产业界也在蛋白质结构预测领域紧追国际步伐 。除了中科院的Falcon、腾讯的TFold、深势科技的Uni-Fold , 天壤自研蛋白质结构预测平台TRFold基于CASP14的蛋白质测试集进行企业内测 , 取得82.7分(TM-Score , 评估蛋白质结构拓扑相似性的指标) , 超过华盛顿大学生物学家David Baker团队81.3分的成绩 , 仅次于AlphaFold2的91.1分 。