特稿|AI小样本训练,16秒精准预测蛋白质结构:自起炉灶有深意( 二 )


TRFold采取权重共享的方式节约算力 , 算力消耗约AlphaFold2的1/32 。在训练时 , AlphaFold2使用了128个TPUv3核心(约等于256张GPU) , TRFold仅使用了8张 Nvidia RTX 3090 GPU , 以极小算力取得接近AlphaFold2的成绩 。
TRFold采用5000万参数循环多轨注意力网络 , 同时支持氨基酸残基间的距离预测和蛋白质全链结构预测 , 400个氨基酸的蛋白链使用单张Nvidia RTX 3090 GPU的预测时间只需16秒 , 而AlphaFold2预测约同样数量的氨基酸蛋白链则需要70多秒 。
在CASP14比赛期间 , CASP官方曾发起一次针对新型冠状病毒肺炎的蛋白质结构预测 , 天壤基于TRFold提交的模型(nsp6-D2)预测结果还被CASP选为六个“最具可信度模型”之一 。
传统意义上 , 单个蛋白质模型的预测分数达到90分以上就与实验室的预测结果差别不大 , 薛贵荣表示 , TRFold将继续迭代 , 单蛋白的结构模拟只是开始 , 未来天壤计划模拟蛋白质与其复合物的相互作用 , 包括小分子、多肽、其他蛋白质等 。
他表示 , 目前明确的研究方向是继续深入模拟蛋白质与蛋白质之间的相互作用 。基于相互作用可构建大规模相互作用网络图 , 以及靶点发现、突变蛋白质结构模拟、抗体模拟等 。
“蛋白质将来会是一个相互作用网络 , 我们获得这个作用网络以后就可以进行深入分析 。”薛贵荣说 , 如果将来每个人的蛋白质结构和作用网络能全部测出 , 就可以提前通过蛋白质内部结构的突变分析 , 预测出未来的健康状况和治疗手段 。
“这里面能做的事情实在太多了 , 我们今天只是海里的水取了一瓢出来看了一下而已 。”而挑战也是不言而喻的 , 多蛋白的相互作用带来的算力消耗更大 , 假设一个亿的蛋白质和另外一个亿的蛋白质交互 , 那是一个亿乘一个亿的计算组合 。“这个组合是爆炸的 , 用什么样的算法、策略来加速 , 这是一个很挑战的事 。”

特稿|AI小样本训练,16秒精准预测蛋白质结构:自起炉灶有深意
文章图片

文章图片

薛贵荣“莱特兄弟的飞机”
2016年 , DeepMind人工智能机器人AlphaGo约战围棋世界冠军韩国棋手李世石 , 以4:1的总比分取胜 。这一年 , 刚刚成立的天壤开始参考AlphaGo开发一套AI围棋程序 。
2018年5月 , 天壤AI围棋执白子对战世界围棋冠军朴廷桓 , 激战三小时后朴廷桓认负 。而这套AI围棋程序最后用在了城市交通信号灯的控制上 , 帮助缓解交通拥堵 。
2019年 , 天壤涉足蛋白质结构预测 。薛贵荣常被问到 , 为何要进入蛋白质预测领域 , 又或是在AlphaFold2已开源的情况下为何还要做蛋白质结构测序 。
“从我们一开始做AI围棋程序时就慢慢认识了AI的威力 。这么多年来天壤一直希望用AI解决有挑战的大问题 , 比如交通 , 然后是生物 。”薛贵荣表示 , 相对于交通这样从宏观层面用算法调度 , 人类对微观世界的认识就更有限了 。
“我们从2019年开始做这件事 , 那时候的蛋白质结构数据和今天其实没什么大的变化 。十来万有结构的蛋白质能不能用算法手段把微观世界未知的蛋白质三维结构刻画出来 , 这其实是一个很挑战的事 。那时候有没有AlphaFold2也不知道 , 更别谈能不能做得出来 。”
但如果蛋白质预测模型能达到实验仪器的精度 , 将是巨大进步 。幸运的是 , 2020年底 , AlphaFold2证明了算法的力量 , 让整个结构生物学界震惊 , 掀开了结构生物学的全新一页 , “以前做一个蛋白质结构预测可能要花一到两年 , 突然一个小时就能解决 。”
蛋白质结构预测问题的解决是生命科学探索的全新起点 , 薛贵荣说 , 这次变革为整个行业带来很大发展机会 , 技术突破将重构原来生物应用层面的许多逻辑 , 比如制药流程、疾病治疗、个性化医疗等 。但事实上 , AlphaFold2的开源代码只是推理代码 , 并没有公开训练代码 。