特稿|AI小样本训练,16秒精准预测蛋白质结构:自起炉灶有深意( 三 )


AlphaFold2的成功是蛋白质结构预测方向的重大突破 , 而围绕蛋白质结构功能问题且能够达到实际落地应用准确度要求的AI算法的开发才刚刚开始 , 没有训练模型经验或没有具备能够训练出AlphaFold2结果的能力 , 是无法把该技术推进到解决更深层次的问题的 。
“整个核心技术还是把控在人家自己手里 , 今天人家给你东西可以用 , 至于怎么来的你不知道 。”薛贵荣表示 。
比如DeepMind团队10月份发布的预测蛋白质复合体结构的AlphaFold-Multimer就是在AlphaFold2基础上进行微小调整后 , 将蛋白质与蛋白质之间的关系预测出来 。这种更深入的研究就必须要有自己搭建底层算法的能力 , 才能真正应用在生物学领域 。
“就像做飞机一样 , 从莱特兄弟发明第一架飞机能飞起来 , 如果中间过程不参与 , 你永远还是停留在当时那个结构 。但今天大飞机在天上飞起来 , 能承载那么多人 , 其中有非常多的研究 , 很多创新也从中不断出现 。”
薛贵荣说 , 今天DeepMind的AlphaFold2就是“莱特兄弟的飞机” , 其中的核心技术一定要掌握 , 才能和其他团队在同一赛道比赛 。“AlphaFold不断往前跑 , 我们也在不断追赶他们 。”
AlphaFold2“反哺”AI
“我们很长时间一直也是在70分左右徘徊 , 也徘徊了很长时间 , 最近跳跃到80多分 。”在两年半的研发时间里 , TRFold经历了几十个版本的迭代 , 当前的训练架构是从今年初就开始设计 , 接着处理数据、训练数据 , 不停迭代 , 耗费10个月时间 , 目前取得82.7分 。
而让团队头痛的挑战就是算力和内存 , 这决定了模型的大小 。薛贵荣介绍 , “小模型的记忆力是有限的 , 模型越大记忆能力就越强 , 但模型越大对应的算力和内存需求就越大 。”在训练资源有限的情况下 , 团队从数据和网络设计上做出改进 , 在算力巨大差距的情况下实现了相对较好的结果 。
“在后续构建蛋白质相互作用网络的过程中 , 涉及一个蛋白质和另一个蛋白质的相互作用 , 以及多个蛋白质之间的相互作用 , 计算量呈指数级增长 。因此 , TRFold以较小算力需求快速预测蛋白质结构对后续开展深入研究具有深远意义 。”天壤XLab团队负责人苗洪江表示 。
数据是机器学习的燃料 , 但相比以往图像识别机器学习算法需要依靠百万张图片数据来训练模型和系统 , 用实验方法已经解析的蛋白质结构只有十几万个 。机器学习大牛吴恩达认为 , 人工智能落地的挑战之一是小数据的问题 , 如何使机器学习即使面对小数据也能工作 。
而这也是困扰薛贵荣的问题 。他和苗洪江第一天见面聊就在探讨 , 有结构的蛋白质数据够不够 , 能不能训练出一个满足效果的模型 , 还是说再等冷冻电镜10年 , 等50万数据出来就够了 。“那时候我们也很担心 , 我们就怕这个领域做下去真的是10年以后的事了 。”
但AlphaFold2证明 , 通过算法和模型设计、蒸馏数据等手段 , 是可以取得好结果的 。相比AlphaFold2 , TRFold的算法模型仅采用少量的真实数据训练 , 即从多个宏蛋白质组序列库中寻找出蕴含更精准共进化信息的多序列排列 , 使模型在训练过程中能够获得对真实共进化信息更好的识别能力 , 从而取得对氨基酸残基距离和坐标更准确的预测结果 。团队有望在近期加入蒸馏数据增强工作 , 进一步提高模型的预测和泛化能力 。
回过头来看 , 薛贵荣认为 , 除了为结构生物学研究打开了大门 , AlphaFold2另一个贡献是其训练方法可以回馈AI , 去做更好的AI 。
“AI三个步骤 , 数据标注准备好 , 算法设计好 , 目标要想好 , 有了这三件事再加上算力支持才能做AI 。”但实际上 , 数据是永远不够的 , 算力也是永远不够的 , 这种情况下算法的创新就显得更加重要了 。