AI角逐生命科学的新风口 中国暂时占住了

每一个产业风口的开启 , 总有一些标志事件 。就像2016年Google DeepMind的AlphaGo与李世石下棋 , 2020年年底Google DeepMind的AlphaFold2参加2020年第14届国际蛋白质结构预测竞赛(CASP14) 。前者昭示了AI第三次浪潮的来临 , 而后者有可能开启生命科技数字化的黄金十年 。

AI角逐生命科学的新风口 中国暂时占住了
文章图片

文章图片

今年7月15日 , 谷歌DeepMind团队与华盛顿大学贝克团队(David Baker)分别开源了AlphaFold2与RoseTTAFold 。当这两种迄今为止创造了前所未有准确度的预测蛋白质结构算法开源 , 预示着用AI破解生命密码的时代 , 拉开大幕 。
而在这场用AI破解蛋白质结构的全球竞赛中 , 中国阵营给出了不错的成绩单 。日前 , 来自中国的人工智能企业天壤宣布 , 其自研的深度学习蛋白质折叠预测平台TRFold在基于CASP14蛋白质测试集的评估中排名全球第二 , 仅次于AlphaFold2 。在400个氨基酸的蛋白链预测时 , TRFold仅耗时16秒 。这是目前国内所有公开蛋白质结构预测模型中取得的最好成绩 , 标志着我国计算生物学领域的表现已经处于世界第一梯队 。
与此同时 , 深势科技也宣布其推出蛋白质结构预测工具 Uni-Fold , 能够复现AlphaFold2 的全规模训练 , 并开源训练代码与推理代码 。相应解决方案已集成至深势科技自主研发的药物设计平台Hermite , 供用户测试使用 。
用AI预测蛋白质结构 , 对于加速生命科技的数字化 , 至关重要 , 在全球生物数字化的竞赛中 , 中国阵营正采用新思路、新路径 , 加速推进 。
生命数字化开启新风口蛋白质结构预测是关键
拼多多创始人黄峥和字节跳动创始人张一鸣宣布退休之时 , 其未来规划中有一个共同选项 , 就是希望投入更多的精力在生命科技的研究与探索上 。事实上 , 其他如百度创始人李彦宏、阿里创始人马云等 , 都将个人的下一个兴趣目标定在了生命科技上 。生物世界的数字化 , 正在成为新风口 。

AI角逐生命科学的新风口 中国暂时占住了
文章图片

文章图片

新晋中国工程院外籍院士张亚勤几天前表示 , 在过去三十年 , 信息产业推动了内容的数字化、企业的数字化 , 而未来的重点是物理世界的数字化和生物世界的数字化 , 下一个十年是AI与生物制药融合的大好时机 。
“一方面我们的身体从大脑、器官 , 到细胞、蛋白质、基因、分子都在数字化 , 另一方面人工智能算法、算力和系统的快速进展让大量数据有了使用的场所 。”张亚勤说 , 以前新药研发需要超过十几年的周期 , 十亿美元的投入 , AI正在改变这种状况 。
每一个产业的发展都有一些关键基石 , 而生物数字化、生命数字化的一个关键是利用数字技术破解蛋白质结构之谜 。
蛋白质为什么关键 , 因为它是生命构成的基本要素 , 用北京航空航天大学大数据精准医疗高精尖创新中心特聘研究员叶盛的话:“人体细胞乃至地球上任何一种生命的细胞 , 都是由蛋白质构成的 。”可以说 , 几乎所有的生物学问题都会牵涉到蛋白质 , 而几乎所有的蛋白质功能问题最终都要通过结构研究去回答 。不同的蛋白质通过折叠构成形态各异的三维结构 , 执行多种多样的生理功能 。
长期以来 , 从氨基酸序列到对应蛋白质三维结构的预测问题被认为是生物学领域最具有挑战性的问题之一 。蛋白质结构研究为什么难 , 因为蛋白质的尺寸为纳米级 , 比人类肉眼的可见光波还要小 , 超越了光学显微镜的观察极限 , 因此要想研究蛋白质的结构 , 必须要采用某种间接的方式 。