AI角逐生命科学的新风口 中国暂时占住了( 三 )


应该说 , 利用AI解密蛋白质结构之谜的大门才刚刚开启 , 在这个新开启的赛道中 , 中国必须参与其中 。基于此 , 人工智能创业公司天壤在两年前组建了自己的X-Lab团队 , 经过艰苦努力和多次迭代 , 研发出具有自主知识产权的蛋白质折叠预测平台TRFold 。在基于CASP14蛋白质测试集的评估中排名全球第二 , 仅次于AlphaFold2 , 而且在400个氨基酸的蛋白链预测时 , TRFold仅耗时16秒 。这意味着 , 中国在该领域进入了世界第一阵营 。
相对于AF2 , 天壤的TRFold在许多维度实现了创新和优化 , 包括在内存优化方面 , TRFold模型参数量接近5千万 , 为 AF2 的一半 。在训练数据方面 , TRFold的算法模型所用数据量比AF2更少 。在模型表达方面 , AF2采用的是端到端模型 , 而TRFold采用的是分段式结构 。这些创新和优化 , 意味着TRFold所用的算力资源更少、产生结果的速度更快 , 在大规模蛋白与蛋白的相互关系分析上 , 更具有优势 , 而且能够加速应用在不同场景中 。
与此同时 , 包括中科院、腾讯、复旦大学等AI企业、研究机构也加入了这场竞赛 。其中另外一家中国创业公司深势科技推出的蛋白质结构预测工具 Uni-Fold , 克服了 AF2 未开源训练代码、硬件支持单一、模型不可商用等局限性 , 复现AF2 的全规模训练 , 并开源训练代码与推理代码 , 为更多人参与推动领域进一步发展提供了基础 。
期待更多资源、更大范围的协同
利用AI破解蛋白质结构之谜 , 将改变人类对生命的认知 , 有可能重塑生物应用的逻辑 , 包括疾病的认识、靶点的寻找、药物的制造 , 等等 , 并将开启一个广阔和巨大的市场 。英国《自然》杂志有一组数据:新药的研发成本大约是26亿美元 , 耗时约10年 , 成功率不到十分之一 。而AI的加入 , 有望大幅降低成本 , 缩短研发周期 , 目前因为AI应用 , 部分新药研发减少了35%的成本 , 研发周期从5-10年缩短为1-3年 。
AI破解蛋白质结构展示了美好前景 , 但仍然处于发展早期 , 还有许多难题 , 期待AI加速破解 。此前 , 叶盛曾谈及了蛋白质结构的设计 , 蛋白质结构的设计远比蛋白质结构的预测更难 。
目前AF2只是解决了单个蛋白结构的预测问题 , 接下来两个蛋白的相互作用以及一大堆蛋白的相互作用 , 再叠加环境变量 , 是更大的挑战 。薛贵荣表示 , 利用AI加速破解生命的密码 , 需要更多的产业资源协同 。“蛋白质折叠预测是全方位的创新项目 , 需要行业、机构更多方参与协同 , 才能把这个体系做起来 。”薛贵荣表示 。
薛贵荣在谈及TRFold的研发与未来发展时 , 曾提及了算力挑战 , 与Google DeepMind相比 , 天壤没有如此巨大的算力支持 , 所以天壤选择了其他路径 。事实上 , 在中国有许多云计算巨头 , 各地也建立了不少的超算中心、智算中心 , 这些计算资源机构在抗击疫情时 , 许多都拿出了大量的计算资源支持抗疫 , 笔者认为这些算力资源也应该向AI破解生物难题做更多的倾斜 。另外薛贵荣还谈到了数据资源的共享与制药机构的协作问题 。
数据资源也是巨大的挑战之一 。国际金融论坛(IFF)副理事长、香港特别行政区财政司原司长梁锦松几天前在国际金融论坛第18届全球年会上表示 , 近年来 , 包括在新药研究、医疗服务等领域 , 生命科技产业在全球发展加速 。香港有很多世界级的优秀的学者和研究员 , 而且大部分与生物科技有关 , 但是缺乏患者资源 , 要做临床试验比较困难;而广州和深圳有很多大学 , 特别在人工智能和机器人方面处于领先地位 , 加之拥有庞大的患者资源和医疗市场 , 这些对于发展生命科技能产生聚合效应 。