从24小时到7分钟!华西医院生物医学大数据中心刷新基因分析“中国速度”

本文转自:成都日报
从24小时到7分钟 , 四川大学华西医院生物医学大数据中心将人类全基因组测序时间从以小时计缩短至以分钟计 , 刷新了基因分析的“中国速度” 。采访人员从华西医院了解到 , 该项研究成果直接加速了基因测序从科研到临床的进程 , 未来将有更多精准的基因数据辅助于医疗诊断及治疗 。
从24小时到7分钟!华西医院生物医学大数据中心刷新基因分析“中国速度”
文章图片

文章图片

据了解 , 基因测序和分析技术现已应用于生育健康、肿瘤个体化诊断和治疗、遗传病、传染病检测、疫苗研发等领域 。生物信息也是“医学+信息”研究领域的主战场之一 , 四川大学华西医院在该研究方向也早有布局 , 率先启动“十万中国罕见病患者全基因组测序计划”项目 。
完成如此庞大的队列研究需要面对各方面的挑战 , 其中一只不可避免的“拦路虎”就是时间 。按照传统技术30X人类全基因组数据分析24小时/例的速度计算 , 该项目投入100台计算机也需要30多年才能完成 。
为此 , 2021年6月 , 华西医院联合华为、赛乐基因组建联合研发团队 , 开展多组学数据加速分析平台系统的开发 。据该项目负责人、华西生物医学大数据中心于浩澎副研究员介绍 , 之所以能实现时间上质的突破 , 根本在于打破计算算力和储存性能的瓶颈 。他将其形象地比喻为吃得快的“大嘴巴”和装得下的“大肚子”:“大嘴巴”实现了大文件的直通读取和小文件的聚合读取 , 数据读取的效率更高 , “大肚子“可以对数据分析的各个作业流程进行融合调度的优化 , I/O流更加顺畅 , 从而实现了“吃得更多、消化更快” 。
研发团队在全基因组数据分析加速上 , 以GATK流程为基础 , 经过不断的流程拆分与重组改写、不断的分布式存储软硬优化打磨 , 最终完成了速度的飞跃 , 实现了30X人类全基因组测序胚系变异分析时间从24小时到7分钟的极限压缩 , 同时保证了分析结果的准确性:和GATK结果高度一致 。
据了解 , 华西医院生物医学大数据中心本着“开放、创新、共享”的宗旨 , 依托四川大学超前部署学科“医学大数据“和四川大学“医学+信息“中心持续推进医工交叉融合研究创新 , 与华为、赛乐的基因加速合作项目与研发成果应用是一个成功案例 。基于大数据与人工智能技术 , 四川大学华西医院将继续深度推进医工融合、联合创新 , 力争构建覆盖全生命周期的健康服务体系 。
【从24小时到7分钟!华西医院生物医学大数据中心刷新基因分析“中国速度”】采访人员 杨甦 图片由四川大学华西医院提供 责任编辑 何齐铁 编辑 刘永豪 校对 王鹃