“如何从5亿只狗里把混入的几只猫挑出来?” 紫台最新研究成果:利用机器学习“大海捞针”

快速射电暴(FRB)是近年来与引力波同样热门的天文学研究对象 , 是一类瞬时亮度超过太阳上亿倍的超常射电爆发 。它们能在比你眨眼快一百倍的时间内 , 完成一次极高的能量释放 。如何高效而精准地捕捉这些神秘的信号?中国科学家引入机器学习算法 , 从5.6亿个疑似信号中找到81个快速射电暴候选体 。
这是中科院紫金山天文台与中国科学技术大学、上海交通大学、贵州师范学院 , 以及澳大利亚联邦科学与工业研究组织、西悉尼大学、西澳大学等开展中澳合作项目的研究成果 , 近期在英国《皇家天文学会月刊》在线发表 。
快速射电暴:来自遥远宇宙的神秘电波
本篇论文的通讯作者、中澳天文联合研究中心ACAMAR博士后张松波告诉采访人员 , 快速射电暴(FRB)是近年来与引力波同样热门的天文学研究对象 。它们能在比你眨眼快一百倍的时间内 , 完成一次极高的能量释放 , 瞬时亮度超过太阳上亿倍 。
这种来自于遥远宇宙的神秘电波 , 究竟来自什么样的天体?这激发了众多天文学家的兴趣 。
张松波说 , 自2007年第一起快速射电暴被发现以来 , 经过十多年研究 , 科学家取得了相当多的观测突破 , 包括发现了可重复的快速射电暴 , 确定大部分快速射电暴是来自银河系外 , 并观测到了第一次银河系内的快速射电暴等 。
“快速射电暴的研究难点就在于‘快速’二字 , 它的持续时间一般从微秒到毫秒量级 , 在一片漆黑的天空当中突然出现又快速消失 , 因此无论是在数据中找到这些信号 , 还是对这些信号进行深入分析 , 都非常困难 。”张松波说 , 随着望远镜技术的发展 , 被探测到的快速射电暴的样本数量也从大大提升 , 目前为止已经有数百例快速射电暴信号被发现 。但是 , 迄今为止 , 快速射电暴的起源和爆发机制依然是未解之谜 。
对快速射电暴进行“人口普查”
【“如何从5亿只狗里把混入的几只猫挑出来?” 紫台最新研究成果:利用机器学习“大海捞针”】采访人员了解到 , 中国科学院紫金山天文台高能时域天文研究团组最近几年开展快速射电暴研究 , 已经完成的主要工作之一是利用帕克斯望远镜的观测数据 , 构建了一个完整的单脉冲数据库 。该数据库内包含了5.6亿个信噪比大于7的单脉冲疑似信号 。
“由于疑似信号中掺杂着大量的噪声和人造信号 。那些比较明亮的真正的快速射电暴 , 因为置信度高 , 得以优先被挑出来 。但剩下的信号 , 按照传统的方法 , 只能由有经验的天文学家用肉眼来识别 。”张松波说 , 这显然是一项不可能完成的任务 , 每天能看三万张图像 , 要看完5.6亿个疑似信号也需要50年无休 。
面对大数据挑战 , 就需要建设一套方法 , 让真正有价值的数据被筛选和记录下来 。这时候 , AI登场了 。
机器识别如何“代替”人眼“大海捞针”?
张松波及其所在的紫金山天文台高能时域天文团组博士研究生杨轩、孙天瑞等人引入机器学习算法 , 训练残差神经网络对所有信号进行图像识别 , 开发出了一套能对所有候选体信号进行统一、高效的筛选机制 , 并将之应用到了基于帕克斯望远镜数据构建的单脉冲数据库中 。
杨轩解释说 , 机器学习中的残差神经网络是人工神经网络的一个变种 , 它模拟最基本的生物神经元 , 将接收到的信号进行分析 , 并判别信号的种类 , 就如同人眼一般 。“而天文学家需要做的 , 就是手动标记一批信号 , 作为机器的教科书 , 教导他们哪些信号是假信号 , 哪些信号是快速射电暴 。一旦教学完成 , 机器就可以代替人眼来对这些信号图片进行识别了 。”