arXiv创立三十周年之际,创始人在Nature发文:arXiv是信息共享的先锋( 二 )


arXiv创立三十周年之际,创始人在Nature发文:arXiv是信息共享的先锋
文章图片

文章图片
3
24小时的AI审查
但是 , arXiv的运作方式是无情的每日周转 ,所以近年来 , 我创建的自动机器学习框架对人工审核进行了补充 , 以标记和保留有潜在问题的提交材料 , 以便进行额外的人工审查 。自动程序不会休假、生病、分心或繁忙 , 并能在几毫秒内全面评估全文内容 , 包括对照整个后台数据库检查每份新提交的文件是否有重复或过多的文字重叠 。现在 , 大部分的内部人力都被用于调解和裁决各种人类和机器人的规模性疏忽 。
4
从健康隐患到救命稻草
尽管早期有人怀疑预印本的分发会与高能物理学以外的领域有关 , 但它是在使用量激增的催化下 , 持续向新领域发展的 。例如 , 2001年对二硼化镁超导体的关注 , 以及后来从2008年开始对镍铁超导体的关注 , 导致相关的实验团体使用arXiv来报告突破性的结果并提出先例 。最近 , 机器学习界在2015年左右大规模地采用了arXiv 。这些研究人员仍然是忠实的用户;到目前为止 , 没有一个采用arXiv进行快速传播的社区后来放弃了使用 。
但是 , 与更广泛的社会中的信息共享问题最相关的预印本使用量的飙升是由COVID-19大流行引发的bioRxiv和medRxiv的增长 。这些预印本服务器在大流行的第一年就容纳了超过10,000篇文章(bioRxiv的数据;medRxiv的数据) , 这种增长很可能成为其他研究领域的一个转折点 。回顾1995年《新英格兰医学杂志》关于预印本的一篇社论 , 它表达了合理的公共卫生关切 , 因为 ""互联网上关于健康问题的许多信息 , 如药物的风险和各种食物对健康的影响 , 都是不确定的来源 "" 。尽管近期似乎加强了对其的关注 , 但我想说 , 迄今为止多种证据表明 , 开放预印本的分发并不是当前问题的根源 , 而且在许多情况下可以帮助缓解这些问题 。
与COVID-19有关的向bioRxiv和medRxiv提交的材料并没有造成重大的公共卫生危害(尽管可以肯定的是这些资源比arXiv受到了更严格的审查 ) 。相反 , 最严重的非法者反而发表在传统的参考文献中 。其中包括一篇颂扬羟氯喹优点的文章(其出版商发布了一封关注信 , 但没有撤回) , 以及其他基于捏造数据的研究 , 这些研究很快被《柳叶刀》和《新英格兰医学杂志》撤回 。也许这些杂志和其他杂志的编辑会因为在出版前看到更多的专家公开评论而受到启发:迄今为止 , 已经有超过120篇经同行评审的COVID-19文章被撤回或撤销 。相比之下 , 一项以预印本形式发布的COVID-19研究 , 高估了先前的感染率 , 并很快被媒体报道 , 专家们很快说明了其统计学上的缺陷 。一份预印本报告了关于药物地塞米松的严格临床研究的结果 , 导致该研究在作为期刊出版物出现之前的半年内被使用 , 可能挽救了许多生命 。而正是这篇预印本对实际的健康危害进行了反击 , 纠正了长期以来假定的(落下的)飞沫和(空中的)气溶胶之间的5微米界限背后的错误观念 , 并表明需要对COVID-19传播的健康预防措施进行更有效的修订 。
5
窥探未来
我并不是说预印本的发行是解决同行评议期刊出版延误和偏见的良方 , 而是说在适当的情况下 , 其利远大于弊 。采访人员在提到预印本服务器上的文章时 , 经常会加上 ""尚未审查 ""的警告语 , 并且通常会咨询专家以核实事实 , 避免误导公众 。尽管并非所有的数字媒体都对COVID-19预印本进行了必要的限定 , 但肯定有可能对 ""正在审查 ""的某些表述进行标准化处理 , 以表达不确定性 。如果我们确实不可避免地要在更多领域公开传播预印本 , 那么所有参与者——研究人员、同行评议的期刊和大众媒体——都需要接受这一趋势 , 并设计各种方法 , 让研究人员更好地了解情况 , 让普通公众少受误导 。