您当前所在位置: > 爆料站 > 有深度

艾伦研究所推AI模型:可对论文观点进行事实核查,文献查重

时间:2020-05-05 20:14:13  来源:  作者:网络

原标题:艾伦研究所推AI模型:可对论文观点进行事实核查,文献查重

对论文中的观点进行事实核查,并进行文献重复检查,对于科研人员来说,相当重要。但要在过往数不尽的论文中进行快速的查验和查重,却不是一项简单的工作。

华盛顿大学和艾伦人工智能研究所的研究人员表示,他们开发出了一种AI系统,称为VeriSci,该系统可以自动对科学观点进行事实核对。这篇名为《Fact or Fiction: Verifying Scientific Claims》的论文5月1日发表在预印本网站Arxiv上。据论文介绍,这套AI系统不仅可以识别支持或反对研究观点的摘要,还可以从摘要中提取证据,为自己的预测提供论证。

对论文中的观点进行事实核查,还有另外一个重要作用,即可以帮助解决科学文献的重复问题。在文献中,发现研究的重复性非常困难。2016年,对1500位科学家进行的民意调查,其中70%的人表示曾尝试进行文献查重,但未能实现。

具体来说,研究人员先建立了一个SciFact语料库。这个语料库里包含:科学主张;支持或驳斥科学主张的摘要;以及合理的注释依据。接着,利用引用技术,这个方法可以对科学文献中的科学主张进行标注,之后研究人员基于BERT模型(双向编码器表征量模型,由谷歌推出,是自然语言处理领域里的模型)来训练系统,从而可以识别句子并标注每个主张。

据介绍,SciFact数据集从5183个摘要语料库中,对1409个科学观点进行了事实核对。这些摘要都是从拥有数百万科学论文的公共数据库(S2ORC)中收集的。为了确保只收录高质量的论文,研究小组剔除了少于10篇引文和部分文本的文章,并从一系列涵盖基础科学、临床医学等领域的备受赞誉的期刊中随机抽样。

同时,为了给SciFact贴上标签,研究人员招募了一组注释员。注释员的工作是从原始文章的上下文中找到引文句子,并能根据引文重写3个观点,需要确保观点符合原文含义。另一边,自然语言处理专家则负责创建关键词反过滤,以获取摘要驳斥关键词的示例。这样做也可以避免引入带有明显偏见的科学观点。注释员用支持、反驳或信息不足来对论文摘要进行标注,并适当地标出支持或反驳的理由。研究人员同时还引入了干扰因素,避免出现同一个引文句子在同一篇文章中不同段落出现的情况。

这个语料库里包含:科学主张;支持或驳斥科学主张的摘要

SciFact数据集建好后,训练VeriSci模型则包括三个部分:抽象检索,即检索与给定观点具有最高相似度的摘要;基本原理选择,它可以确定每个候选摘要的基本原理;标签预测,即进行最终的标签预测。在实验中,研究人员称,大约有一半的(46.5%)概率,系统能够正确识别支持或反驳标签,并提供合理的证据。

为了证明系统的通用性,研究小组围绕新冠病毒的科学论文进行了试验论证。报告称,VeriSci提出的与新冠病毒相关的大多数观点(36个中有23个)被医学生注释者认为是合理的,表明该模型可以成功地检索和分类。

但VeriSci并非完美,因为它常常被上下文所迷糊,无法综合论据,或者是无法将不同来源的信息整合起来进行判断。

“科学事实核查提出了一系列独特的挑战,拓展了神经模型在复杂语言理解和推理方面的局限性。尽管规模很小,但利用SciFact对VeriSci进行训练,比根据维基百科文章和政治新闻构建的事实检查数据集进行训练,性能更好。”研究人员在论文中称: “研究提供了希望,但是我们的发现表明,必须进行额外的工作才能提高端到端事实检查系统的性能。”

(本文来自澎湃新闻,更多原创资讯请下载“澎湃新闻”APP) 游戏网

相关下载

玩家评论

学校可对有欺凌暴力行为学生必要惩戒

原标题:学校可对有欺凌暴力行为学生必要惩戒 河北立法助力学校安全管理 学校可对有欺凌暴力行为学生必要惩戒 近日通过的《河北省学校安全条例》(详情>>

阅读: 6
日期: 2019-10-15
精彩推荐
相关专题