艾伦研究所推AI模型：可对论文观点进行事实核查，文献查重

时间：2020-05-05 20:14:13 来源：作者：网络

原标题：艾伦研究所推AI模型：可对论文观点进行事实核查，文献查重

对论文中的观点进行事实核查，并进行文献重复检查，对于科研人员来说，相当重要。但要在过往数不尽的论文中进行快速的查验和查重，却不是一项简单的工作。

华盛顿大学和艾伦人工智能研究所的研究人员表示，他们开发出了一种AI系统，称为VeriSci，该系统可以自动对科学观点进行事实核对。这篇名为《Fact or Fiction: Verifying Scientific Claims》的论文5月1日发表在预印本网站Arxiv上。据论文介绍，这套AI系统不仅可以识别支持或反对研究观点的摘要，还可以从摘要中提取证据，为自己的预测提供论证。

对论文中的观点进行事实核查，还有另外一个重要作用，即可以帮助解决科学文献的重复问题。在文献中，发现研究的重复性非常困难。2016年，对1500位科学家进行的民意调查，其中70%的人表示曾尝试进行文献查重，但未能实现。

具体来说，研究人员先建立了一个SciFact语料库。这个语料库里包含：科学主张；支持或驳斥科学主张的摘要；以及合理的注释依据。接着，利用引用技术，这个方法可以对科学文献中的科学主张进行标注，之后研究人员基于BERT模型（双向编码器表征量模型，由谷歌推出，是自然语言处理领域里的模型）来训练系统，从而可以识别句子并标注每个主张。

据介绍，SciFact数据集从5183个摘要语料库中，对1409个科学观点进行了事实核对。这些摘要都是从拥有数百万科学论文的公共数据库（S2ORC）中收集的。为了确保只收录高质量的论文，研究小组剔除了少于10篇引文和部分文本的文章，并从一系列涵盖基础科学、临床医学等领域的备受赞誉的期刊中随机抽样。

同时，为了给SciFact贴上标签，研究人员招募了一组注释员。注释员的工作是从原始文章的上下文中找到引文句子，并能根据引文重写3个观点，需要确保观点符合原文含义。另一边，自然语言处理专家则负责创建关键词反过滤，以获取摘要驳斥关键词的示例。这样做也可以避免引入带有明显偏见的科学观点。注释员用支持、反驳或信息不足来对论文摘要进行标注，并适当地标出支持或反驳的理由。研究人员同时还引入了干扰因素，避免出现同一个引文句子在同一篇文章中不同段落出现的情况。

这个语料库里包含：科学主张；支持或驳斥科学主张的摘要

SciFact数据集建好后，训练VeriSci模型则包括三个部分：抽象检索，即检索与给定观点具有最高相似度的摘要；基本原理选择，它可以确定每个候选摘要的基本原理；标签预测，即进行最终的标签预测。在实验中，研究人员称，大约有一半的（46.5%）概率，系统能够正确识别支持或反驳标签，并提供合理的证据。

为了证明系统的通用性，研究小组围绕新冠病毒的科学论文进行了试验论证。报告称，VeriSci提出的与新冠病毒相关的大多数观点（36个中有23个）被医学生注释者认为是合理的，表明该模型可以成功地检索和分类。

但VeriSci并非完美，因为它常常被上下文所迷糊，无法综合论据，或者是无法将不同来源的信息整合起来进行判断。

“科学事实核查提出了一系列独特的挑战，拓展了神经模型在复杂语言理解和推理方面的局限性。尽管规模很小，但利用SciFact对VeriSci进行训练，比根据维基百科文章和政治新闻构建的事实检查数据集进行训练，性能更好。”研究人员在论文中称： “研究提供了希望，但是我们的发现表明，必须进行额外的工作才能提高端到端事实检查系统的性能。”

(本文来自澎湃新闻，更多原创资讯请下载“澎湃新闻”APP) 游戏网