原标题:AI攒论文指日可待?Transformer生成论文摘要方法已出
选自arXiv
作者:Sandeep Subramanian等
机器之心编译
参与:Panda
写论文是一件「痛并快乐着」的事情。快乐的是可以将自己的研究公之于众,痛苦的是有大段大段的文本内容需要完成。特别是摘要、引言、结论,需要不断重复说明论文的主要研究、观点和贡献。现在,这样的工作可以依赖 AI 完成了。Element AI 的研究者们提出了一种新的模型,使用 Transformer 架构,自动地生成论文的摘要。AI 攒论文的进程又往前走了一步。
在开始正文前,请读者们先读下面一段摘要:
译文:「我们提出了一种通过神经摘要为超过数千词的长文本生成抽象摘要的方法。我们先在生成摘要之前执行一个简单的抽取步骤,然后再将其用于在相关信息上调整 transformer 语言模型,之后将其用于生成摘要。我们表明这个抽取步骤能显著提升摘要结果。我们还表明这个方法能得到比之前的使用复制机制的方法更抽象的摘要,同时还能得到更高的 rouge 分数。」
读起来怎么样?事实上,以上你看到的摘要内容都不是人类完成的,它是由论文中的机器学习模型写出来的。这是来自 Element AI 的研究者最新公布的研究成果,他们使用了一种类似 GPT 的方法生成了相关研究论文的摘要。
文本摘要是 NLP 中的常见任务了。文档摘要如果能做到很好,可以极大程度减轻文字工作者的工作量,快速提炼文本核心内容,加速文本信息的提取、阅读和生产效率。如果能够将相关算法应用在论文写作上,是不是摘要、引言、相关工作、结论部分都可以省很多功夫了?
但是,正是因为现有的相关算法不够成熟,能够实际应用在生产中的文档摘要算法不多,而且现有的算法普遍只能生成短的、描述事实的文本(在一些新闻平台有所应用)。要将带有逻辑结构的长文本进行抽取和摘要化处理,这样的算法并不常见。
现在,这篇介绍论文摘要抽取生成的论文,也许会给这个 NLP 中的经典任务带来新的解决思路。
论文地址:https://arxiv.org/abs/1909.03186
Transformer 怎样生成论文摘要
语言模型的训练目标是使用某个大型文本语料库来学习估计任意的词或字符序列的联合概率。它们已经在多种不同的语言任务上取得了出色的表现。近期 Radford 等人提出的 GPT-2 表明,如果使用较大的感受野并在大量数据上训练 transformer,那么得到的语言模型能够学习到文本中的长程依赖关系。
如果有人想为长文档生成连贯的、高质量的摘要,那么这样的类 GPT 架构具备很多所需的性质。它们的结果还表明,无条件语言模型可以隐式地学会执行摘要总结或机器翻译,这是其在数据上训练得到的结果。如果将这个数据按序列格式化为文档的不同方面(引言、正文、摘要),那么就可以让模型学习生成其中的一个方面。比如,通过在测试时提供相似格式的数据,可让模型学会解决摘要任务;即语言模型可以基于文档的引言和之后更长的正文生成一个摘要。
具体而言,论文的研究者使用了单个类 GPT 的 transformer 语言模型,并在文档及其摘要上进行训练。在推理阶段,语言会基于输入文档执行生成任务(见图 1)。研究者将这个任务划分为了两个步骤:抽取和摘要。为了处理超过几千词的超长文档,首先先使用两个不同的分层式文档模型执行句子抽取;其中一个模型基于指针网络(pointer network),这类似于 Chen and Bansal 2018 提出的方法一种变体;另一个模型则基于句子分类器。这个抽取步骤能够抽取出文档中的重要句子,然后这些句子可用于更好地在相关信息上调节 transformer 语言模型,然后该模型可以执行摘要生成任务。
模型框架是什么样的
他们提出的整体模型包含两个不同且可独立训练的组件。一是分层式文档表征模型,它可以指向或分类文档中的句子,从而得到一个抽取式的摘要。二是 transformer 语言模型,它可基于抽取出的句子以及文档的一部分或整体来生成摘要。
图 1:用提出的模型来为科研论文生成摘要
抽取模型
这是一种分层式文档表征模型,它可以指向或分类文档中的句子,从而得到一个抽取式的摘要。
1. 分层式序列到序列句子指针
这个抽取模型类似于 Chen and Bansal 在 2018 年开发的句子指针架构,主要的差异是编码器的选择。这里的模型使用的是分层式双向 LSTM 编码器,且使用了词级和句子级的 LSTM;而 Chen and Bansal 使用的是卷积式词级编码器,可以实现更快的训练和推理。但这两者使用的解码器是一样的,都是 LSTM。
因此,这个抽取器采用了编码器-解码器架构。其中编码器采用了分层结构,结合了 token 级与句子级的 RNN。首先,这个「句子编码器」或 token 级 RNN 是一个双向 LSTM,用于编码每个句子。两个方向的最后一层的最后隐藏状态产生句子嵌入。句子级 LSTM 或「文档编码器」则是另一个双向 LSTM,可将这个句子嵌入的序列编码成文档表征。
解码器则是一个自回归 LSTM,它的输入是之前抽取出的句子的句子级 LSTM 隐藏状态。基于这个输入,它可以预测下一个要抽取的句子。这个解码器的输出是根据该解码器在文档表征上的隐藏状态,使用一种注意机制计算出来的。这里使用了来自 (Luong, Pham, and Manning 2015) 的点积注意方法。根据 (Luong, Pham, and Manning 2015) 的输入馈送方法,这种注意感知型隐藏状态会在下一个时间步骤连接到输入。
将注意权重用作在文档句子上的输出概率分布,并据此选择下一个要抽取的句子。这里研究者采用了一种惯例来指示抽取结束,即相同的索引连续出现两次。这个模型的训练目标是最小化每个解码器时间步骤选取正确的句子的交叉熵。
2. 句子分类器
类似于指针网络,研究者使用了一个分层式 LSTM 来编码文档以及得到句子表征的序列。这个模型的训练目标是最小化与黄金标准抽取摘要的句子的二元交叉熵损失。
3. 模型细节
这个模型使用了大小为 300 的词嵌入。token 级 LSTM(句子编码器)、句子级 LSTM)文档编码器)和解码器各自都有 2 个包含 512 个单元的层,并且在每个中间层的输出处都应用了 0.5 的 dropout。训练使用了 Adam,学习率为 0.001,权重衰减为 10^-5,批大小为 32。研究者每 200 次更新对模型进行一次评估,patience 值为 50。在推理阶段,使用波束搜索进行解码,指针模型的波束大小为 4,并从句子分类器选取 k 个最有可能的句子,其中 k 是训练数据集中摘要的平均句数。
transformer 语言模型(TLM)
这里仅使用了单个从头开始训练的 transformer 语言模型,并使用了「适当」格式化的数据。
这个 transformer 语言模型有 2.2 亿个参数,具有 20 层,768 维嵌入,3072 维位置 MLP 和 12 个注意头。这与 Vaswani et al. 2017 的 transformer 语言模型一样,唯一的不同之处是这里不会在初始化时扩展权重。这个语言模型的训练在单个英伟达 DGX-2 的 16 个 V100 GPU 上用去了 5 天时间。对于前 40 000 次更新,研究者使用了一个线性上升的学习率计划,直到最大学习率 2.5×e^−4;之后的 200 000 个步骤则使用 Adam 优化器按余弦退火计划降至 0。训练采用了混合精度,批大小为 256 个序列,每个序列 1024 个 token。
有时候我们要处理非常长的文档,这些文档可能没法放入 transformer 语言模型的单个 token 窗口中,比如一篇科研论文。为此,研究者使用了引言作为代理,因为其中包含足够用于生成摘要或总结的信息;论文的其余部分则像领域语言模型训练数据那样使用。
为了实现科研论文的摘要,研究者将 arXiv 和 PubMed 数据集组织成了以下形式:1)论文引言;2)句子指针模型抽取出的句子;3)摘要;4)论文其余内容。在其它数据集上,论文引言会是整个文档,不会有论文的其它部分。
研究者使用了一个特殊 token 来标示摘要的起点,并在测试时间将其用于指示模型开始执行生成摘要的任务。文章的其余部分也会提供给该语言模型,以用作补充的域内训练数据。整个数据集被分割为了互不重叠的样本,每个样本 1024 个 token。研究者在推理时使用了「前 k 个(topk)」采样方法,其中 k=30,softmax 温度为 0.7。
结果与分析
数据集
研究者实验了四个不同的大规模长文本摘要数据集:arXiv、PubMed(Cohan et al. 2018)、 bigPatent(Sharma, Li, and Wang 2019)、Newsroom(Grusky, Naaman, and Artzi 2018)。表 1 给出了这些数据集的统计情况。
表 1:本研究中所使用的数据集的统计情况。各列依次为:数据集名称、文档-摘要对数量、文档词数与摘要词数的比、摘要的词数、文档的词数
数据预处理
抽取模型与摘要模型使用的子词单元都是通过字节对编码(byte pair encoding)(Sennrich, Haddow, and Birch 2015)计算得到的,使用了 40 000 个 replacement。为了解决句子指针网络的内存问题,每篇文章仅保留 300 个句子,每个句子保留 35 个 token。
评估
研究者使用的评估指标是全长度 F-1 ROUGE 分数(Lin 2004),为此研究中复用了(Co- han et al. 2018)的代码。本研究报告的所有 ROUGE 数值都有 95% 的置信区间,偏差最多为 0.24。
结果
表 2:在 arXiv 数据集上的摘要结果。之前的研究结果(Previous Work)来自(Cohan et al. 2018)。下面几行是简单的基线前 10 名抽取器以及指针和分类器模型。新提出的 transformer 语言模型要么只基于引言(I),要么还有抽取的句子(E),这些抽取的句子来自基本真值(G)或模型(M)抽取。
表 3:定性结果——NewsRoom 数据集的新闻文章以及新提出的模型生成的摘要
本文为机器之心编译,转载请联系本公众号获得授权。游戏网
责任编辑:
相关下载 |
原标题:Travis Scott 能拯救它吗? Travis Scott 现有联名鞋款中,没有一双市场价不「爆」的,这块金字招牌足以冲击 2019 年度 Sneaker 榜单。Air Max 详情>>
原标题:颜值不输Travis Scott! Air Force 1“No Cover”新配色曝光! 就在今天上午由我们为大家报道了有关 Travis Scott x Air Force 1 的官方发售详情>>
原标题:简直是Travis Scott联乘同款!Air Jordan 4又曝新配色?! 因上半年 Travis Scott x Air Jordan 1 “倒钩”的正式发售,赢得了海内外人士的高度赞详情>>
原标题:Travis Scott x Air Jordan 6联乘新配色市售确定?!之前陪跑的有戏啦! 就在昨日有关 Travis Scott x Air Jordan 6 全新联乘军绿配色终于正式详情>>
原标题:Travis Scott 与 Jordan Brand联名服饰发布,成套搭配绝对帅! Travis Scott 与 Jordan Brand 的合作在今年几乎占据了绝大部分的球鞋话题,从那详情>>
原标题:潮闻快食 | Travis Scott x Jordan Brand 服饰系列释出;Supreme x Vans 发售在即! Travis Scott x Jordan Brand 服饰系列释出万众瞩目的 详情>>
原标题:《三位一体4:梦魇王子》《三位一体终极合集》正式发售 今天(10月8日)经典2.5D视角动作冒险新作《三位一体4:梦魇王子 Trine 4: The Nightmare P详情>>
原标题:曝光! “渣男”Travis Scott的AJ6下周发售,分手后货量大减... 最近,Travis Scott 与 Kylie Jenner 这对金童玉女分手的事情无疑成为欧详情>>
原标题:Nike在玩啥?Travis Scott x Air Force 1联乘发售也推迟 就在刚刚由我们为大家报道了有关 Virgil Abloh x Nike 新联乘系列发售推迟的相详情>>
《炽热鸟喙》中会出现很多的道具,陷阱就是其中的一个,陷阱其实是个负面道具,很多玩家都讨厌它,具体的效果请看小编为大家带来的《炽热鸟喙》Trap陷阱效果介绍,希望对大家有所帮详情>>
美国知名名媛Kylie Jenner被爆和Travis Scott已经分手,两人在2017年相恋,在2018年的时候有了可爱的女儿,在上周比伯婚礼上面不见两人同框。 Kylie Jen详情>>
原标题:Unity 使用技巧集合 Tips & Tricks #1 说明 Unity 使用技巧集合会整理和收集 Unity 开发相关的技巧和经验。 本次开发技巧的提供者详情>>
Trailmakers成就有哪些?游戏中共有18个成就,为了方便大家查阅,今天小编给大家带来Trailmakers全成就一览,需要的小伙伴快进来看一下。 Trailmakers全成就一览(点击图片详情>>
原标题:就等发售了!Travis Scott x Air Force 1联乘实物上脚帅炸! 就在刚不久我们才为大家展示了有关 Travis Scott x Air Force 1 全新联乘策划的详情>>
原标题:你从没见过的“编号版”!Travis Scott x Air Jordan 6亲友限定版本曝光! 此前已 “二连跳票” 的 Travis Scott x Air Jordan 6 终于将在 10详情>>
原标题:随心打造急速狂飙!《Trailmakers》Steam限时优惠 Flashbulb Games工作室的游戏新作《Trailmakers》于9月18日登陆STEAM发售,限时优惠34%详情>>
Tricked vs Virtus.Pro 2-1(Mirage 12-16;Nuke 16-10;Train 16-11) 图一来到VP选择的Mirage,先做进攻方的VP在手枪局备上两套道具但被Trick详情>>
原标题:Tricked击败VP捧杯V4 未来电竞节 导读:Tricked击败VP捧杯V4 未来电竞节。 在今天凌晨进行的V4 未来电竞节决赛中,备受看好的VP战队在决赛中1-详情>>
《碧蓝航线》在9月21日公布了和Yamaha的第二件联动换装——克利夫兰“Road·Traveler”。和之前公布的埃塞克斯皮肤一样将拥有专属机车。接下来就让我们详情>>
原标题:沙盒冒险游戏《Trailmakers》发售 交通工具随心造 Flashbulb旗下沙盒冒险游戏《Trailmakers》现已正式发售,官方同时放出了发售预告片,详情>>
原标题:能同时征服侃爷和Travis Scott的不止卡戴珊家族,还有它! 今天Rookie君和大家来说一说神秘的CPFM,为什么说它神秘呢?因为这个品牌的主理人一直详情>>
原标题:Interspeech 2019 | 阿里达摩院语音实验室:联合CTC和Transformer的自动中文纠错模型 机器之心专栏 论文作者:Shiliang Zhang、Lei Ming、Zhij详情>>
日本万代南梦宫娱乐预定于2019 年冬天在BXD 网页平台「enza」与iOS/Android 手机平台推出,以人气动漫《火影忍者》与其后续《博人传》为题材的《 Naruto×详情>>
_contentraw"> 《BookofTravels》被称为TMORPG(TinyMultiplayerOnline),即只加入微弱的社交元素,听起来有点像Journey。设计师称这个游戏是一场宁静的冒险,漂泊在童话世界,不详情>>
神奇的预言是神话,科技的预言却是事实;大家好,我是可爱的晚风。除了本周在柏林IFA贸易展上宣布以Acer Predator Triton 300 形式出售的超薄游戏笔记本外,宏基还更新了时尚Predat详情>>
原标题:还有女鞋版本!Travis Scott x AJ6 极有可能下周发售! 反钩 Air Jordan 1 凭借超高的话题性,大有提前预定年度鞋王的趋势。而曝光已久的 Travis详情>>
原标题:还有女鞋版本!Travis Scott x AJ6 极有可能下周发售! 反钩 Air Jordan 1 凭借超高的话题性,大有提前预定年度鞋王的趋势。而曝光已久的 T详情>>
Truckload是一款非常解压的休闲竞速手游。竞速手游打大家都玩过不少,不论是什么类型的竞速手游,有一个特点都是统一的,那就是非常考验玩家的车技,在有限的时间之内你必须尽可能详情>>
《Trinoline》是一款视觉小说类型的RPG剧情游戏,在游戏的故事当中,你将以哥哥Shun的视角体验这段死去的妹妹和拥有同样外表的智能机器人的故事,游戏包含大量分支内容和多种不同详情>>
《轨道火车》是一款上瘾有趣的益智游戏,等待你解决的,除了规划铁路外,更有时刻威胁着列车安全的障碍和干扰列车,一定要注意避开。开动脑筋,操控好火车安全到达终点。丰富的游戏元详情>>
这是一款清新可爱的益智类游戏,春天是播种的季节,小鸡Chuck也开着拖拉机开始播种来了。玩家要尽可能多的种树,但是拖拉机是不能刹车的,千万别被树丛挡住出路!游戏道具丰富,收集足详情>>
«Fir-Trees»isasimplelogicalgamefortwoplayers.Yourtelephonecomesforwardasthesecondpartner.Thegameconsistsofsuccessivefillingofcellsoftheplayingfields.Foryourco详情>>
单人游戏模式!详情>>
ManageyourTribalWarsvillagesmoreefficientonyourmobile!ThisappwillhelpyouusethemobilewebsiteofthepopularbrowsergameTribalWars.Withmanyshortcuts,notificationwarni详情>>