您当前所在位置: > 爆料站 > 有深度

40种语言、9项推理任务,谷歌发布新的NLP基准测试Xtreme

时间:2020-04-14 16:45:49  来源:  作者:网络

原标题:40种语言、9项推理任务,谷歌发布新的NLP基准测试Xtreme

大数据文摘出品

来源:VB

编译:曹培信、刘俊寰

目前,全球存在着超过6900种语言,这是自然语言处理研究者们的巨大噩梦。因为大多数语言都是数据稀疏的,研究者找不到足够多的数据来单独训练成熟模型。

但幸运的是,许多语言共享大量的基础结构。比如在词汇层面上,语言通常具有源自同一来源的单词,例如,英语中的“desk”和德语中的“Tisch”都来自拉丁语“disus”。同样,许多语言也以相似的方式标记语义角色,例如使用后置位置标记中文和土耳其语的时空关系。

谷歌今天发布了一个自然语言处理系统基准测试Xtreme,其中包括对12种语言家族和40种语言进行的9项推理任务。这家科技巨头的研究人员断言,它能够评估人工智能模型是否能够学习跨语言的知识,这对于越来越多的自然语言应用程序是有用的。

谷歌也在官博上介绍了Xtreme:

https://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html

这一基准测试的目标是促进人工智能多语言学习领域的研究,在这个领域,已经有大量工作研究了是否可以利用数据稀疏的语言结构来训练可靠的机器学习模型。

选择Xtreme作为基准测试是为了最大限度地扩大多样性,扩大现有任务的覆盖面,以及提供训练数据。其中包括一些未被充分研究的语言,例如在印度南部、斯里兰卡和新加坡使用的达罗毗荼语系语言泰米尔语,主要在印度南部使用的泰卢固语和马拉雅拉姆语,以及在非洲使用的尼日尔-刚果语系斯瓦希里语和约鲁巴语。

Xtreme的9项任务涵盖了一系列基本范式,包括句子分类(即将一个句子分配给一个或多个类)和结构化预测(预测实体和词类等对象) ,以及句子检索(对一组记录进行查询匹配)和高效的问答。

Google的Xtreme基准支持的任务

模型要先在跨语言学习的文本上进行预训练后,才能在Xtreme上进行测试。然后,考虑到英语是最有可能具有标记数据的语言,他们必须针对特定任务的英语数据进行微调。Xtreme评估了这些模型的零点跨语言转移性能(zero-shot cross-lingual transfer performance),也就是在其他语言中没有看到任务特定的数据。对于在其他语言中可以使用标记数据的任务,Xtreme还比较了对语言内数据的微调,并通过获得所有任务的零概率得分最终得出一个综合分数。

在Xtreme初步实验中,谷歌的一个研究团队发现,即使是最先进的多语言模型,如BERT、XLM、XLM-r和M4,也都没有达到预期水平。其中,BERT对西班牙语的准确率为86.9/100,日语则只有49.2/100,要转换成非拉丁文字也十分困难,而所有的模型都很难预测到在英语训练数据中没有看到的远方语言的实体,比如,在印度尼西亚语和斯瓦希里语上的准确率分别为58.0和66.6,而在葡萄牙语和法语上的准确率为82.3和80.1。

Google Research高级软件工程师Melvin Johnson和DeepMind科学家Sebastian Ruder在一篇博客文章中写道:“我们发现,尽管模型在大多数现有的英语任务中,表现已接近人类,但在许多其他语言中表现尚不足预期。总的来说,在模型和模拟环境中,英语和其它语言的表现之间仍然存在巨大差距,这也表明,跨语言迁移的研究潜力很大。

Xtreme基准测试的代码和数据已经在GitHub上开源,还有运行各种基线的示例。

GitHub链接:

https://github.com/google-research/xtreme游戏网

相关下载

玩家评论

MacBookAir基准测试显示比上一代快63%,但性能依不及2018年的iPadPro

原标题:MacBook Air基准测试显示比上一代快63%,但性能依不及2018年的iPad Pro 最新苹果MacBook Air伴随着升级的魔术键盘,翻倍的存储空间,以及全新的处详情>>

阅读: 1
日期: 2020-03-24
安兔兔基准测试遭谷歌Play商店下架

原标题:安兔兔基准测试遭谷歌Play商店下架 IT之家3月8日消息 安兔兔基准测试遭谷歌Play商店下架,这可能是更大规模打击猎豹移动应用中的一部分。 详情>>

阅读: 2
日期: 2020-03-08
LPR和基准利率那个好呢?

都好,分情况而定,建议LPR详情>>

阅读: 6
日期: 2020-03-03
Bluepoint的PS5新作旨在奠定次世代游戏硬件的视觉基准

曾推出《旺达与巨像》《战神合集》的Bluepoint Games目前正为PS5开发大型游戏,他们最近更新了工作室的官网,并写道:“我们新项目的规模是工作室史上之详情>>

阅读: 14
日期: 2020-01-27
Bluepoint的PS5新作 旨在奠定次世代游戏硬件的视觉基准

_contentraw">曾推出《旺达与巨像》《战神合集》的BluepointGames目前正为PS5开发大型游戏,他们最近更新了工作室的官网,并写道:“我们新项目的规模是工作室史上之最,旨在奠定次详情>>

阅读: 4
日期: 2020-01-27
北京市发布2019年企业工资指导线工资增长基准线为8%-8.5%

原标题:北京市发布2019年企业工资指导线 工资增长基准线为8%-8.5% 央广网北京9月2日消息(记者刘一荻)企业工资指导线是政府根据当年经济发展调控目标详情>>

阅读: 3
日期: 2019-09-02
《黑暗之魂2》“二刀流”基准练习

详情>>

阅读: 18
日期: 2019-08-20
solidworks 3d草图绘制基准平面和特征建立基准面一...

Game234问答中心有网友提出了一个比较有代表性的问题【solidworks3d草图绘制基准平面和特征建立基准面一...】,小编觉得可能对其他网友也有帮助,所以将此问答整理出来了,希望对您有帮助。详情>>

阅读: 5
日期: 2019-04-16
谷歌眼镜企业版2通过Geekbench基准测试

谷歌准备发布一个名为谷歌眼镜企业版2的后续版本,该版本将保留其前代的外形且进行重大的内部改革。虽然最初的企业版使用了IntelAtomCPU和基于Android的软件API,但新的详情>>

阅读: 15
日期: 2018-12-03
2018款15英寸MacBook Pro基准测试:Redeon Vega 20显卡性能提升显著

原标题:2018款15英寸MacBookPro基准测试:RedeonVega20显卡性能提升显著苹果为2018款15英寸MacBookPro提供详情>>

阅读: 22
日期: 2018-11-25
信用卡养卡管理以多个月还是一个月为基准

我们经常说信用卡一个月要怎么怎么刷,那么对信用卡的养卡规划以一个月为基准更好吗?显然不是的,不过每个人都可以有自己的方式,只要大的宗旨:让银行安全放心,还能让银行赚钱! 对于额度小的卡一万以详情>>

阅读: 1
日期: 2018-10-01
信用卡养卡管理以多个月还是一个月为基准?

我们经常说信用卡一个月要怎么怎么刷,那么对信用卡的养卡规划以一个月为基准更好吗?显然不是的,不过每个人都可以有自己的方式,只要大的宗旨:让银行安全放心,还能让银行赚钱! 对于额度小的卡一万以详情>>

阅读: 2
日期: 2018-09-30
新3DMark基准测试TimeSpy将于9月下旬到来 支持光线追踪

在今年的Gamescom和SIGGRAPH大会上,NvidiaCEO黄仁勋为我们带来了基于图灵架构的RTX系列GPU新品,其最大的特色就是支持强大的光线追踪技术。但是对于广大用户详情>>

阅读: 4
日期: 2018-08-26
《数码宝贝故事》全新游戏透露 以PS4为基准开发!

  《数码宝贝故事:赛博侦探黑客的记忆(DigimonStory:CyberSleuthHacker’sMemory)》即将于12详情>>

阅读: 0
日期: 2018-08-22
iPhone X Plus 基准测试成绩首曝 性能大幅超越 Android 智能手机

苹果将于今年9月推出的最佳iPhoneX继任者将拥有无与伦比的性能,这是Android设备制造商梦寐以求的强大功能。几天前在Geekbench上泄露的基准测试显示,有一款识别为i详情>>

阅读: 7
日期: 2018-08-15
《讨鬼传:极(Toukiden Kiwami)》PC版基准测试工具下载发布!

  游戏名称:讨鬼传:极  英文名称:ToukidenKiwami  游戏类型:动作游戏ACT  制作公司:OmegaForce  发行公司:KoeiTe详情>>

阅读: 7
日期: 2018-07-09
详细介绍Visbit 360度视频基准测试VB2018VR

文章相关引用及参考:映维网我们仍然很难轻松分辨出差异,因为其质量和分辨率都有所不同。(映维网2018年07月05日)VR行业有很多关于4K与8K,传统渲染与注视点详情>>

阅读: 10
日期: 2018-07-05
GTA5目前游戏运行基准测试

GTA5目前游戏运行基准测试详情>>

阅读: 2
日期: 2018-07-02
DirectX光线追踪!3DMark基准测试曝光

DirectX光线追踪!3DMark基准测试曝光详情>>

阅读: 9
日期: 2018-06-26
《剑侠情缘手游》家族玩法新增分红上限及优化道具基准价

  《剑侠情缘手游》参与家族活动,分得家族拍卖分红,一直是剑侠少侠元宝福利的一大来源。在面对很多小家族的巨额分红时,想必许多少侠都投去了艳羡的目光。如今详情>>

阅读: 4
日期: 2018-06-25
VRmark基准跑分软件面向Android推出

VRmark基准跑分软件面向Android推出,安卓 mode 安卓手机 vrmark room... 安卓手机的性能跑分又多了一个新的权威参考系。UL Benchmarks(就是此前的Futuremark)宣布面向... 详情>>

阅读: 2
日期: 2018-06-19
电影改编的基准 漫威经典十大知名事件

  电影《复仇者联盟3:无限战争》一定会令观众大呼过瘾,其中的内容都会参考原作,而漫威漫画每年都会推出一些大事件来吸引大量的读者注意,如在《秘密帝国》中轰动一时的美详情>>

阅读: 4
日期: 2018-05-07
元素五种防具各技能对比 以皮甲为基准

之前发文计算过轻皮布改版后的对比,看到其他职业有那种折线图的表格,自己也做了一个,对比结果如图所示。模板采用红10,恍惚强化11,首饰附魔18,勋章7,其余附魔完美,结详情>>

阅读: 5
日期: 2018-04-26
剑侠情缘手游新增分红上限 优化道具基准价 详解怎么玩

  文/剑侠情缘天机阁  参与家族活动,分得家族拍卖分红,一直是剑侠少侠元宝福利的一大来源。在面对很多小家族的巨额分红时,想必许多少侠都投去了艳羡的目光。如今,《剑侠详情>>

阅读: 6
日期: 2018-04-07
王者荣耀-8月30日个人资料推荐数据基准值调整 详解怎么玩

  王者荣耀8月30日个人资料推荐数据基准值调整,在此次版本更新中,玩家们的个人资料推荐基准值将进行调整,具体如下:  王者荣耀8月30日个人资料推荐数据基准详情>>

阅读: 3
日期: 2018-03-28
精彩推荐