您当前所在位置: > 爆料站 > 发号福利

微软新的视觉语言(VL)系统有着显著超越人类的表现

时间:2021-01-19 14:42:36  来源:  作者:网络转载
微软桌面

微软桌面

大小:37.2M更新:2020-07-01

分类:主题壁纸

  视觉语言(Vision-Language,VL)系统允许为文本查询搜索相关图像(或反之),并使用自然语言描述图像的内容。一般来说,一个VL系统使用一个图像编码模块和一个视觉语言融合模块。 微软研究部门最近开发了一种新的图像编码对象属性检测模型,称为VinVL(Visual features in Vision-Language),有着显著超越人类的表现。

2

  当VinVL与OSCAR和 vivo 等VL融合模块结合后,微软新的VL系统能够在竞争最激烈的VL排行榜上取得第一,包括视觉问题回答(VQA)、微软COCO图像字幕和新颖对象字幕(nocaps)。微软研究团队还强调,在nocaps排行榜上,这种新的VL系统在CIDEr(92.5对85.3)方面的表现明显超过了人类的同形式表现。

  微软解释道:VinVL在改善VL理解的图像编码方面表现出了巨大的潜力。我们新开发的图像编码模型可以使广泛的VL任务受益,正如本文中的例子所说明的那样。尽管我们获得了很有希望的结果,比如在图像字幕基准上超越了人类的表现,但我们的模型绝不是达到VL理解的人类水平的智能。未来有趣的工作方向包括 (1)利用海量图像分类/标记数据,进一步扩大对象属性检测预训练的规模;(2)将跨模态VL表征学习的方法扩展到构建感知基础的语言模型,可以像人类一样将视觉概念建立在自然语言中,反之亦然。

  微软VinVL正在被整合到Azure认知服务中,Azure认知服务为微软的各种服务提供支撑,如Seeing AI、 Office 和LinkedIn中的图像字幕等。微软研究团队还将向公众发布VinVL模型和源代码。

  【来源:cnBeta.COM】

资源转载网络,如有侵权联系删除。
相关下载

SQL Error: select a.*,b.* from ***_enewstags a LEFT JOIN ***_enewstagsdata b ON a.tagid=b.tagid where b.classid='32' and b.id='8857892' group by b.tagid order by a.num desc limit 30

玩家评论

SQL Error: select titleurl,title,titlepic,onclick,newstime,smalltext from ***_ecms_news where keyboard like '微软%' and id<>'8857892' order by newstime desc limit 47
相关手机应用
精彩推荐
相关专题
SQL Error: select tagkey,pinyin from ***_enewstags where tagkey like '微软%' order by tagid desc limit 10
阅读排行
SQL Error: select titleurl,title from ***_ecms_news where classid='32' order by newstime desc limit 1SQL Error: select titleurl,title from ***_ecms_news where classid='32' order by newstime desc limit 1,1SQL Error: select titleurl,title from ***_ecms_news where classid='32' order by newstime desc limit 2,8