您当前所在位置: > 爆料站 > 有深度

CVPR2020|京东AI研究院对视觉与语言的思考:从自洽、交互到共生

时间:2020-04-13 14:00:07  来源:  作者:网络

原标题:CVPR 2020 | 京东AI研究院对视觉与语言的思考:从自洽、交互到共生

机器之心发布

来源:京东 AI 研究院

纵观视觉与语言在这六年间的飞速发展史,它就仿佛是两种不同文化(计算机视觉与自然语言处理)的碰撞与交融。这里每一种文化最初的进化都是自洽的,即独立地演化形成一套完备的视觉理解或语言建模体系;演化至今,我们当前所迎来的则是两种文化间的 交互,自此视觉理解和语言建模不再是简单串联的两个模块,而是通过互相的信息传递成为共同促进的一个整体;对于视觉与语言的未来,则一定是聚焦于两者更为本质和紧密的 共生,它所渴望的,将是挣脱开数据标注的桎梏,在海量的弱监督甚至于无监督数据上找寻两者间最为本质的联系,并以之为起源,如「道生一,一生二,二生三,三生万物」一般,赋予模型在各种视觉与语言任务上的生命力。

This monkey on the back of horse

Disney made the best cake of all time using projection

Tiny squid flopping around on the rocky bottom of fish tank

注:为了更好地便于读者理解和推动视觉语言领域的发展,将这几年我们关于视觉与语言的代表性工作(LSTM-A [1],GCN-LSTM [2],HIP [3],X-LAN [4])进行开源,这些对应的源码都在 GitHub 上陆续公开(https://github.com/JDAI-CV/image-captioning),敬请关注!

缘起

视觉与语言,即视觉内容理解和自然语言表达,原本分属于计算机视觉(CV)和自然语言处理(NLP)两个不同的研究领域。然而在 2014 年,图像描述生成(Image Captioning)猛然打破了两者间的壁垒,凭借着机器翻译中经典的 encoder-decoder 模型一下贯通了从视觉内容到语言表达的转换,为 CV 和 NLP 领域的后继者同时打开了一个不同模态交叉融合的新世界。

与机器翻译中不同自然语言间的转化相仿,图像描述生成任务可以提炼为从一种视觉语言(图像特征表达)到自然语言(描述语句)的转换。现今主流的图像描述生成算法的原型都可概括为两个模块:视觉编码器(Visual Encoder)和语言解码器(Language Decoder)。前者负责对视觉内容的理解,将视觉语言编码为富含语义信息的特征表达,后者则依据编码后的特征表达来解码出相应的语言描述。

自洽

各自文化的起点都是从蹒跚学步的孩童开始,渐渐形成一个完备自洽的体系。对于视觉和语言也是如此。身处深度学习的浪潮之中,视觉和语言各自也都在不断地往前进步,譬如由底层纹理到高层语义的视觉内容理解(Visual Understanding),亦或是由单个词出发演化至整个词序列的语言建模(Language Modeling)。

在这一阶段的视觉与语言模型本质上是视觉编码器和语言解码器的简单串联。以图像描述生成任务举例,该阶段的研究重心往往是如何从图像视觉内容中解析出更多的高层语义信息,并将这些语义信息融入到视觉编码的过程中,以增强编码器输出的视觉特征表达。这一研究思路也正是我们在前三年一系列工作的脉络,即属性(Attributes)-> 关系(Relation)-> 结构(Hierarchy)

如上图,首先是 2017 年我们尝试在视觉内容编码的过程中引入高层的语义属性,它不仅包含图像中显著的物体,也具备背景中的场景信息。在获取高层语义属性后,我们不仅可以在特征层面将语义属性特征融合至编码特征中(LSTM-A [1]),也可以将识别的语义属性词直接「拷贝」到解码出的描述中(LSTM-C [5])。接着在 2018 年,受到 Bottom-Up [6] 中通过物体检测器获取高性能的物体区域特征的启发,我们进一步去挖掘物体和物体之间的关系(GCN-LSTM [2]),构建出物体间语义和空间的关系图,从而促进对图像的理解。尽管物体间关系图有效地引入了物体间关系的语义信息,但依然无法充分表达整个图像所包含的丰富语义。故在 2019 年,我们提出了一种多层次的树形语义结构(HIP [3]),它囊括了从语义分割后的物体实例到检测后的物体区域再到整个图像的不同层级之间的语义信息。通过这样一种树形结构可以实现对物体不同层次间语义关联性的编码,以解码出更为精准的描述文本。

交互

视觉与语言发展的第一阶段自洽可以看做是每个文化独立的发展史,所衍生的算法模型也大多是视觉编码器和语言解码器的简单串联。然而没有一种文化可以在发展中独善其身,互相调和与交互将是必然。因此现今的视觉与语言渐渐步入交互的阶段,目的是促进视觉编码器和语言解码器间的信息交互。

注意力机制(Attention Mechanism)是不同模态间最典型的信息交互手段。它可以通过每一时刻解码器的隐状态来推断当前编码器中需要关注的图像区域,以此帮助编码器更好地理解图像内容。如下图,早期的注意力机制 soft-attention [7] 会依据条件特征 Q(解码器当前的隐状态)与每一个图像局部区域特征 K 的线性融合来获取该区域对应的注意力权重,再将每一个注意力权重作用于局部区域特征 V 实现图像特征的聚合编码。在这两年也涌现了多种升级版本的注意力机制,比如自顶向下的 top-down attention(Bottom-Up [6])、同时捕捉多种注意力的 multi-head attention(Transformer [8])和利用门控进一步过滤注意力的 attention on attention(AoANet [9])。

当我们回顾传统的注意力机制时,可以发现它往往利用线性融合来进行跨模态的特征交互学习,所以其本质只挖掘了不同模态间一阶的特征交互,大大限制了注意力机制在视觉与语言这一复杂的跨模态内容推理任务中的作用。针对这个问题,我们在最新的 CVPR 2020 工作 X-LAN [4] 中打造了一个能实现高阶特征交互的注意力机制 X-Linear attention。它可以利用双线性融合技术去挖掘不同模态间二阶乃至更高阶的特征交互信息,以增强跨模态的内容理解。

同时,该 X-Linear attention 可以作为一个灵活的插件接入到目前流行的各种图像描述生成模型中,极大地提升编码器和解码器在模态内和跨模态间的特征交互能力。我们也在最为权威的 COCO 在线评测系统上对所设计的图像描述生成系统进行测试,在多个指标上均达到世界第一的水平(如下图)。

共生

尽管视觉内容的理解可以随着各种高性能网络的设计和语义的深入挖掘不断升级,视觉和语言间交互的方式也已经从传统的 soft-attention 演化到捕捉高阶信息交互的 X-Linear attention,但视觉与语言的技术发展依然逃脱不了深度学习对于训练数据的贪婪。COCO12 万+的图像,约 60 万的人工标注语句,天然制约了图像描述生成技术进一步的发展。无论是对于更多物体的理解还是对于更广泛语言的表达,亦或是更精细更本质的视觉-语言匹配,都需要更细粒度、更大规模的视觉与语言标注数据来支撑。那么如何打破这一视觉语言数据的壁垒?如何突破当前算法的瓶颈?

当人们对某种文化进行反思甚至于迷茫的时候,就意味着一个新的起点将应运而生。因此在当下,视觉与语言也需要迎来一个新的阶段,其目的是在更广大的数据上挖掘出两者间最为本质的共生特质,从而促进不同模态间更为自由的转换。具体而言就是我们需要在海量的弱监督甚至于无监督视觉语言数据上去习得两者间最为本质的联系,然后再赋予模型在各种视觉与语言任务上的生命力。

目前刚刚兴起的视觉语言预训练(Vision-language pre-training)或许可以成为破局的关键。借助于海量网页自动抓取的视觉语言数据,如 Conceptual Captions 和 Auto-captions on GIF,我们可以预训练一个通用的编码器-解码器模型。正是因为在海量数据上所学会的视觉语言共生特质,该预训练模型可以全方位地赋能各种视觉与语言的下游任务,打破每一个下游任务中视觉与语言训练数据的限制,实现了「大一统」的视觉与图像间跨模态理解与转换。

目前,京东 AI 研究院的这些技术已在京东应用落地。例如商品图像搜索和图像审核等场景,同时也正尝试将视觉与语言技术融入任务驱动型多模态增强对话中,旨在提升人机交互效率和用户体验。

结语

好奇心是个人或者组织创造力的源泉,在权威图像描述生成评测集 COCO 上的成绩彰显了京东 AI 研究院在视觉与语言领域的世界领先水平。京东智联云将一面以智能供应链、「新基建」等为抓手,帮助政府、企业、个人进行数字化、网络化、智能化转型,成为了与零售、物流、数字科技组成了京东四大核心业务版图,是京东对外技术与服务输出的核心通道。一面以「ABCDE」技术战略为基础,保持前沿的技术技术研究和好奇心,即「以人工智能(AI)为大脑、大数据(Big Data)为氧气、云(Cloud)为躯干、物联网(Device)为感知神经,以不断探索(Exploration)为好奇心」。

参考文献

[1] Ting Yao, Yingwei Pan, Yehao Li, Zhaofan Qiu, and Tao Mei,「Boosting Image Captioning with Attributes.」In ICCV, 2017.

[2] Ting Yao, Yingwei Pan, Yehao Li and Tao Mei. "Exploring Visual Relationship for Image Captioning." In ECCV, 2018.

[3] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei,「Hierarchy Parsing for Image Captioning.」In ICCV, 2019.

[4] Yingwei Pan, Ting Yao, Yehao Li, and Tao Mei,「X-Linear Attention Networks for Image Captioning.」In CVPR, 2020.

[5] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei,「Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects.」In CVPR, 2017.

[6] Anderson Peter, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. "Bottom-up and top-down attention for image captioning and visual question answering." In CVPR, 2018.

[7] Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, and Yoshua Bengio,「Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.」In ICML, 2015.

[8] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut,「Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning.」In ACL, 2018.

[9] Lun Huang, Wenmin Wang, Jie Chen, and Xiao-Yong Wei.「Attention on Attention for Image Captioning.」In ICCV, 2019.

本 文为机器之心发布, 转载请联系本公众号获得授权 。游戏网

相关下载

玩家评论

CVPR提前看:视觉常识的最新研究进展

原标题:CVPR 提前看:视觉常识的最新研究进展 机器之心分析师网络 作者:仵冀颖 编辑:Joni Zhong 2020 年 CVPR 将于 6 月 13 日至 19 日在西雅图举详情>>

阅读: 0
日期: 2020-04-12
2020智能物流产业研究报告

原标题:2020智能物流产业研究报告 侠说涵盖数千份互联网、短视频、房地产、金融科技、市场运营等报告,下载报告请关注微信公众号《侠说》,入圈下载,坚详情>>

阅读: 3
日期: 2020-04-01
电子科大的在读研究生可以购买吗?

符合购房资格可买,有资格就可以买,不能哦详情>>

阅读: 3
日期: 2020-03-27
中国疾控中心研究员:无症状感染者不会造成传播扩散

原标题:中国疾控中心研究员:无症状感染者不会造成传播扩散 3月24日下午,国务院联防联控机制召开新闻发布会,介绍新冠肺炎疫情防控与医疗诊治有关情况详情>>

阅读: 2
日期: 2020-03-24
美国陆军研究人员要求业界寻求可信战术网络信息安全的新方法

原标题:美国陆军研究人员要求业界寻求可信战术网络信息安全的新方法 [据军事宇航网站2019年11月26日报道]美国马里兰州阿伯丁试验场——美国陆军研详情>>

阅读: 3
日期: 2020-03-24
研究人员实现电子的亚飞秒传输

原标题:研究人员实现电子的亚飞秒传输 【据光子学网站2019年12月27日报道】一个由康斯坦茨大学、卢森堡大学、法国国家科学研究中心-巴黎第十一大学、材料详情>>

阅读: 1
日期: 2020-03-23
南太湖社会治理研究院在织里成立

原标题:南太湖社会治理研究院在织里成立 人民网湖州市11月17日电 (记者李锋)由多名中外知名专家、学者组成的南太湖社会治理研究院11月17日在浙江详情>>

阅读: 3
日期: 2020-03-20
美国历史研究者撰文:1918年大流感的应对为何失败?_措施

原标题:美国历史研究者撰文:1918年大流感的应对为何失败? 1918—1919年横扫世界的“大流感”(The Great Influenza,也被称为“西班牙大流感”),据估计夺去了5详情>>

阅读: 7
日期: 2020-03-20
艾瑞咨询:2019年中国游戏直播行业研究报告_平台

原标题:艾瑞咨询:2019年中国游戏直播行业研究报告 2019年游戏直播行业发展进入成熟期,平台间的竞争与离场给市场带来新活力;头部平台收入的迅速增长有详情>>

阅读: 19
日期: 2020-01-29
柱子英雄研究所攻略大全研究所用处详解

柱子英雄手游中研究所十分重要,研究所有什么用呢?研究所用处有哪些呢?今天小编就带来一篇柱子英雄研究所攻略大全 研究所用处详解,一起来看看吧:研究所攻略大全优先随等级解锁战详情>>

阅读: 6
日期: 2020-01-23
2020,哪些“黑科技”可能吸睛_研究

原标题:2020,哪些“黑科技”可能吸睛 新华社北京1月2日电特稿:2020,哪些“黑科技”可能吸睛 新华社记者 2020年是21世纪第三个十年开启之年。新技术、详情>>

阅读: 12
日期: 2020-01-02
安全研究员发现iPhone11Pro在关闭定位服务后仍会收集定位数据

原标题:安全研究员发现 iPhone 11 Pro 在关闭定位服务后仍会收集定位数据 苹果向来强调隐私保护,但最近有安全研究人员发现,即使关闭了定位服务,iPho详情>>

阅读: 0
日期: 2019-12-05
《英雄联盟》S10季前赛版本下野生态研究报告

这次S10季前赛版本改动了野区的经验收益,削弱了石甲虫经验提高了魔沼蛙经验,所以任何半区的三组野都可以到3级,打野英雄到三级的时间点相比之前版本提前了一个野怪的时详情>>

阅读: 4
日期: 2019-11-20
SEO研究者:如何规划网站建设和网站推广的内容

原标题:SEO研究者:如何规划网站建设和网站推广的内容 在现有的互联网世界中,SEO worker的范畴下所能包含的具体工作内容,可谓繁杂无比:网站内容制作、详情>>

阅读: 5
日期: 2019-11-19
研究人员开发出新型节能芯片来唤醒小型无线设备

原标题:研究人员开发出新型节能芯片来唤醒小型无线设备 加州大学圣地亚哥分校的工程师们发明了一种新型节能芯片,可以大大减少或消除物联网设备和可详情>>

阅读: 13
日期: 2019-11-13
双一流高校拟清退一批研究生,网友点赞

原标题:双一流高校拟清退一批研究生,网友点赞 没有毕不了业的大学生? 日前,复旦大学研究生网发布《2019-2020学年第一学期研究生退学决定公示(第一批)详情>>

阅读: 8
日期: 2019-11-08
双一流高校拟清退一批研究生!网友点赞

原标题:双一流高校拟清退一批研究生!网友点赞 导读 没有毕不了业的大学生? 日前,复旦大学研究生网发布《2019-2020学年第一学期研究生退学决定公示(第详情>>

阅读: 9
日期: 2019-11-08
15岁女蝉联科学家谈方琳个人资料研究成果曝光太厉害了

15岁女蝉联科学家是什么情况,在大家的印象中,想必科学家都是比较有岁数的成年人,但日前,年仅15岁女蝉联科学家引起大家的热议,大家都很好奇这个女孩子是怎么详情>>

阅读: 10
日期: 2019-11-01
美学者发布研究报告:全球经济放缓,美元流通性危机难辞其咎

央视新闻客户端10月31日消息,在全球经济放缓的大背景下,面对经济不确定性和融资市场震荡,美联储在今年内采取了包括“扩表”和降息在内的一系列行动。然而日前,有美国学者发布研详情>>

阅读: 18
日期: 2019-10-31
iOS虚拟机公司反诉苹果30万:软件让研究者更易查bug

今年 8 月,苹果起诉了一家名叫 Corellium 的企业,理由是该公司的 iOS 移动设备虚拟化方案,侵犯了在 iPhone / iPad 上运行的这款操作系统的版权。今天,Corellium 对苹果的诉讼详情>>

阅读: 22
日期: 2019-10-30
S9研究报告 新三核替代三叉戟成为主流

  S9小组赛的比赛战罢,LCK三支战队都以一号位出线,LEC欧洲赛区队伍都以二号位出线,LPL赛区在折损了一支老牌豪门之后,FPX有惊无险头名出线,IG二号位出线,LMS队伍和越南赛区队伍详情>>

阅读: 11
日期: 2019-10-23
研究发现吃大量红肉的男性勃起时间较短

据外媒报道,来自英国的研究人员分析了饮食与勃起时间的关系,发现吃红肉越多的男性勃起时间越短。 美国泌尿学会前首席代表亚伦·斯皮茨(Aaron Spitz)博士说:“详情>>

阅读: 11
日期: 2019-10-22
中国联合办公行业研究报告:商业模式完整本土优势明显

原标题:中国联合办公行业研究报告:商业模式完整 本土优势明显 日前,全球企业增长咨询公司沙利文发布了《中国联合办公行业研究报告》(以下简称“报告详情>>

阅读: 22
日期: 2019-10-21
倪光南院士:国产操作系统需要生态支持,要加大基础研究工作

原标题:倪光南院士:国产操作系统需要生态支持,要加大基础研究工作 10月20日上午,第六届世界互联网大会在乌镇互联网国际会展中心乌镇厅开幕,开幕式上中详情>>

阅读: 12
日期: 2019-10-20
英飞拓:成立英飞拓研究院

原标题:英飞拓:成立英飞拓研究院 证券时报e公司讯,英飞拓(002528)9月5日晚间公告,公司决定成立英飞拓研究院。英飞拓研究院目前正在致力于人工智能、详情>>

阅读: 13
日期: 2019-09-05
粤港澳大湾区协同创新研究院揭牌

原标题:粤港澳大湾区协同创新研究院揭牌 央广网广州8月30日消息(记者郑澍)据中央广播电视总台中国之声《新闻和报纸摘要》报道,粤港澳大湾区协同创新详情>>

阅读: 8
日期: 2019-08-30
港科大海洋研究项目获广州批3800万元人民币

港科大海洋研究项目获广州批3800万元人民币 实现大湾区跨境科研资金流动 新华社香港8月21日电(记者张雅诗)香港科技大学20日宣布,该校于8月1日获广州方面批出3800万元人民币(详情>>

阅读: 12
日期: 2019-08-23
《缺氧》研究站制作及用途介绍

《缺氧》研究站制作及用途介绍。在缺氧中我们需要制作各式各样的建筑或者道具,当然都是五花八门的建筑物啦,那么这些建筑物在缺氧中制作的时候需要什么材料,以及他们的作用是详情>>

阅读: 48
日期: 2019-08-20
安发国际都和哪些研究机构有合作?

焦点网友156810117 1小时前 安发国际和很多国内外知名高校及研究机构都有合作的,比如新西兰皇家科学院、新西兰奥克兰大学、国内的话我记得有上海交大、华东师大详情>>

阅读: 14
日期: 2019-08-05
关于屁的研究!这是一个有味道的研究!

关于屁的研究!这是一个有味道的研究! 详情>>

阅读: 14
日期: 2019-08-05
海洋升温毁生态 研究人员:关岛1/3珊瑚礁消失

  原标题:海洋升温毁生态 研究人员:关岛1/3珊瑚礁消失   中新网8月1日电 据香港《大公报》报道,日前,美国海外领地关岛的研究人员表示,当地34%的珊瑚礁因为海洋详情>>

阅读: 18
日期: 2019-08-01
研究人员将大脑脑波与VR整合成摇篮机

  VR之家消息:近日,澳大利亚皇家墨尔本理工大学Exertion Games Lab的研究人员进行了一次有趣的研究:他们一直在尝试将大脑脑波与虚拟现实结合起来整合成一种VR摇篮机。  详情>>

阅读: 21
日期: 2019-07-23
腾讯联合北大等多所大学创立游戏学研究共同体,发布国内首部研究专著《游戏学》

原标题:腾讯联合北大等多所大学创立游戏学研究共同体,发布国内首部研究专著《游戏学》 据界面新闻消息,昨日,北京大学互联网发展研究中心、上海交通大学设计学院、详情>>

阅读: 7
日期: 2019-06-25
赤痕夜之仪式食物研究家奖杯怎么解锁_食物研究家奖杯解锁技巧分享

《赤痕:夜之仪式》是一款不错的动作角色扮演游戏,游戏发售后,Steam好评率达90%以上。相比去年的版本,游戏画质得到了很大提升,展现出了独特的美术风格。这个游戏中有大量的成就详情>>

阅读: 30
日期: 2019-06-21
乱世王者怎么研究各需要的科技

在乱世王者中想让自己的基地强大起来主必须研究一些科技,比如发展科技、军事科技、资源科技等等。接下来教大家怎么简单的研究一些的科技。攻略对象乱世王者步骤分解1在游戏详情>>

阅读: 23
日期: 2019-06-21
只狼不死之力研究及不死半兵卫介绍

《只狼》游戏中不死之力贯穿全剧情,不少小伙伴都对这种力量和不死半兵卫非常感兴趣,具体的悲剧是怎样的呢?下面就为大家带来不死之力研究及不死半兵卫介绍,喜详情>>

阅读: 18
日期: 2019-06-10
漫威蜘蛛侠全研究站任务视频攻略

《漫威蜘蛛侠》完成全部研究站任务后可获得奖杯:研发部门,同时可以获得很多研究代币,这些任务怎么完成呢?下面就为大家带来漫威蜘蛛侠全研究站任务视频攻略,一详情>>

阅读: 21
日期: 2019-06-09
研究人员发布了第一个判断“游戏障碍”倾向的心理测试

原标题:研究人员发布了第一个判断“游戏障碍”倾向的心理测试 你能得几分? 经过长期的争议后,“游戏障碍”在上周作为被世界卫生组织(WHO)认定的一种疾病正式出现详情>>

阅读: 30
日期: 2019-06-05
名校们开始研究“游戏学”, 研究的是什么?

原标题:名校们开始研究“游戏学”, 研究的是什么? 对于中国游戏史而言,2018是不平凡的一年。 年初,“佛系 详情>>

阅读: 11
日期: 2019-05-10
菇菇栽培研究室中文版菇菇栽培研究室攻略菇菇栽培研究室

《菇菇栽培研究室》的豪华版也就是DX版是木木认为最值得体验的一个版本,因为每个月游戏都会定期进行更新保持新鲜感。今天木木就为大家带来 详情>>

阅读: 12
日期: 2019-05-07
精彩推荐