您当前所在位置: > 爆料站 > 游戏小抄

不服SOLO:腾讯绝悟AI击败王者荣耀顶尖职业玩家,论文入选AAAI,未来将开源_游戏

时间:2019-12-24 12:02:36  来源:  作者:网络

原标题:不服SOLO:腾讯绝悟AI击败王者荣耀顶尖职业玩家,论文入选AAAI,未来将开源

腾讯王者荣耀人工智能「绝悟」的论文终于发表了。在研究测试中,AI 玩露娜和顶级选手单挑时也赢了个 3:0。

围棋被攻克之后,多人在线战术竞技游戏(MOBA)已经成为测试检验前沿人工智能的动作决策和预测能力的重要平台。基于腾讯天美工作室开发的热门 MOBA 类手游《王者荣耀》,腾讯 AI Lab 正努力探索强化学习技术在复杂环境中的应用潜力。本文即是其中的一项成果,研究用深度强化学习来为智能体预测游戏动作的方法,该论文已被 AAAI-2020 接收。

据介绍,此技术支持了腾讯此前推出的策略协作型 AI「绝悟」1v1 版本,该版本曾在今年 8 月上海举办的国际数码互动娱乐展览会 China Joy 首次亮相,在 2100 多场和顶级业余玩家体验测试中胜率达到 99.8%。

王者荣耀 1v1 游戏 UI 界面。在主屏幕中,左上角的 A 为小地图、右上角 B 为控制面板、左下角 C.1 为移动控制、右下角的 C.2 为技能控制。实验表明,AI 智能体能在多种不同类型的英雄上能击败顶级职业玩家。

此外,腾讯 AI Lab 告诉机器之心,本文提出的框架和算法将在未来开源,而且为了促进对复杂模拟场景的进一步研究,腾讯也将在未来把《王者荣耀》的游戏环境提供给社区使用,并且还会通过虚拟云的形式向社区提供计算资源。

腾讯 AI Lab 表示,AI+游戏的研究成果,短期看,可以给游戏行业、电竞行业带来直接的推动和帮助,同时也能应用到教育、医疗、农业等更多行业中。长期来看,AI+游戏的研究,会推进 AI 的终极目标——通用人工智能问题的探索和发展。

除了本次研究提出的王者 1v1 智能体,腾讯 AI Lab 与王者荣耀还将联合推出「开悟」AI+游戏开放平台。

王者荣耀会开放游戏数据、游戏核心集群(Game Core)和工具,腾讯 AI Lab 会开放强化学习、模仿学习的计算平台和算力,邀请高校与研究机构共同推进相关 AI 研究,并通过平台定期测评,让「开悟」成为展示多智能体决策研究实力的平台。

目前「开悟」平台已启动高校内测,预计在 2020 年 5 月全面开放高校测试,并且在测试环境上,支持 1v1,5v5 等多种模式;2020 年 12 月,腾讯计划举办第一届的 AI 在王者荣耀应用的水平测试。想想是不是就很有趣?

王者荣耀 SOLO 人类

为了评估智能体的能力,研究者将模型部署到王者荣耀中,并与专业的顶级玩家对战。比赛确保了智能体每做一次决策的反应时间与人类差不多。

表 3 给出了 AI 和 5 名顶级职业选手的比赛结果,需要指出这些职业玩家玩的都是他们擅长的英雄。可以看到 AI 能在多种不同类型的英雄上击败职业选手。

表 3:AI 与职业选手使用不同类型英雄比赛的结果

绝悟选择了每个人类玩家擅长的英雄进行了 1v1 的五局三胜对战,用到的英雄包括貂蝉、狄仁杰、露娜、韩信和花木兰。

当然,与 5 位顶级玩家的对战并不能说明智能体已经无敌了,因此在 ChinaJoy 2019 中,腾讯 AI Lab 举行了大型公开赛。如果玩家在 1v1 比赛中击败了游戏 AI,那么能获得价值 4200 元人民币的智能手机,而且现场参赛设置了门槛:挑战 AI 的玩家需要达到排位前 1%(即在天梯上达到「荣耀王者」级别)。在所有 2100 次匹配赛中,游戏 AI 只输了 4 次(其中国服第一后羿拿下了一局),更详细的对战信息可查看文后实验部分。

王者荣耀为什么很难打

在竞争环境中学习具备复杂动作决策能力的智能体这一任务上,深度强化学习(DRL)已经得到了广泛的应用。在竞争环境中,很多已有的 DRL 研究都采用了两智能体游戏作为测试平台,即一个智能体对抗另一个智能体(1v1)。Atari 和围棋等游戏目前已经有很多优秀的解决方案,但更复杂的推塔类游戏又该怎么解?

这篇研究就在探讨这种更复杂的 MOBA 1v1 游戏,其中 MOBA 1v1 游戏就是一种需要高度复杂的动作决策的 RTS 游戏。相比于棋盘游戏和 Atari 系列等 1v1 游戏,MOBA 的游戏环境要复杂得多,AI 的动作预测与决策难度也因此显著提升。

以 MOBA 手游《王者荣耀》中的 1v1 游戏为例,其状态和所涉动作的数量级分别可达 10^600 和 10^18000,而围棋中相应的数字则为 10^170 和 10^360,参见下表 1。

表 1:围棋与 MOBA 1v1 游戏的比较

此外,MOBA 1v1 的游戏机制也很复杂。要在游戏中获胜,智能体必须在部分可观察的环境中学会规划、攻击、防御、控制技能组合以及诱导和欺骗对手。除了玩家与对手的智能体,游戏中还有其它很多游戏单位,比如小兵和炮塔。这会给目标选择带来困难,因为这需要精细的决策序列和相应的动作执行。

此外,MOBA 游戏中不同英雄的玩法也不一样,因此就需要一个稳健而统一的建模方式。还有一点也很重要:MOBA 1v1 游戏缺乏高质量人类游戏数据以便进行监督学习,因为玩家在玩 1v1 模式时通常只是为了练习英雄,而主流 MOBA 游戏的正式比赛通常都采用 5v5 模式。

需要强调,本论文关注的是 MOBA 1v1 游戏而非 MOBA 5v5 游戏,因为后者更注重所有智能体的团队合作策略而不是单个智能体的动作决策。考虑到这一点,MOBA 1v1 游戏更适合用来研究游戏中的复杂动作决策问题。

这么难, AI Lab 怎么解?

为了解决这些难题,腾讯 AI Lab 设计了一种深度强化学习框架,并探索了一些算法层面的创新,对 MOBA 1v1 游戏这样的多智能体竞争环境进行了大规模的高效探索。文中设计的神经网络架构包含了对多模态输入的编码、对动作中相关性的解耦、探索剪枝机制以及攻击注意机制,以考虑 MOBA 1v1 游戏中游戏情况的不断变化。

腾讯 AI Lab 表示,这篇论文的贡献在于,对需要高度复杂的动作决策的 MOBA 1v1 游戏 AI 智能体的构建进行了全面而系统的研究。

  • 在系统设计方面,研究者提出了一种深度强化学习框架,能提供可扩展的和异步策略的训练。
  • 在算法设计方面,研究者开发了一种用于建模 MOBA 动作决策的 actor-critic 神经网络。

网络的优化使用了一种多标签近端策略优化(PPO)目标,并提出了对动作依赖关系的解耦方法、用于目标选取的注意机制、用于高效探索的动作掩码、用于学习技能组合 LSTM 以及一个用于确保训练收敛的改进版 PPO——dual-clip PPO。

下面,我们来看看这个强大的智能体,在算法和效果上都是什么样的。

论文地址:https://arxiv.org/abs/1912.09729

顶级智能体长什么样?

系统设计

考虑到复杂智能体的动作决策问题可能引入高方差的随机梯度,所以有必要采用较大的批大小以加快训练速度。因此,本文设计了一种高可扩展低耦合的系统架构来构建数据并行化。具体来说,这个架构包含四个模块:强化学习学习器(RL Learner)、人工智能服务器(AI Server)、分发模块(Dispatch Module)和记忆池(Memory Pool)。如图 1 所示。

图 1: 系统设计概况

AI 服务器实现的是 AI 模型与环境的交互方式。分发模块是用于样本收集、压缩和传输的工作站。记忆池是数据存储模块,能为 RL 学习器提供训练实例。这些模块是分离的,可灵活配置,从而让研究者可将重心放在算法设计和环境逻辑上。这样的系统设计也可用于其它的多智能体竞争问题。

算法设计

RL 学习器中实现了一个 actor-critic 神经网络,其目标是建模 MOBA 1v1 游戏中的动作依赖关系。如图 2 所示。

图 2:论文实现的 actor-critic 网络

为了实现有效且高效的训练,本文提出了一系列创新的算法策略:

  • 目标注意力机制;用于帮助 AI 在 MOBA 战斗中选择目标。
  • LSTM;为了学习英雄的技能释放组合,以便 AI 在序列决策中,快速输出大量伤害。
  • 动作依赖关系的解耦;用于构建多标签近端策略优化(PPO)目标。
  • 动作掩码;这是一种基于游戏知识的剪枝方法,为了引导强化学习过程中的探索而开发。
  • dual-clip PPO;这是 PPO 算法的一种改进版本,使用它是为了确保使用大和有偏差的数据批进行训练时的收敛性。如图 3 所示。

图 3:论文提出的 dual-clip PPO 算法示意图,左为标准 PPO,右为 dual-clip PPO

有关这些算法的更多详情与数学描述请参阅原论文。

惊艳的实验效果

测试平台为热门 MOBA 游戏《王者荣耀》的 1v1 游戏模式。为了评估 AI 在现实世界中的表现,这个 AI 模型与《王者荣耀》职业选手和顶级业余人类玩家打了大量比赛。实验中 AI 模型的动作预测时间间隔为 133 ms,这大约是业余高手玩家的反应时间。另外,论文方法还与已有研究中的基准方法进行了比较,其中包括游戏内置的决策树方法以及其它研究中的 MTCS 及其变体方法。实验还使用 Elo 分数对不同版本的模型进行了比较。

在上文中,通过挑战顶级职业玩家,腾讯 AI Lab 可以探索智能体动作决策能力的上限;通过挑战大量顶级业余玩家,AI Lab 可以评估智能体的动作决策能力稳健性。

在 2019 年 8 月份,王者荣耀 1v1 AI 对公众亮相,与大量顶级业余玩家(Top 1%)进行了 2100 场对战,AI 胜率达到惊人的 99.81%,在 5 个英雄上都保持绝对的胜率。

表 4:AI 与不同顶级人类玩家的比赛结果。

基准比较

可以看到,用论文新方法训练的 AI 的表现显著优于多种 baseline 方法。

图 4: 击败同一基准对手的平均时长比较

训练过程中模型能力的进展

图 5 展示了训练过程中 Elo 分数的变化情况,这里给出的是使用射手英雄「狄仁杰」的例子。可以观察到 Elo 分数会随训练时长而增长,并在大约 80 小时后达到相对稳定的水平。此外,Elo 的增长率与训练时间成反比。

图 5:训练过程中 Elo 分数的变化情况

控制变量研究

为了理解论文方法中不同组件和设置的效果,控制变量实验是必不可少的。表 5 展示了使用同样训练资源的不同「狄仁杰」AI 版本的实验结果。

表 5:控制变量实验

在 2020 年第一场人工智能学术顶会 AAAI 开幕之前,机器之心将策划多期线上分享,本论文一作叶德珩博士将于1月2日晚为大家做直播分享。

线上分享将在「AAAI 2020 交流群」中进行,加群方式:添加机器之心小助手(syncedai4),备注「AAAI」,邀请入群。入群后将会公布直播链接。游戏网

相关下载

玩家评论

王者荣耀设计师独特的癖好,大爱单边袜,连这个壮汉都穿了

大家好,王者荣耀是现如今最受欢迎的手机游戏,从最初的无人问津发展到现在的无人知晓,王者荣耀也算是历尽了千辛万苦。而游戏中已经拥有了90多位英雄以详情>>

阅读: 0
日期: 2019-12-24
王者荣耀:貂蝉FMVP剪影曝光,名字4个字,可能含有“奥利给”?

随着2020年即将到来,在这个最后时刻,王者荣耀也接连推出了很多新的东西。 比如曜的姐姐,新英雄镜也在最近曝光了自己的英姿,一头短发搭配上把足足1米2的大长腿,还详情>>

阅读: 3
日期: 2019-12-24
王者荣耀:2款新皮肤曝光,1款荣耀典藏皮肤,1款王者水晶皮肤

王者荣耀最近爆料了很多新皮肤,一款接一款的来,多得小七都数不清楚了,不过很多新皮肤,大家可能不会去买的,只是图个新鲜,甚至有些皮肤都是冷门英雄的皮肤详情>>

阅读: 2
日期: 2019-12-24
王者荣耀:梦嫂颜值很一般?当她戴上眼镜后,梦泪的眼光真毒

说到王者荣耀最圈粉的一位职业选手,相信许多网友都会选择梦泪,虽说梦泪不是职业选手中的颜值担当,但是他在职业赛场中的表现得到了众多网友的认可,尤其是无兵线拆详情>>

阅读: 5
日期: 2019-12-24
王者荣耀:天美官宣第7款荣耀典藏皮肤,不是李白,居然是程咬金</title><metahttp-equiv="Cache-Control"content=&quo

详情>>

阅读: 5
日期: 2019-12-24
王者荣耀:程咬金截胡李白喜提三形态荣耀典藏,哪吒喜获免费勇者

平安夜之际,王者荣耀带来了两个重磅彩蛋,是两款夺宝皮肤,一款积分夺宝皮肤,也就是荣耀典藏,另一款是钻石夺宝皮肤,也就是勇者皮肤。 一直在传李白会在春详情>>

阅读: 4
日期: 2019-12-24
王者荣耀鲁班圣诞情侣皮肤上线国际版导弹的特效换成了一只鹿

哈喽大家好,我是伟哥。 上期给大家介绍了国际版貂蝉的圣诞情侣皮肤,这一期给大家看看国际版鲁班的圣诞情侣皮肤。 上图就是国际版鲁班出场是的详情>>

阅读: 4
日期: 2019-12-24
王者荣耀被忽视的打野刘备铭文出装推荐

王者峡谷英雄众多,打野位的英雄也有很多。说道打野英雄,很多人想到的肯定是韩信、李白、孙悟空这些热门英雄,但是这些英雄前期伤害跟不上,如果遇到被反详情>>

阅读: 0
日期: 2019-12-24
王者荣耀被忽视的打野刘备铭文出装推荐_伤害

原标题:王者荣耀被忽视的打野 刘备铭文出装推荐 王者峡谷英雄众多,打野位的英雄也有很多。说道打野英雄,很多人想到的肯定是韩信、李白、孙悟空这些详情>>

阅读: 4
日期: 2019-12-24
没想到吧!竟是程咬金出了荣耀典藏皮,天美这是什么操作?

一年前,玩家间就一直流传着李白要出荣耀典藏皮肤的说法,一方面是有策划艾露说过李白会有高级皮肤,另一方面是李白的CV也曾透露过他参与了李白典藏皮的详情>>

阅读: 3
日期: 2019-12-24
王者荣耀:体验服最新消息,四位英雄进行细微调整,技能有所变动

一曲欢乐送,一场红尘梦;大家好,我是电竞欢乐送。 体验服又出新消息啦!许多小伙伴对于这些体验服的调整可能还不是很了解,有四位英雄进行了细微调整,技详情>>

阅读: 5
日期: 2019-12-24
王者荣耀欢喜迎双旦 SNK英雄自选礼包上线

王者荣耀12月24日更新后欢喜迎双旦 暖心好礼邀你峡谷狂欢开启,下面给大家带来具体的活动内容,一起来看看吧。 欢喜迎双旦 暖心好礼邀你峡谷狂欢 辞旧迎新,喜迎双旦,召唤师们节日详情>>

阅读: 3
日期: 2019-12-24
王者荣耀程咬金新皮肤活力突击介绍

下面给大家带来王者荣耀程咬金新皮肤活力突击介绍,感兴趣的玩家一起来看看吧。 程咬金新皮肤活力突击 小金金荣耀典藏皮肤——程咬金-活力突击最新爆料来袭! 这款详情>>

阅读: 2
日期: 2019-12-24
王者荣耀S18赛季开始时间一览

下面给大家带来王者荣耀S18赛季开始时间一览,S17赛季快要结束了,那么S18赛季什么时候开始呢?一起来看看吧。 s17赛季什么时候结束? 目前关于s17赛季结束时间最具体的应该是游详情>>

阅读: 2
日期: 2019-12-24
英雄联盟手游全画面曝光,和王者荣耀没区别?玩家表示不看好

再过不久英雄联盟手游就要和大家见面了,之前网上零散曝光了一些游戏的画面,但都不怎么全面。这次有网友放出了从选择界面到对局结束的详细画面,一起来看看手游版详情>>

阅读: 4
日期: 2019-12-24
王者荣耀新年礼盒选哪个英雄好王者荣耀新年礼盒选什么英雄好

王者荣耀新年礼盒奖励是SNK英雄,有娜可露露、橘右京、不知火舞,只能选一个,那么王者荣耀新年礼盒选哪个英雄好?王者荣耀新年礼盒选什么英雄好?下面和小编一起去了解一下吧。王者详情>>

阅读: 2
日期: 2019-12-24
王者荣耀:你还在嫌弃自己KDA低吗?那就穿鞋啊

一曲欢乐送,一场红尘梦;大家好,我是电竞欢乐送。 在玩王者荣耀的时候,你有没有老是嫌弃自己的KDA低呢?众所周知,玩过moba类游戏的朋友们应该都知道,这类游戏最重要详情>>

阅读: 3
日期: 2019-12-24
王者荣耀貂蝉FMVP皮肤专属抵扣红包怎么用

王者荣耀貂蝉FMVP皮肤专属抵扣红包是可以在购买貂蝉FMVP皮肤的进行抵扣,那么王者荣耀貂蝉FMVP皮肤专属抵扣红包怎么用?下面和小编一起去了解一下吧。王者荣耀貂蝉FMVP皮肤专属详情>>

阅读: 2
日期: 2019-12-24
王者荣耀:宫本上不了高端局?韩跑跑天秀拿四杀,有S3内味儿了

作为王者荣耀战士型英雄的代表,宫本武藏一直深受玩家们的喜爱。尽管经历了一次重做和好几次削弱,但是这个英雄在玩家中的人气依然很高。不过由于宫本详情>>

阅读: 2
日期: 2019-12-24
BGM上C位:王者荣耀的IP狂想曲

12月15日,复兴中路1380号,上海交响乐团音乐厅。 当晚八点,伴随着《王者荣耀》的开屏提示音「TiMi」, 两侧舞台门拉开,灯光聚定,乐手们鱼贯而出,在红蓝背景光详情>>

阅读: 5
日期: 2019-12-24
王者荣耀:信誉系统再次优化,违规率图表显示了什么时段的坑更多

王者荣耀作为一款火爆的手游,对局环境也是大家比较关注的一点,官方也是一直在用各种手段来保证大家的游戏体验,信誉系统的新一轮优化也要来了,我们一起详情>>

阅读: 5
日期: 2019-12-24
腾讯AI单挑碾压王者荣耀职业玩家:人类15场只能赢1局,坚持不到8分钟|“绝悟”技术细节披露_研究

原标题:腾讯AI单挑碾压王者荣耀职业玩家:人类15场只能赢1局,坚持不到8分钟 | “绝悟”技术细节披露 乾明 发自 凹非寺 量子位 报道 | 公众号 QbitAI详情>>

阅读: 4
日期: 2019-12-24
​王者荣耀:国际版貂蝉上线粉色圣诞情侣皮肤  CP竟然不是吕布!

大家好,我是七七。王者荣耀最近爆料的皮肤是真的多,前前后后一数大概有二十多款,再加上今年新年和圣诞相隔也就一个月不到的时间,新年又要上线五岳皮肤,所以可想而详情>>

阅读: 3
日期: 2019-12-24
王者荣耀:首款三形态典藏皮肤曝光,不是李白而是程咬金!

大家好,我是七七。王者荣耀官方今日突然爆料了两款夺宝皮肤,一款是哪吒的次元突破,另一款则是程咬金的活力突击,其中活力突击属于荣耀典藏,也是第一款三详情>>

阅读: 2
日期: 2019-12-24
王者荣耀85连胜围棋第一人整起活来一点都不含糊

【导读】前几天一支由围棋大神们组成的上分车队一路从黄金杀到王者,直到85连胜这支车队才停下了前进的步伐。而车队中,棋士柯洁赫然在列。-->  详情>>

阅读: 2
日期: 2019-12-24
碰瓷荣耀智慧屏翻车:小米该反思什么?

原标题:碰瓷荣耀智慧屏翻车:小米该反思什么? 日前,小米向荣耀发起的一场口水战引发了业内热议。事件起因是小米电视公关潘达发布微博质疑荣耀智慧屏PR详情>>

阅读: 3
日期: 2019-12-24
荣耀手机获“财经中国创新品牌奖”

原标题:荣耀手机获“财经中国创新品牌奖” 中新经纬客户端12月24日电 近日,由中新经纬主办的“财经中国2020V峰会”在北京举行。本次会议以“创新的详情>>

阅读: 2
日期: 2019-12-24
王者荣耀:程咬金荣耀典藏皮肤活力突击出炉,大招是在峡谷中冲凉

王者荣耀的皮肤很多,但要说什么皮肤特效最好的话,那肯定就是荣耀典藏皮肤了,如今有荣耀典藏皮肤的英雄也不多,就那么几个,不过马上就要新加一人了,那就是详情>>

阅读: 5
日期: 2019-12-24
《王者荣耀》主播撩粉骗P 虎牙:进行停播教育

近日《王者荣耀》主播“东辰-韩涵”撩粉骗P上热搜,最终韩涵在个人微博公开道歉,称所有一切都是因为他的自私和不成熟造成的,他会中断一切工作去反省和改正。详情>>

阅读: 5
日期: 2019-12-24
王者荣耀12月24日全服不停机更新公告

王者荣耀官方发布了12月24日全服不停机更新公告,下面给大家带来本次具体的更新内容,一起来看看吧。 亲爱的召唤师: 我们计划在2019年12月24日 8:30-9:30 对全服进行不停机更新详情>>

阅读: 4
日期: 2019-12-24
《王者荣耀》主播撩粉骗P,虎牙回应称对其进行停播教育_韩涵

原标题:《王者荣耀》主播撩粉骗P,虎牙回应称对其进行停播教育 IT之家12月24日消息 虎牙直播公布了关于主播“东辰-韩涵”处理公告,公告称:虎牙即日起详情>>

阅读: 0
日期: 2019-12-24
王者荣耀:千场难遇的4个皮肤,无限飓风号上榜,女武神更罕见!

王者荣耀中有几款皮肤非常的珍贵,获取的玩家非常少,我们本期来说4个,第一个就是艾琳的女武神了,小编也是在一次偶然的机会碰到了这款皮肤,真正能拥有详情>>

阅读: 2
日期: 2019-12-24
王者荣耀24日更新,SNK英雄免费送,貂蝉皮肤折扣活动上线!

大家好,我是七七。王者荣耀正式服将于12月24日上午开启不停机更新,此次更新的主要内容是双旦活动,比如SNK英雄免费送、貂蝉FMVP开启专属折扣等等,感兴详情>>

阅读: 0
日期: 2019-12-24
王者荣耀:新版本嬴政本周更新,许愿得皮肤活动开启

大家好,S18赛季眼看就要进入尾声了,大家有没有冲到自己理想的段位呢?没关系,通常在赛季末是最好冲分的,因为鱼龙混杂的情况很少了,大神玩家都到了王者甚详情>>

阅读: 2
日期: 2019-12-24
王者荣耀:KPL最常用的战术五排开黑你确定不拿出来用用?

大家好,我是七七。大部分单机游戏想要赢,靠的都是耐力,你磨得够久,这款游戏迟早通关。但对于像王者这样的大型多人在线5V5手游来说,除了耐力还需要智力详情>>

阅读: 4
日期: 2019-12-24
王者荣耀玄雍英雄是谁玄雍阵营英雄有哪些

王者荣耀【强者之路 集结玄雍】玄雍探秘活动中需要玩家使用玄雍阵营英雄完成对局,即可获得奖励。那么王者荣耀玄雍英雄是谁?玄雍阵营英雄有哪些?下面和小编一起去了解一下吧。详情>>

阅读: 3
日期: 2019-12-24
精彩推荐