原标题:碾压99.8%人类对手,三种族都达宗师级!星际AI登上Nature
来源丨量子位(ID:QbitAI)
作者丨乾明 鱼羊 栗子
仅剩0.2%的星际2玩家,还没有被AI碾压。
这是匿名混入天梯的AlphaStar,交出的最新成绩单。
同时,DeepMind也在Nature上完整披露了AlphaStar的当前战力和全套技术:
AlphaStar,已经超越了99.8%的人类玩家,在神族、人族和虫族三个种族上都达到了宗师(Grandmaster)级别。
在论文里,我们还发现了特别的训练姿势:
不是所有智能体都为了赢
DeepMind在博客里说,发表在Nature上的AlphaStar有四大主要更新:
一是约束:现在AI视角和人类一样,动作频率的限制也更严了。
二是人族神族虫族都能1v1了,每个种族都是一个自己的神经网络。
三是联赛训练完全是自动的,是从监督学习的智能体开始训练的,不是从已经强化学习过的智能体开始的。
四是战网成绩,AlphaStar在三个种族中都达到了宗师水平,用的是和人类选手一样的地图,所有比赛都有回放可看。
具体到AI的学习过程,DeepMind强调了特别的训练目标设定:
不是每个智能体都追求赢面的最大化。
因为那样智能体在自我对战 (Self-Play) 过程中,很容易陷入某种特定的策略,只在特定的情况下有效,那面对复杂的游戏环境时,表现就会不稳定了。
于是,团队参考了人类选手的训练方法,就是和其他玩家一起做针对性训练:一只智能体可以通过自身的操作,把另一只智能体的缺陷暴露出来,这样便能帮对方练出某些想要的技能。
这样便有了目标不同的智能体:第一种是主要智能体,目标就是赢,第二种负责挖掘主要智能体的不足,帮它们变得更强,而不专注于提升自己的赢率。DeepMind把第二种称作“剥削者 (Exploiter) ”,我们索性叫它“陪练”。
AlphaStar学到的各种复杂策略,都是在这样的过程中修炼得来的。
比如,蓝色是主要玩家,负责赢,红色是帮它成长的陪练。小红发现了一种cannon rush技能,小蓝没能抵挡住:
然后,一只新的主要玩家 (小绿) 就学到了,怎样才能成功抵御小红的cannon rush技能:
同时,小绿也能打败之前的主要玩家小蓝了,是通过经济优势,以及单位组合与控制来达成的:
后面,又来了另一只新的陪练 (小棕) ,找到了主要玩家小绿的新弱点,用隐刀打败了它:
循环往复,AlphaStar变得越来越强大。
至于算法细节,这次也完整展现了出来。
AlphaStar技术,最完整披露
许多现实生活中的AI应用,都涉及到多个智能体在复杂环境中的相互竞争和协调合作。
而针对星际争霸这样的即时战略(RTS)游戏的研究,就是解决这个大问题过程中的一个小目标。
也就是说,星际争霸的挑战,实际上就是一种多智能体强化学习算法的挑战。
AlphaStar学会打星际,还是靠深度神经网络,这个网络从原始游戏界面接收数据 (输入) ,然后输出一系列指令,组成游戏中的某一个动作。
AlphaStar会通过概览地图和单位列表观察游戏。
采取行动前,智能体会输出要发出的行动类型(例如,建造),将该动作应用于谁,目标是什么,以及何时发出下一个行动。
动作会通过限制动作速率的监视层发送到游戏中。
而训练,则是通过监督学习和强化学习来完成的。
最开始,训练用的是监督学习,素材来自暴雪发布的匿名人类玩家的游戏实况。
这些资料可以让AlphaStar通过模仿星际天梯选手的操作,来学习游戏的宏观和微观策略。
最初的智能体,游戏内置的精英级 (Elite) AI就能击败,相当于人类的黄金段位 (95%) 。
而这个早期的智能体,就是强化学习的种子。
在它的基础之上,一个连续联赛 (Continuous League) 被创建出来,相当于为智能体准备了一个竞技场,里面的智能体互为竞争对手,就好像人类在天梯上互相较量一样:
从现有的智能体上造出新的分支,就会有越来越多的选手不断加入比赛。新的智能体再从与对手的竞争中学习。
这种新的训练形式,是把从前基于种群 (Population-Based) 的强化学习思路又深化了一些,制造出一种可以对巨大的策略空间进行持续探索的过程。
这个方法,在保证智能体在策略强大的对手面前表现优秀的同时,也不忘怎样应对不那么强大的早期对手。
随着智能体联赛不断进行,新智能体的出生,就会出现新的反击策略 (Counter Strategies) ,来应对早期的游戏策略。
一部分新智能体执行的策略,只是早期策略稍稍改进后的版本;而另一部分智能体,可以探索出全新的策略,完全不同的建造顺序,完全不同的单位组合,完全不同的微观微操方法。
除此之外,要鼓励联赛中智能体的多样性,所以每个智能体都有不同的学习目标:比如一个智能体的目标应该设定成打击哪些对手,比如该用哪些内部动机来影响一个智能体的偏好。
联盟训练的鲁棒性
而且,智能体的学习目标会适应环境不断改变。
神经网络给每一个智能体的权重,也是随着强化学习过程不断变化的。而不断变化的权重,就是学习目标演化的依据。
权重更新的规则,是一个新的off-policy强化学习算法,里面包含了经验重播 (Experience Replay) ,自我模仿学习 (Self-Imitation Learning) 以及策略蒸馏 (Policy Distillation) 等等机制。
历时15年,AI制霸星际
《星际争霸》作为最有挑战的即时战略(RTS)游戏之一,游戏中不仅需要协调短期和长期目标,还要应对意外情况,很早就成为了AI研究的“试金石”。
因为其面临的是不完美信息博弈局面,挑战难度巨大,研究人员需要花费大量的时间,去克服其中的问题。
DeepMind在Twitter中表示,AlphaStar能够取得当前的成绩,研究人员已经在《星际争霸》系列游戏上工作了15年。
但DeepMind的工作真正为人所知,也就是这两年的事情。
2017年,AlphaGo打败李世石的第二年后,DeepMind与暴雪合作发布了一套名为PySC2的开源工具,在此基础上,结合工程和算法突破,进一步加速对星际游戏的研究。
之后,也有不少学者围绕星际争霸进行了不少研究。比如南京大学的俞扬团队、腾讯AI Lab、加州大学伯克利分校等等。
到今年1月,AlphaStar迎来了AlphaGo时刻。
在与星际2职业选手的比赛中,AlphaStar以总比分10-1的成绩制霸全场,人类职业选手LiquidMaNa只在它面前坚持了5分36秒,就GG了。
全能职业选手TLO在落败后感叹,和AlphaStar比赛很难,不像和人在打,有种手足无措的感觉。
半年后,AlphaStar再度迎来进化。
DeepMind将其APM (手速) 、视野都跟人类玩家保持一致的情况下,实现了对神族、人族、虫族完全驾驭,还解锁了许多地图。
与此同时,并宣布了一个最新动态:AlphaStar将登录游戏平台战网,匿名进行天梯匹配。
现在,伴随着最新论文发布,AlphaStar的最新战力也得到公布:击败了99.8%的选手,达到宗师级别。
DeepMind在博客中表示,这些结果提供了强有力的证据,证明了通用学习技术可以扩展人工智能系统,使之在复杂动态的、涉及多个参与者的环境中工作。
而伴随着星际2取得如此亮眼的成绩,DeepMind也开始将目光投向更加复杂的任务上了。
CEO哈萨比斯说:
星际争霸15年来一直是AI研究人员面临的巨大挑战,因此看到这项工作被《自然》杂志认可是非常令人兴奋的。
这些令人印象深刻的成果,标志着我们朝目标——创造可加速科学发现的智能系统——迈出了重要的一步。
那么,DeepMind下一步要做什么?
哈萨比斯也多次说过,星际争霸“只是”一个非常复杂的游戏,但他对AlphaStar背后的技术更感兴趣。
但也有人认为,这一技术非常适合应用到军事用途中。
不过,从谷歌与DeepMind 的态度中,这一技术更多的会聚焦在科学研究上。
其中包含的超长序列的预测,比如天气预测、气候建模。
或许对于这样的方向,最近你不会陌生。
因为谷歌刚刚实现的量子优越性,应用方向最具潜力的也是气候等大问题。
现在量子计算大突破,DeepMind AI更进一步。
未来更值得期待。你说呢?
One more thing
虽然AlphaStar战绩斐然,但有些人它还打不赢。
当时AlphaStar刚进天梯的时候,人类大魔王Serral就公开嘲讽,它就是来搞笑的。
但人家的确有实力,现在依旧能正面刚AI。
不过,敢这样说话的高手,全球就只有一个。
传送门
Nature论文:
https://doi.org/10.1038/s41586-019-1724-z
论文预印版:
https://storage.googleapis.com/deepmind-media/research/alphastar/AlphaStar_unformatted.pdf
博客文章:
https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-reinforcement-learning
对战录像:
https://deepmind.com/research/open-source/alphastar-resources
— 完—
本文经授权转载自量子位(ID:QbitAI),如需二次转载请联系原作者
果壳
ID:Guokr42
整天不知道在科普些啥玩意儿的果壳
我觉得你应该关注一下
喜欢别忘了点在看哟↘️游戏网
相关下载 |
原标题:药水哥卡牌直播冲峡谷之巅宗师,重新成名经典让网友回忆青春? 说起药水哥,可能绝大部分同学心中第一时间闪过的词汇不是“艺术家”就是“您配吗详情>>
少年侠客中的宗师元宝挑战副本有着非常丰厚的奖励,宗师元宝挑战怎么玩呢?下面小编就给大家带来了少年侠客宗师元宝挑战玩法攻略,一起来看看吧。宗师元宝挑战这里,可以提前通过元详情>>
“一代宗师”这个词,正是指武学上颇具造诣的高人,在《龙珠Z》中虽然悟空、贝吉塔等Z战士拥有高超的武力和潜力,但谈到一代宗师,大详情>>
在逆水寒中有不少的称号,很多称号是没有属性加成的,但是可以彰显自己独特的个性哦。这些称号的获取也是有一定条件的,比如说一代宗师这个称号,那么这个称号该怎么获得呢?下面就详情>>
一年一度的英雄联盟全球总决赛已经正式开始,随着不断的赛程推移,目前小组赛已经全部结束,马上就要迎来最精彩与残酷的淘汰赛阶段。而要说本届在小组赛当中,引起最大关注的队详情>>
王者模拟战怎么上分?王者模拟战吃鸡阵容怎么搭配?下面给大家带来王者模拟战大魏王套路阵容详解,一起来看看吧:今天给大家分享一个大魏王套路,很多朋友玩魏国队伍后期惧怕法师阵容详情>>
云顶之弈宗师怎么到王者?不少玩家对于上分一直存在执念,而今天小编就为大家带来了一篇云顶之弈宗师段位运营手法教学,快来学习上分的正确姿势吧。推荐阅读云顶之弈9.21版本详情>>
《云顶之弈》宗师怎么到王者宗师段位运营手法教学 2019-10-2011:46:10 即时战略RTS 人气值:加载中... 标签:阵容搭配|玩法技巧 云顶之弈宗师怎么到王者?不详情>>
原标题:竞技电竞的职业选手针对成吉思汗是怎样出装的呢 成吉思汗在本赛季的KPL中的表现可以说是精彩绝伦,虽出场率不高,但至少有了上场的机会,也拿了详情>>
最近,LPL的S9出征选手都陆续抵达了欧洲,并且开始了紧张有序的训练。全世界大部分的参赛选手都有官方给的欧服账号,可以说现在的欧服水平被职业选手给拉高了一截。 有网详情>>
最近,LPL的S9出征选手都陆续抵达了欧洲,并且开始了紧张有序的训练。全世界大部分的参赛选手都有官方给的欧服账号,可以说现在的欧服水平被职业选手给拉高了一截。 详情>>
在逆水寒中有不少的称号,很多称号是没有属性加成的,但是可以彰显自己独特的个性哦。这些称号的获取也是有一定条件的,比如说宫廷御用易容宗师这个称号,那么详情>>
云顶之弈怎么上宗师?段位是比较能直观的看出玩家实力强弱的标准,所以上分就是新手玩家最想做的事情,这里小编带来了一篇云顶之弈上宗师运营思路推荐,感兴趣的玩家快来看看吧详情>>
原标题:英雄联盟最高等级,即将跨入三千大关,还是个常拿五杀的宗师! 今年将会是英雄联盟十周年,对此拳头公司应该会准备一些好的活动来庆祝这么一个详情>>
大家好啊,这里依旧是你们的生存菜鸟电竞狂人。如今, 王者的全新s16也是如约而至了,这一次的改动可以说是非常的大,除了一些基本的英雄的改动之外,最受大家关注的一定是关于暴击的详情>>
一代宗师是一款以武林为题材进行设计制作的卡牌手游,游戏画风偏向于Q梦,给玩家展示了不一样的武林世界,武林中的帮派在游戏中得到了完美的展示,玩家可以自由的选择自己想要的帮详情>>
一代宗师变态版游戏给广大的玩家带来了大量的福利,即日起上线即可领取大量的奖励,连续每日登录签到更是可以获得史诗级的卡牌,让你轻松战胜对手,称霸武林世界。一代宗师变态版游详情>>
一代宗师bt版游戏给玩家展示了一个萌系的武侠世界,游戏区别于传统的武侠游戏,采用了清新的制作方式给玩家展示了不一样的武林经典,酷炫的游戏玩法开创了武侠游戏的新纪元,喜欢的详情>>
超级武侠大宗师是一款非常经典的武侠题材的卡牌手游,超多知名的武侠人物在这里得到了完美的还原,每个玩家都能体验到游戏带来的欢乐,游戏之中还有丰富的关卡等待玩家的挑战,千万详情>>
宗师传奇是一款仙侠类rpg手游,传奇风格类题材,极具东方韵味的古风画面,带你体验精美绝伦的仙侠世界~游戏分为仙魔人三族,有众多个性鲜明的角色供你选择,还能不断提升角色等级和技详情>>
大宗师是一款非常精彩刺激的玄幻武侠手游,游戏玩法十分丰富!你可以加入一个自己喜欢的武林门派,磨练好自己的战斗技巧,熟练掌握自己的功法技艺,将门派发扬光大,达到一定等级后,你还详情>>
在一梦江湖手游中,绝情探谷是20人宗师团本绝情探谷,难度大大提升,同时奖励也是相当丰厚的。不少玩家都想知道这个绝情探谷副本林清辉怎么打呢?下面就跟小编详情>>
朱文圭绝情探谷副本中的一个宗师本,是《一梦江湖》手游中的20人团队副本,通关奖励十分丰厚,但是这个团队副本难度有些大。那么这个副本该怎么打呢?下面就跟详情>>
原标题:丈夫由学霸变渣男,这个名门之女直接削发为尼,修炼成一代宗师 从学霸到渣男 李鸿章侄孙女婿出轨义女 原配愤而出家终成一代宗师。妻子不孕丈夫详情>>
是你说的这样 自动切换到下一个 详情>>
可以调整,在练功房调整 详情>>
《全面战争:三国》作为战争模拟类型的游戏,有着大量战争元素是值得玩家去研究的,这里带来的是新版本护甲宗师之言的介绍和分享,希望能够帮助到大家,应该有所启发! 宗师之言(独详情>>
原标题:王者荣耀:宗师之力,让打野流亚瑟成为打野宗师 在很多玩家的认知中,英雄的出装跟英雄的定位有很大的关系,比如法师适合出法术装,射手全输出而战士则详情>>
原标题:LOL宗师玩家的心声:原来上分,跟女朋友有很大关系 想必大家都知道,LOL新赛季的段位有了一个新的变化,不仅加入了备受瞩目的黑铁,而且还在大师段位之上增加了一详情>>
很多小伙伴都不知道我们的宗师四星的雨无歇怎么打,那么我们就一起来看看吧!方法/步骤1首先我们来了解了解我们的雨无歇,雨无歇是属于水属性的妖灵,我们可以用相应的克制妖灵打它详情>>
《一起来捉妖》能够打到宗师4的玩家都是很厉害的,那么这次木系的柳剪风应该怎么打呢?下面就跟着游侠网的小编来一起看看关于这次宗师4柳剪风的玩法详情>>
《一起来捉妖》宗师5应该怎么打呢?宗师5雨无歇这关的BOSS作为水系还是比较好打的,拥有土系的妖灵再搭配正常的妖灵都是能过的,下面就由游侠网的小编详情>>
楚留香手游副本难度又高又难,很多玩家不知道如何应对一些高难度的副本,今天就来为大家带来明月山庄宗师难度通关攻略,帮助各位尽早拿下副本奖励。 首先是队伍的配置:奶妈详情>>
原标题:游戏时光机丨2012 5 8《术士:秘术宗师》发售 本文由掌游宝狐印编写,禁止一切违规转载。 2012年5月8日 详情>>
原标题:终于不再是钻石了!蛇蛇助力Smlz喜提宗师 在LPL职业选手中,有两位一直在钻石界称王称霸。虽然不以排位论 详情>>
原标题:李哥是否过气?毒奶宗师Joker发表看法 前一段时间,有LCK次级联赛的解说表示称“2019 SKT只是名声大的过 详情>>
拳皇98终极之战ol每日一题2月28日,乱斗街区宗师组第3名可以获得多少钻石?答题格式:kof+答案,不知道答案的小伙伴们一起来看看吧。乱斗街区宗师组第3名可以获得多少钻石?答题格式:kof+答案详情>>
大家都知道在S9新赛季中,最强王者和超凡大师中间增加了一个宗师段位,那么宗师和大师有什么区别呢?今天小编就给大家说一说。正确答案宗师和大师最明显的区别就是排名的差别了,宗师是一个区的200-500名的详情>>
中文名称:术士:秘术宗师发布日期:2012-04-27更新日期:--文件大小:1.0M游戏语言:英文英文名称:Warlock:MasteroftheArcane游戏制作:Ino详情>>
中文名称:术士:秘术宗师发布日期:2012-05-09更新日期:--文件大小:155.0M游戏语言:英文英文名称:Warlock:MasteroftheArcane游戏制作:I详情>>
中文名称:术士:秘术宗师发布日期:2012-05-09更新日期:--文件大小:--游戏语言:英文英文名称:Warlock:MasteroftheArcane游戏制作:Ino详情>>
中文名称:术士:秘术宗师发布日期:2012-05-13更新日期:--文件大小:262.0M游戏语言:英文英文名称:Warlock:MasteroftheArcane游戏制作:I详情>>
中文名称:术士:秘术宗师发布日期:2012-05-30更新日期:--文件大小:266.0M游戏语言:英文英文名称:Warlock:MasteroftheArcane游戏制作:I详情>>
中文名称:术士:秘术宗师发布日期:2012-07-19更新日期:--文件大小:249.0M游戏语言:英文英文名称:Warlock:MasteroftheArcane游戏制作:I详情>>
中文名称:术士:秘术宗师发布日期:2012-08-04更新日期:--文件大小:254.0M游戏语言:英文英文名称:Warlock:MasteroftheArcane游戏制作:I详情>>