原标题:超越99.9%人类玩家,微软专业十段麻将AI论文细节首次公布
在去年 8 月底的世界人工智能大会上,时任微软全球执行副总裁的沈向洋正式对外宣布了微软亚洲研究院研发的麻将 AI「Suphx 」 。近日,关于 Suphx 的所有技术细节已经正式公布。
继围棋、德州扑克、Dota、星际争霸之后,微软亚洲研究院的「Suphx」创造了 AI 在游戏领域的另一跨越性突破——麻将。
一直以来,麻将都因其复杂的出牌、得分规则和丰富的隐含信息,被视为 AI 研究中极具挑战性的领域。微软亚洲研究院副院长刘铁岩曾表示:「可以说 Dota 这类游戏更「游戏」,而麻将这类棋牌游戏更「AI」。」
Suphx 代表着 AI 系统在麻将领域取得的最好成绩,它也是首个在国际知名专业麻将平台「天凤」上荣升十段的 AI 系统,其实力超越了该平台与之对战过的 99.9% 的人类选手。
不久前,微软麻将 AI 研究团队在 arXiv 上首次公开发布了 Suphx 的论文,而 Suphx 背后的更多技术细节也随之公开。
论文链接:https://arxiv.org/abs/2003.13590
方法概述
在论文中,研究者创建了适用于 4 玩家日本麻将的 AI 系统 Suphx(Super Phoenix 的简称,意为超级凤凰),它采用深度卷积神经网络作为模型。首先,根据人类职业玩家的日志,他们通过监督学习对网络进行训练;然后以网络为策略,通过 self-play 强化学习(RL)实现网络增强。具体而言,研究者使用流行的策略梯度算法来进行 self-play 强化学习,并提出以全局奖励预测(global reward prediction)、Oracle guiding 和 pMCPA 三种技术来解决已知的一些挑战:
最后,研究者在最流行且拥有 35 万多个活跃玩家的麻将平台天凤上对提出的 Suphx 进行了评估,结果显示,Suphx 达到了 10 段水平,其稳定段位(stable rank)超越了大多数人类玩家。
Suphx 算法
Suphx 的学习主要包含三个步骤。首先通过监督学习,使用从天凤平台收集的顶级玩家对弈数据(状态,动作),训练 Suphx 的五个模型(discard、Riichi、Chow、Pong 和 Kong)。然后通过 self-play 强化学习来改进监督模型,并将这些模型作为策略。研究者采用策略梯度算法,并引入了全局奖励预测和 oracle guiding 来应对麻将中的一些独特挑战。接下来,在线上游戏过程中,研究者采用运行时策略调整来利用当前轮次的新观察结果,以便得到更好的效果。
下图展示了几个模型的结构:
图 4:discard 模型的结构。
图 5:Riichi、Chow、Pong 和 Kong 模型的结构。
结合熵正则化的分布式强化学习
Suphx 的训练是基于分布式强化学习,具体来说是采用了策略梯度方法,并利用重要性采样来处理由于异步分布式训练而导致的轨迹(trajectory)陈旧:
在上式中,θ'是用于训练旧策略的轨迹的参数,θ是更新的最新策略,而 A^{π_θ}(s, a) 则表示 a 相对于策略π_θ操作中的优势。
研究者发现 RL 训练对策略的熵很敏感。如果熵太小,强化学习训练的结果则会迅速收敛,自我迭代不能显著改善其策略;如果熵太大,则 RL 训练会变得不稳定,并且学习的策略也会变得有很大的差异。
其中 H(π_θ) 是策略π_θ的熵,而α> 0 则是权衡系数。
Suphx 使用的分布式 RL 系统如下图 6 所示。该系统由多个自我迭代组成,每个包含一组基于 CPU 的麻将模拟器以及一组基于 GPU 的推理引擎,以生成轨迹。策略π_θ的更新与轨迹的生成是分离的:参数服务器基于缓冲区来使用多个 GPU 制定更新策略。
图6:Suphx 中的分布式 RL 系统。
全局奖励预测机制
为了使得为 RL 训练提供有效的信号,需要适当地将最终游戏奖励(全局奖励)归因至每一回合游戏中去。为此研究者引入了全局奖励预测Φ,它能够根据游戏的当前回合和所有先前回合的信息来预测最终的游戏奖励。在 Suphx 中,奖励预测因子Φ是循环神经网络。具体一点,是两层门控循环单元(gated recurrant unit,GRU),以及两层完全连接的层,如下图 7 所示:
奖励预测器:GRU 网络。
奖励预测变量Φ的训练数据是来自「天凤麻将」里的顶级玩家的日志,并且通过最小化均方误差来训练Φ:
当Φ训练得差不多时,对于具有 K 轮的自我迭代,将「Φ(x^k)-Φ(x^{k-1})」作为 RL 训练的第 k 轮奖励。
Oracle Guiding
在 Suphx 中,要做的首先是使用所有特征(包括完善特征)进而通过强化学习来训练 oracle agent。然后,再逐渐减少完美特征,以便 oracle agent 最终能将转换为 normal agent:
其中,x_n(s) 表示状态 s 的一般完美特征,x_o(s) 表示状态 s 的其他理想特征,而δ_t 是第 t 次迭代时的丢失矩阵,其原理是伯努利变量,其中 P(δt(i, j) = 1)=γ_t。
参数化蒙特卡洛策略调整
研究者提出一种称为参数化蒙特卡洛策略调整的全新方法。在每一局的开始阶段,使用如下方法调整离线训练的策略以适应其初始私有牌:
使用 h 表示本轮中智能体的私有手牌,θ_o 表示离线训练策略的参数,θ_a 为针对本轮调整后新策略的参数,于是:
其中,T (h) 为在 h 手牌下的轨迹集合,p(τ;θ) 表示策略在以θ为参数时产生轨迹τ的概率。
离线评估
监督学习
在 Suphx 中,研究者通过监督学习分别训练了五个模型。每个训练样本都是从职业玩家那里收集的「状态-动作」对,状态作为输入,动作作为监督学习的标签。
训练数据的大小以及测试准确性如下图:
表 3: 监督学习结果。
强化学习
为了演示 Suphx 中每个 RL 组件的价值,研究者训练了几个麻将智能体:
下图 8 展示了这些智能体的 1000 多个样本中稳定段位的四分位间距。
图 8:一百多万场比赛的稳定段位数据。
通过全局奖励预测器将游戏奖励分配到每个回合,训练有素的智能体能够更好地将最终游戏奖励最大化,而不只是每一回合的得分。图 9 中的智能体(朝南向的玩家)在最后一局中遥遥领先,并且抓得一手好牌。
在线评估
为了评估 Suphx 的真实性能,研究者让 Suphx 在最流行的日本麻将在线平台「天凤」上实战,「天凤」有两种房间,一种是专家室(expert room),一种是凤凰室(phoenix room)。专家室仅对 AI 和 4 段以上的人类玩家开放,凤凰室仅对 7 段以上的人类玩家开放。基于此,Suphx 只能选择专家室。
下表 4 是 Suphx 与 AI/人类玩家的对战结果比较,在稳定性上,Suphx 比 Bakuuchi 和 NAGA 都要高出大概两个段位,后两者是此前最强大的两个麻将 AI 系统。
表 4:Suphx 与其他 AI/人类玩家的对比。
下图 11 展示了天凤上活跃用户的段位记录,Suphx 超越了 99.9% 的人类玩家。
图 11:天凤平台上的人类玩家分数记录情况。每个条形图代表的是该平台上每一级别以上的玩家数量。
图 13:Suphx 保留了一张安全牌来平衡攻与守。一般来说,人类玩家可能会把红框里的那张牌打出去,但 Suphx 却留它在手,打了蓝框里的那张牌。这样可能会和牌慢一些,但可以为之后的出牌提供更大的灵活性。
假如另一玩家打出了意料之外的 s_{t+k},那么 Suphx 可以将安全牌打出去,但不影响和牌;如果 Suphx 先前就打了红框那张牌,那么等到 s_{t+k} 的时候,就没有合适的牌可以出了,只能把手里已经有的对子拆开,最终会影响和牌,导致更小的获胜概率。
本 文为机器之心报道, 转载请联系本公众号获得授权 。游戏网
相关下载 |
原标题:李佳琦直播首次被吊打,和央视主持一起带货,是网红与科班的差距 李佳琦在主播界风头两无,唯有薇娅可以与他一较高下。前几天新晋网红罗永浩搞了详情>>
原标题:首次全面曝光《雾魇之夏》角色隐藏资料揭秘 悬疑类AVG游戏《雾魇之夏》PC端即将上线,steam现已开启商店。作为一款叙事游戏,人物的刻画是至关详情>>
原标题:超越99.9%人类玩家,微软专业十段麻将AI论文细节首次公布 在去年 8 月底的世界人工智能大会上,时任微软全球执行副总裁的沈向洋正式对外宣布详情>>
原标题:天弘余额宝:7日年化收益率首次跌破2% 中证网讯(记者 王宇露) 支付宝数据显示,截至4月6日,天弘余额宝货币市场基金7日年化收益率为1.9780%,自2013年5月29日详情>>
原标题:受疫情影响,高尔夫英国公开赛二战后首次取消 中新网客户端4月7日电 当地时间6日,高尔夫英国公开赛主办方宣布,原计划于7月16日在英格兰皇家圣详情>>
清空微博自闭4个月后,IG宝蓝首次更新!评论过千却没人想他回归 自从春节过后,IG在LPL春季赛中的表现愈发让粉丝惊喜。除了在跟ES的对战中发挥失常以外,几乎每一场详情>>
原标题:加拿大联邦首席医疗官首次承认戴口罩有助于防疫 加拿大联邦首席医疗官谭咏诗当地时间6日在例行的新闻发布会上承认,戴口罩有助于防止疫情的详情>>
原标题:高尔夫英国公开赛宣布取消,二战以来首次 新京报讯 受新冠肺炎疫情影响,原定于今年7月12日至19日在肯特举行的高尔夫英国公开赛宣布取消,推迟至详情>>
原标题:博人传:壳组织首次在动画中亮相,木叶村遭到毁灭 随着日本动漫火影忍者《博人传》动画版权在内地续约,动画第151集正常更新,本集变化比较大的是详情>>
原标题:雪球首次发布季度热股榜与失宠榜 助股民快速掌控最新风向 在刚刚过去的“见证历史”的一季度,投资者经历了百年美股仅有的五次熔断中的四次详情>>
原标题:银联手机支付Huawei Pay首次落地新加坡 中证网讯(记者 彭扬)中国银联网站6日消息,银联国际近日与华为、中国工商银行新加坡分行合作,首次在新加详情>>
原标题:《废土:复刻版》发售后首次降价促销 国区32元 关于这款游戏: 2087年,在一场全面的核战争把地球大片地区变成放射性地狱的近一个世纪之后,你将详情>>
原标题:和平精英:主播精彩大乱斗,包子首次担任指挥就拿下最强称号 经常关注和平精英的玩家也是早已发现,游戏经过更新之后沙尘暴模式已经开启。这样一详情>>
经常关注和平精英的玩家也是早已发现,游戏经过更新之后沙尘暴模式已经开启。这样一个刺激的自然灾害地图收到了许多玩家的好评,官方也是趁热打铁举办了一场全平详情>>
原标题:95后小花,被陈建斌称为“泥石流女孩”,首次演女主就获一众好评 在许多人耳中,虞书欣这个名字并不是多么熟悉。她是非常潜力的新晋小花,在热播的详情>>
【导读】《废土:复刻版》2020年2月正式登陆Steam国区,官方近日开启了限时折扣活动,一起来看看吧。--> 《废土:复刻版》2020年2月26详情>>
《废土:复刻版(Wasteland Remastered)》发售后首次进行降价促销,日前游戏在Steam国区售价32元(原价50元),不支持中文。复刻版2020年2月26日发售,Steam评价为“多半好评”。 详情>>
原标题:美国首次出现动物“中招”,老虎病毒检测呈阳性 据彭博社和哥伦比亚广播公司报道,美国首次出现动物“中招”,纽约布朗克斯动物园一只4岁的老虎详情>>
原标题:纽约新冠肺炎病例单日死亡数量首次下降 中新社纽约4月5日电 纽约州州长安德鲁·科莫5日称,纽约州4日新增新冠肺炎死亡病例594例,这是新冠肺炎详情>>
原标题:故宫博物院首次进行网络直播 4月5日,闭馆中的故宫博物院联合多家媒体,首次进行网络直播,让观众在家就能感受故宫的美。据悉,本次直播在4月5日详情>>
原标题:新加坡单日新增新冠肺炎病例首次过百 累计确诊1309例 新加坡跨部门工作小组今天(5日)下午在新闻发布会上确认,当天新增新冠肺炎确诊病例120例,详情>>
原标题:通讯:中国无私传授第一手抗疫经验——记中厄医疗专家首次跨国防疫经验交流视频会 新华社基多4月4日电通讯:中国无私传授第一手抗疫经验——记详情>>
原标题:武汉无疫情小区占比略有下降 首次将无症状感染者纳入考评范围 (抗击新冠肺炎)武汉无疫情小区占比略有下降 首次将无症状感染者纳入考评范围详情>>
原标题:意大利重症监护患者首次下降 官员:不要认为即将胜利 (观察者网讯)意大利卫生部网站最新数据显示,截至当地时间4月4日下午6点,意大利境内累计有12详情>>
原标题:日本东京都首次单日新冠肺炎确诊病例超过百人 据NHK从东京都政府消息人士处获悉,4月4日东京都确诊新冠肺炎感染者超过110人,是疫情发生以来首详情>>
原标题:首次!原位X射线全场影像揭示激光增材制造过程中熔体流动动力学机制 激光天地导读:增材制造过程中熔体的流动是非常重要的过程。本文采用原位详情>>
相关新闻: 刘强东卸任京东法定代表人、执行董事、总经理 4月4日下午消息,今年以来,刘强东频繁卸任京东旗下公司高管职位,截至目前已达到33家企业。京东集团详情>>
原标题:美国密歇根州首次公开病例种族构成,黑人确诊及死亡占比最高 根据美国密歇根州首次公布的数据,黑人占到该州新冠肺炎确诊病例的35%,占到死亡病详情>>
原标题:每经10点丨我国首次因重大突发公共卫生事件启动全国性哀悼;国家药监局:凡是出口医疗器械产品质量存在问题的,要立即停产整顿 每经编辑:胡玲 1丨详情>>
原标题:SpaceX发布载人龙飞船内部照片,拟五月份首次运送宇航员 图片来源:SpaceX 文|腾讯科技 "SpaceX计划于5月中旬至下旬搭乘猎鹰9号火箭发射升详情>>
原标题:华晨宇尚雯婕首次合作,“王牌歌手”大赛今晚开唱 猛犸新闻·东方今报 首席记者 吴净净 总有一些歌声收录着我们一路成长的点点滴滴,总有一详情>>
原标题:解读|中共与全世界政党为防疫首次发出共同呼吁背后的深意 当前,新冠肺炎全球累计确诊病例已突破100万例。4月1日,联合国秘书长古特雷斯表示,新详情>>
原标题:美国3月非农就业人数减少70.1万人,十年来首次为负 据外媒报道,美国3月非农就业人数减少70.1万人,自2010年以来首次录得负值,前值增加27.3万人。详情>>
原标题:微软最强麻将AI首次公开技术细节!专业十段水平,或能用于金融预测 智东西(公众号:zhidxcom) 编 | 董温淑 智东西4月3日消息,微软公司于去年8月推详情>>
原标题:首次!两百多个政党就国际抗疫合作呼吁:抵制歧视任何国家 4月2日,中国共产党同世界上100多个国家230多个政党联合就加强国际抗疫合作发表共同呼详情>>
原标题:英国建成“方舱医院” 查尔斯王子将首次远程揭幕 [海外网4月3日|战疫全时区]英国克拉伦斯宫发布声明称,查尔斯王子将在当地时间3日通过视频详情>>
【导读】《Risk of Rain 2》在于3月31日发布更新,将1代中的神器系统带回来,更新就开始打折!真是良心!今天更是打出史低价!真的很服气!这样的厂商请多给我来几个!--> 详情>>
原标题:《海贼王》尾田首次公布索隆师傅耕四郎身世,他不是出生在和之国 在《海贼王》中,男二号索隆一共有两个师傅,一个是世界第一剑豪,前七武海成员“详情>>
大家好,众所周知,腐团儿是一个颜值主播。虽然她走的是二次元路线,但是她的才艺很多。例如唱歌跳舞之类的,腐团儿她都会。唯一可惜的是,这两样她都不是详情>>
原标题:美总统顾问库什纳首次出席简报会:要为抗疫带来“创新手段” 【海外网4月3日|战疫全时区】 当地时间2日,美国总统顾问贾里德⋅库什纳(Jared K详情>>