您当前所在位置: > 爆料站 > 有深度

边做边思考,谷歌大脑提出并发RL算法,机械臂抓取速度提高一倍!

时间:2020-05-11 13:29:35  来源:  作者:网络

原标题:边做边思考,谷歌大脑提出并发RL算法,机械臂抓取速度提高一倍!

选自arXiv

作者:Ted Xiao 等

机器之心编译

RL 算法通常假设,在获取观测值、计算动作并执行期间环境状态不发生变化。这一假设在仿真环境中很容易实现,然而在真实机器人控制当中并不成立,很可能导致控制策略运行缓慢甚至失效。为缓解以上问题,最近谷歌大脑与 UC 伯克利、X 实验室共同提出一种并发 RL 算法,使机器人能够像人一样「边做边思考」。目前,该论文已被 ICLR 2020 接收。

该研究在如下情况中研究强化学习:在受控系统随着时间演变的过程中同时对动作进行采样。换句话说,所研究的机器人必须在执行着上一个动作的同时考虑下一个动作。就如同人或动物一样,机器人必须同时思考及行动,在上一个动作完成之前决定下一个动作。

为了开发用于此类并发性控制问题的算法框架,研究者从连续时间的贝尔曼方程开始,随后以考虑系统延迟的方式进行离散化。通过对现有基于价值(value-based)的深度强化学习算法进行简单的架构扩展,该团队提出了一类新型近似动态规划方法,并在模拟基准任务和大规模机器人抓取任务上进行了评估(机器人必须「边走边思考」)。

以下分别为该方法在仿真与真实机器人上的运行效果:

  • 论文地址:https://arxiv.org/abs/2004.06089
  • 项目网页:https://sites.google.com/view/thinkingwhilemoving

并发动作环境

下图(a)表示在阻塞环境(blocking environment)中,动作以顺序阻塞的方式执行,假设在获取状态与执行动作之间环境状态不发生变化。我们也可以将其理解为:从智能体的角度看来,获取状态与推断策略是瞬间完成的。与此相反,图(b)中表示的并发环境(concurrent environment)在获取状态与推断策略之间并没有假设环境不变,而是允许环境在此期间发生变化。

阻塞环境与并发环境中不同阶段的执行顺序对比图。

基于价值的连续与离散并发强化学习算法

研究者从连续时间强化学习的角度开始探索,因为它可以轻松地表示系统的并发特性。之后研究者证明,基于连续情况得出的结论同样适用于随后在所有实验中使用的更为常用的离散环境。

连续环境方程

为了进一步分析并发环境,研究者引入下列符号。智能体在一个周期内选择 N 个动作轨迹(a_1 , ..., a_N),其中每个 a_i(t) 为一个用于产生控制,并以时间 t 作为变量的连续函数。令 t_{AS} 为获取状态、推断策略与任意额外通信时延的间隔时间。在 t 时刻,智能体开始计算状态 s(t) 的第 i 个动作 a_i(t)。同时,在时间间隔 (t − H + t_{AS},t+t_{AS}) 内执行之前选取的动作 a_{i−1}(t)。在 t+t_{AS} 时刻(t ≤ t+t_{AS} ≤ t+H),智能体切换到去执行来自 a_i(t) 的动作。并发环境下的连续 Q 函数可表示如下:

前两项分别对应执行 (t,t + t_{AS}) 时刻的动作 a_{i−1}(t) 和 (t + t_{AS},t + t_{AS} + H) 时刻动作 a_i(t) 的期望折扣回报。通过对随机方程 p 进行采样,可获得一个仅关于策略 rollouts 的单样本(single-sample)蒙特卡洛估计器 Q:

接下来,对于连续时间情形,研究者定义了一个新的并发贝尔曼 backup 算子:

以上算子将贝尔曼算子扩充为考虑并发动作的情形,研究者证明改进后的算子保持了其吸引域的特性,这对于 Q-learning 的收敛性至关重要。

离散环境方程

为了简化离散情形下的符号(此时动作方程 a_i(t) 与该方程在 t 时刻的值 a_i(t) 并非必需),研究者将当前状态设置为 s_t,将当前动作设置为 a_t,将上一时刻动作设置为 a_{t−1}(分别将其下标 i 替换为 t)。在以上符号记法下,研究者定义了离散情形下的并发 Q 方程:

其中 t_{AS′} 为动作 a_t 在 t + t_{AS} 时刻开始执行时的「溢出间隔」(spillover duration)。于是,并发贝尔曼算子(以下标 c 表示)为:

与连续情形类似,研究者也证明了该离散贝尔曼算子是一个吸引域。

实验结果

简单一阶控制问题

首先,研究者通过对标准的 Cartpole 和 Pendulum 环境的并发版本进行控制变量研究,说明了并发控制范式对基于价值的 DRL 方法的影响。

为了估计不同并发知识表示的相对重要性,研究者分析了每种并发知识表示对其他超参数值组合的敏感性,如下图所示:

Cartpole 和 Pendulum 环境中的实验结果。

大规模机械臂抓取任务

接下来,研究者分别在仿真与真实机械臂上进行了实验。

图 3:仿真和真实环境下的机械臂抓取任务图示。

表 1 通过对无条件模型与并发知识模型进行比较总结了阻塞和并发模式的性能。并发知识模型能够学习更快的轨迹,其周期持续时间与阻塞无条件模型相比减少了 31.3%。

表 1:大规模仿真机械臂抓取任务的实验结果。

此外,研究者在现实世界机器人抓取任务中,对比了并发模型和阻塞模型的定性策略行为,如图 3b 所示。

如表 2 所示,这些模型在抓取成功方面性能相当,但是就策略持续时间而言,并发模型比阻塞模型快 49%(策略持续时间用来衡量策略的总执行时间,但不包括在周期持续时间中的基础架构建立和拆除时间,并发操作无法对此优化)。

表 2:真实机械臂抓取结果。

本 文为机器之心编译, 转载请联系本公众号获得授权 。游戏网

相关下载

玩家评论

国服钟无艳有多强?掌握这个技巧,伤害增加一倍

Hello大家好,我是沐辰。王者荣耀S19赛季的对战环境正逐渐由射手当道变为百花齐放,而从最近的体验服调整方向来看,中单和对抗路无疑是天美改动的重点详情>>

阅读: 0
日期: 2020-05-08
入户装上镜面柜,家里看起来比以前大上一倍!_设计

原标题:入户装上镜面柜,家里看起来比以前大上一倍! 这套案例的业主,极其注重家里的整洁度,同时又希望它是美观的。 设计师在入户两旁装上了镜面柜,不仅详情>>

阅读: 3
日期: 2020-05-08
4个月翻一倍,消费级VR风起时

  欢迎关注“创事记”微信订阅号:sinachuangshiji   《半条命》主菜单界面高耸入云的铁塔   Half-life: Alyx上线后,全球VR头显缺货中。  详情>>

阅读: 2
日期: 2020-05-08
限购的时候再购买?会多花一倍的价钱吗?

如果现在这个阶段不买的话,等到限购了确实要花一倍的价格了,因为一个城市如果限购了的话证明这个城市马上发展到峰值了。详情>>

阅读: 3
日期: 2020-04-08
3月热搜榜:千玺霸榜比蔡徐坤高接近一倍——杨幂杨紫数值也太低了!_排名第一

原标题:3月热搜榜:千玺霸榜比蔡徐坤高接近一倍——杨幂杨紫数值也太低了! 三月份马上就要过去了,来一起看看三月份全平台热搜总结TOP10有没有你的爱豆详情>>

阅读: 3
日期: 2020-03-31
《精灵物语》新手8件事,快人一倍!

《精灵物语》是一款以宝可梦为主题的动漫风卡牌手游。游戏以回合制对战和卡牌养成为核心玩法,人物、场景以及最重要的宝可梦都高度还原了当年的精灵宝可梦动画。在游戏中,你详情>>

阅读: 9
日期: 2020-02-17
DNF:这次师傅蒙对了,这个道具价格涨了一倍,玩家都懵了

小伙伴们好呀,我是猫幼,今天也是充满希望的一天。 地下城与勇士100版本已经离我们越来越近了,策划已经透漏风声,3月19日国服即将上线100版本,届时鬼剑详情>>

阅读: 69
日期: 2020-02-15
《精灵物语》新手8件事,快人一倍!_游戏新闻

《精灵物语》是一款以宝可梦为主题的动漫风卡牌手游。游戏以回合制对战和卡牌养成为核心玩法,人物、场景以及最重要的宝可梦都高度还原了当年的精灵宝可梦动画。在游戏中,你将详情>>

阅读: 13
日期: 2020-02-14
《精灵物语》新手搞懂这8件事,升级速度比别人快一倍!

《精灵物语》是一款以宝可梦为主题的动漫风卡牌手游。游戏以回合制对战和卡牌养成为核心玩法,人物、场景以及最重要的宝可梦都高度还原了详情>>

阅读: 4
日期: 2020-02-14
DNF:春节版本两星期后物价,各道具波动较大,价格上涨了一倍!

1.14版本上线已经两个星期,各道具物价波动较大,起初价格偏低,但最终还是稳步上涨。而且,此次礼包的数量,远比之前要少,拍卖行页数较低。两星期过去,大部分详情>>

阅读: 18
日期: 2020-01-28
高领毛衣一穿,气质提升一倍_设计

原标题:高领毛衣一穿,气质提升一倍 图片源自网络 冬天里最少不了的就是高领毛衣,除了保暖,穿上后整个人的气质都会提升。 图片源自网络 高领毛衣搭详情>>

阅读: 8
日期: 2019-12-24
涨价近一倍,仍然卖到脱销,任天堂健身环用什么征服了肥宅

距离任天堂《健身环大冒险》发售已经过去了一段时间,这个看上去比较奇葩的游戏外设,仅在日本就卖出了24万份,甚至一度卖到了缺货的状态。韩国的健身环详情>>

阅读: 12
日期: 2019-11-17
涨价近一倍,仍然卖到脱销,任天堂健身环用什么征服了肥宅_游戏

原标题:涨价近一倍,仍然卖到脱销,任天堂健身环用什么征服了肥宅 距离任天堂《健身环大冒险》发售已经过去了一段时间,这个看上去比较奇葩的游戏外设,仅详情>>

阅读: 6
日期: 2019-11-17
Doinb和小天加入 FPX常规赛胜率升一倍

  没有永远的王朝,强如SKT都曾在S8赛季经历过低谷。在我们LPL赛区,OMG和LGD都曾有过辉煌,相比之下御三家的RNG和EDG的辉煌时间持续比较久,EDG从S4赛季一直到S8赛季连续五年打详情>>

阅读: 16
日期: 2019-11-10
玩家都被任天堂骗了!宝可梦新作内容扩充一倍多,能玩40小时?

原标题:玩家都被任天堂骗了!宝可梦新作内容扩充一倍多,能玩40小时? 嗨,大家好,我是游戏圈那点事柚子。随着《宝可梦剑/盾》发售日期的临近,这款游戏的更多细节详情>>

阅读: 10
日期: 2019-10-30
《阴阳师:百闻牌》计费测试结束,参与玩家超出预期一倍

原标题:《阴阳师:百闻牌》计费测试结束,参与玩家超出预期一倍 导语:为期十天的《阴阳师:百闻牌》安卓计费删档测试已于10月25日23:59结束。据官方公布,详情>>

阅读: 7
日期: 2019-10-28
未成年人保护法再次大修增加近一倍条款:顺应时代变化

未成年人保护法(修订草案)10月21日提请十三届全国人大常委会审议,该法在2006年进行了一次较大幅度的修改,这是继上次修订13年后全国人大对该法的再一次大幅度修订。1991年该法制详情>>

阅读: 6
日期: 2019-10-22
五代机生产线扩充一倍,工厂过节无休全力加班:挑战3500目标

原标题:五代机生产线扩充一倍,工厂过节无休全力加班:挑战3500目标 第五代战斗机是未来空战的发展方向。而美国则试图打造庞大的空中五代机群维持甚至详情>>

阅读: 12
日期: 2019-09-05
精彩推荐