发布者认证信息(营业执照和身份证)未完善,请登录后完善信息登录
 终于找到DeepMind提出基于视觉的强化学习模型,十八般兵器对机器人不在话下价格|图片 - 客集网
Hi,你好,欢迎来到客集网
  • 产品
  • 求购
  • 公司
  • 展会
  • 招商
  • 资讯
  • 解梦
当前位置: 首页 » 产品 » 农业 » 农机 » 种植业机械 找商家、找信息优选VIP,安全更可靠!

终于找到DeepMind提出基于视觉的强化学习模型,十八般兵器对机器人不在话下

终于找到DeepMind提出基于视觉的强化学习模型,十八般兵器对机器人不在话下_图片
图片仅供参考,点击图片可查看大图
价格面议 询价 品牌:软件开发有限公司QVT 有效期至:长期有效 浏览次数:72 最后更新:2022-12-01 22:05 电话13988889999 张生先生
先付费或远低于市场价的均可能是骗子,请谨防受骗;举报请联系客服!联系商家时请说在【客集网】上看到的!
信息详情

人类是擅于模仿的,我们和其他动物通过观察行为来模仿,理解它对环境状态的感知影响,并找出我们的身体可以采取什么行动来达到类似的结果。

对于机器人学习任务来说,模仿学习是一个强大的工具。但在这类环境感知任务中,使用强化学习来指定一个回报函数却是很困难的。

DeepMind最新论文主要探索了仅从第三人称视觉模仿操作轨迹的可能性,而不依赖action状态,团队的灵感来自于一个机器人机械手模仿视觉上演示的复杂的行为。

DeepMind提出的方法主要分为两个阶段:

1、提出一种操作器无关的表示(MIR, Manipulation-Independent Representations),即不管是机械手、人手或是其他设备,保证这种表示都能够用于后续任务的学习

2、使用强化学习来学习action策略

与操作器无关的表示

领域适应性问题是机器人模拟现实中最关键的问题,即解决视觉仿真和现实之间的差别。

1、 随机使用各种类型操作器,各种仿真环境用来模拟现实世界

2、加入去除操作臂后的观察

3、时序平滑对抗网络(TSCN, Temporally-Smooth Contrastive Networks),相比TCN来说,在softmax交叉熵目标函数中增加了一个分布系数p,使得学习过程更加平滑,尤其是在cross-domain的情况。

使用强化学习

MIR表示空间的需求是actionable的,即可用于强化学习,表示为具体的action。

一个解决方案是使用goal-conditioned来训练策略,输入为当前状态o和目标状态g。这篇文章提出一种扩展方式,cross-domain goal-conditional policies,输入当前状态o和跨域的目标状态o',最小化到达目标的行动次数。

数据和实验

研究小组在8个环境和场景(规范模拟、隐形手臂、随机手臂、随机域、Jaco Hand、真机器人、手杖和人手)上进行了实验,以评估通过未知机械手模拟无约束操作轨迹的性能。

他们还用了一些基线方法,如朴素的goal conditioned plicies (GCP)和temporal distance。

MIR 在所有测试领域都取得了最好的性能。它在叠加成功率方面的表现显著提高,并且以100% 的分数很好地模仿了模拟的 Jaco Hand 和 Invisible Arm。

这项研究论证了视觉模仿表征在视觉模仿中的重要性,并验证了操作无关表征在视觉模仿中的成功应用。

未来工厂中的机器人将拥有更强大的学习能力,并不局限于一种特定工具,一种特定任务。

 

软件开发有限公司QVT 会员等级:企业会员优选VIP更值得信赖! 所在地区:全国 成立年份:2010年 公司电话:13988889999 联系姓名:张生(先生) 联系手机:13988889999 经营范围:软件开发有限公司QVT 公司地址:软件开发有限公司QVT 执照认证 实名认证 电话认证 邮箱认证 企业认证
背景开启

客集网是一个开放的平台,信息全部为用户自行注册发布!并不代表本网赞同其观点或证实其内容的真实性,需用户自行承担信息的真实性,图片及其他资源的版权责任! 本站不承担此类作品侵权行为的直接责任及连带责任。

如若本网有任何内容侵犯您的权益,请联系 QQ: 1130861724

网站首页 | 信息删除 | 付款方式 | 关于我们 | 联系方式 | 使用协议 | 版权隐私 | 网站地图 (c)2014-2024 Rights Reserved 鄂公网安备42018502007153 SITEMAPS 联系我们 | 鄂ICP备14015623号-21

返回顶部