论文速读-OmniReset:RL探索新拐杖
OmniReset笃定RL卡壳有时不是模型不够强若初始状态s_0分布太窄再多并行环境也容易在同一团状态–动作里打转长时域、强接触任务就学不动。OmniReset用任务无关的程序化reset自动构造多样化初态在无演示、无行为课程、奖励模板跨任务共用的条件下让多阶段策略涌现最后通过师生蒸馏得到RGB视觉动作策略零样本上真机。1. 问题操作无法scale up的原因Locomotion上并行仿真RL已很常用manipulation却仍常要逐任务做奖励工程、课程、演示或规划脚手架。探索饱和rollout总在窄的状态切片里转成功太难得导致RL几乎学不到正确决策。反观大语言模型扩数据与算力简单 RL就能明显涨点。本文重点介绍了通过自动化reset pipeline让RL在大批量训练过程中反复覆盖完成任务所必须得关键状态我们来看看他是怎么做到的有什么局限性。2. 大行为空间 vs. 小原子阶段表面上行为千差万别翻面、拧入、插入……但真正能复用的子阶段其实很少靠近Reaching、发起接触Near-Object、稳抓Stable Grasp、接近目标Near-Goal。用通用规则做程序化reset让每局初态从某一阶段均匀采样等于给探索提供了强有力的结构化支撑避免了探索过早饱和。3. OmniReset 是什么在最小任务定义下自动生成、校验、缓存宽初态集每局s_0从其中均匀采样。因此这是一个期待通过宽分布的初态解决探索饱和问题的尝试。3.1 问题形式与用户输入使用OmniReset需要三个输入代码层对应在环境里标出可操作物体、提供可采样的目标位形、划定机械臂工作区。目标物体场景中要被搬到目标位形的那一个刚体目标集合目标物体的一组目标构型因此任务可以描述为把目标物体移动到目标集合。工作空间例如桌面的可操作区域用于约束物体与末端可出现的范围。3.2 四类reset初态怎么构造Grasp Sample先用ORBIT自带的grasp sampler在目标物体 上得到约1000个可行抓取随机噪声再把目标物体摆在目标集合上加小随机力让位形略微脱离完全对准的位置得到一簇贴近goal的相对位形用来支撑Near-Goal得到以上数据再按规则写出四个初态集合Reaching是桌面随机物体 工作区随机末端Near-Object是桌面物体 末端落在某一抓取点附近小噪声且夹爪随机开合Stable Grasp是物体在工作区内随机悬空 末端落在可行抓取上Near-Goal是物体取自goal邻域偏移集、末端与Near-Object同样与物体接触。数据分类后会在仿真环境下进一步筛掉不合理的状态样本初态集合就算是构造好了这些状态之间不会设置任何的连接关系完全由RL自主去学习。3.3 训练训练方法和奖励设计整体上中规中矩通过PPO训练奖励函数比较通用。后续又通过师生蒸馏得到了一个接收视觉RGB输入的模型。4. 总结与反思强化学习强化学习工程实践中最困难的点在于平衡探索和利用如何鼓励策略在更大范围内探索到可行空间同时提升经验数据的利用率一直是研究的热点本文主要强调的是提升强化学习的探索性通过reset这样一根拐杖减少了策略饱和发生的几率。随机初始化相似的思想在RL领域也不少见如DeepMimic强调了随机初始化不同点在于OmniReset不是在参考轨迹上随机选取起点而是在一个结构化数据集上进行随机采样。还差什么依然需要人工施加一定的干预放在具身智能的大背景下是否有可能通过时下热门的openclaw等智能体 OmniReset思想 真机强化如SERL构造一个自动可在线学习的系统呢参考Yin, P. et al. Emergent Dexterity via Diverse Resets and Large-Scale Reinforcement Learning.Mittal, M. et al. ORBIT: A Unified Simulation Framework for Interactive Robot Learning Environments.Peng, X. B. et al. DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills.项目页https://weirdlabuw.github.io/omnireset/论文速读-OmniResetRL探索新拐杖https://weirdlabuw.github.io/omnireset/