论文速读-OmniReset：RL探索新拐杖

张

张建站

2026/4/8 3:31:01

10分钟阅读

OmniReset笃定RL卡壳有时不是模型不够强若初始状态s_0分布太窄再多并行环境也容易在同一团状态–动作里打转长时域、强接触任务就学不动。OmniReset用任务无关的程序化reset自动构造多样化初态在无演示、无行为课程、奖励模板跨任务共用的条件下让多阶段策略涌现最后通过师生蒸馏得到RGB视觉动作策略零样本上真机。1. 问题操作无法scale up的原因Locomotion上并行仿真RL已很常用manipulation却仍常要逐任务做奖励工程、课程、演示或规划脚手架。探索饱和rollout总在窄的状态切片里转成功太难得导致RL几乎学不到正确决策。反观大语言模型扩数据与算力简单 RL就能明显涨点。本文重点介绍了通过自动化reset pipeline让RL在大批量训练过程中反复覆盖完成任务所必须得关键状态我们来看看他是怎么做到的有什么局限性。2. 大行为空间 vs. 小原子阶段表面上行为千差万别翻面、拧入、插入……但真正能复用的子阶段其实很少靠近Reaching、发起接触Near-Object、稳抓Stable Grasp、接近目标Near-Goal。用通用规则做程序化reset让每局初态从某一阶段均匀采样等于给探索提供了强有力的结构化支撑避免了探索过早饱和。3. OmniReset 是什么在最小任务定义下自动生成、校验、缓存宽初态集每局s_0从其中均匀采样。因此这是一个期待通过宽分布的初态解决探索饱和问题的尝试。3.1 问题形式与用户输入使用OmniReset需要三个输入代码层对应在环境里标出可操作物体、提供可采样的目标位形、划定机械臂工作区。目标物体场景中要被搬到目标位形的那一个刚体目标集合目标物体的一组目标构型因此任务可以描述为把目标物体移动到目标集合。工作空间例如桌面的可操作区域用于约束物体与末端可出现的范围。3.2 四类reset初态怎么构造Grasp Sample先用ORBIT自带的grasp sampler在目标物体上得到约1000个可行抓取随机噪声再把目标物体摆在目标集合上加小随机力让位形略微脱离完全对准的位置得到一簇贴近goal的相对位形用来支撑Near-Goal得到以上数据再按规则写出四个初态集合Reaching是桌面随机物体工作区随机末端Near-Object是桌面物体末端落在某一抓取点附近小噪声且夹爪随机开合Stable Grasp是物体在工作区内随机悬空末端落在可行抓取上Near-Goal是物体取自goal邻域偏移集、末端与Near-Object同样与物体接触。数据分类后会在仿真环境下进一步筛掉不合理的状态样本初态集合就算是构造好了这些状态之间不会设置任何的连接关系完全由RL自主去学习。3.3 训练训练方法和奖励设计整体上中规中矩通过PPO训练奖励函数比较通用。后续又通过师生蒸馏得到了一个接收视觉RGB输入的模型。4. 总结与反思强化学习强化学习工程实践中最困难的点在于平衡探索和利用如何鼓励策略在更大范围内探索到可行空间同时提升经验数据的利用率一直是研究的热点本文主要强调的是提升强化学习的探索性通过reset这样一根拐杖减少了策略饱和发生的几率。随机初始化相似的思想在RL领域也不少见如DeepMimic强调了随机初始化不同点在于OmniReset不是在参考轨迹上随机选取起点而是在一个结构化数据集上进行随机采样。还差什么依然需要人工施加一定的干预放在具身智能的大背景下是否有可能通过时下热门的openclaw等智能体 OmniReset思想真机强化如SERL构造一个自动可在线学习的系统呢参考Yin, P. et al. Emergent Dexterity via Diverse Resets and Large-Scale Reinforcement Learning.Mittal, M. et al. ORBIT: A Unified Simulation Framework for Interactive Robot Learning Environments.Peng, X. B. et al. DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills.项目页https://weirdlabuw.github.io/omnireset/论文速读-OmniResetRL探索新拐杖https://weirdlabuw.github.io/omnireset/

RK3506移植FT6336U触摸驱动

最近使用万象奥科的RK3506G核心板开发一个小项目，用到了蒲洋的一块触摸屏，驱动芯片为FT6336U，记录一下移植过程踩的坑 kernel 板级配置文件kernel/device/rockchip/rk3506/rockchip_rk3506_g_evm_nand_defconfig kernel 默认配置文件/kernel-…...

2026/4/8 3:30:51 阅读更多 →

OpenClaw+千问3.5-9B：自动化数据处理工作流

OpenClaw千问3.5-9B：自动化数据处理工作流 1. 为什么需要自动化数据处理作为一个经常需要处理杂乱数据的分析师，我过去每天要花3小时在Excel里手动清洗数据。直到发现OpenClaw千问3.5-9B的组合，才意识到原来80%的重复劳动都可以交给AI完成…...

2026/4/8 3:30:00 阅读更多 →

Java ArrayList

Java ArrayList 详细学习笔记目录概述与核心特性底层数据结构核心源码深度解析构造方法add 方法 (扩容机制)get/set 方法remove 方法迭代器与 Fail-Fast 扩容机制详解性能分析与复杂度ArrayList vs LinkedList常见面试题与陷阱最佳实践 1. 概述与核心特性 1.1 什么是 Arr…...

2026/4/8 3:30:00 阅读更多 →