【论文阅读】ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training

张

张建站

2026/5/22 23:09:26

10分钟阅读

【论文阅读】ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training

快速了解部分基础信息英文1.题目: ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training2.时间: 2025.093.机构: University of Washington, UC San Diego, Nvidia, Allen Institute for AI4.3个关键词: Flow Matching, Consistency Training, Visuomotor Imitation1句话通俗总结本文干了什么事情本文提出了一种名为ManiFlow的机器人控制策略通过结合流匹配和一致性训练能根据图像、语言等输入快速生成精准的高维动作解决了灵巧操作中推理慢和泛化差的问题。研究痛点现有研究不足 / 要解决的具体问题现有的Diffusion和Flow Matching策略在复杂灵巧操作中推理步数多慢、难以捕捉多指交互的细微差别、且在面对新物体和环境时泛化能力不足。核心方法关键技术、模型或研究设计简要提出了ManiFlow核心是引入连续时间一致性训练目标Consistency Training来加速推理并提升动作质量并设计了DiT-X网络架构来更高效地处理视觉、语言等多模态输入。深入了解部分作者想要表达什么作者旨在证明通过改进生成模型的训练目标加入一致性和网络架构DiT-X可以让机器人策略在极少的推理步数下1-2步就能完成高精度的灵巧操作并且能很好地泛化到从未见过的物体和双臂/人形机器人任务中。相比前人创新在哪里训练目标创新不同于以往仅用Flow Matching引入了连续时间的一致性训练Consistency Training无需预训练教师模型即可实现少步数推理。架构创新提出了DiT-X改进了DiT和MDT架构通过AdaLN-Zero机制将缩放和平移参数应用到交叉注意力层的输入输出实现了更细粒度的多模态条件控制。性能突破在真实世界的双臂和人形机器人上实现了极高的成功率且推理速度极快。解决方法/算法的通俗解释ManiFlow就像是一个“预判力”极强的机器人教练。传统的Diffusion模型像是一步步“去噪”还原动作很慢ManiFlow利用“一致性”原理让模型学会无论从哪个噪声阶段开始都能直接“跳跃”到正确的动作路径上一步到位。同时它用一个更聪明的“大脑”DiT-X来综合分析眼睛图像、耳朵语言和身体感觉姿态从而做出精准的动作。解决方法的具体做法一致性训练在训练时不仅预测当前时刻的速度还强制要求模型预测的路径在时间上保持一致即从A点到B点的路径是直的这使得推理时只需1-2步就能得到准确动作。DiT-X架构使用Transformer架构。对于低维信号如时间步使用AdaLN-Zero进行调节。关键改进将AdaLN-Zero的调节参数应用到交叉注意力层的输入和输出特征上让模型能更有选择性地筛选视觉和语言信息。3D感知使用轻量级PointNet编码器保留点云的几何细节且不使用最大池化操作以防止信息丢失。基于前人的哪些方法Flow Matching基于标准的流匹配损失函数作为基础。DiT (Diffusion Transformer)DiT-X块的设计灵感来源于图像生成领域的DiT。MDT (Multimodal Diffusion Transformer)借鉴了其交叉注意力机制但进行了改进。Consistency Models借用了无需教师模型的一致性蒸馏思想但将其扩展到了连续时间域。实验设置、数据、评估方式、结论实验设置涵盖64个模拟任务和8个真实机器人任务。数据模拟RoboTwin, Adroit, DexArt, MetaWorld48个语言条件任务。真实世界Unitree H1人形机器人、双臂xArm 7、单臂Franka Panda。评估方式任务成功率Success Rate对比了Diffusion Policy、Flow Matching Policy等基线。结论在模拟中图像输入提升45.6%点云输入提升11.0%。在真实世界中相比SOTA的3D Diffusion PolicyDP3平均成功率翻倍37.6% - 71.0%。具有极强的泛化能力能处理未见过的物体和背景干扰。提到的同类工作Diffusion Policy主要的对比基线代表了主流的扩散策略方法。3D Diffusion Policy (DP3)在3D点云策略中表现最好的工作ManiFlow在真实世界实验中主要超越了它。MDT在多模态条件控制方面的工作ManiFlow的架构与其进行了对比和改进。和本文相关性最高的3个文献C. Chi et al. Diffusion policy: Visuomotor policy learning via action diffusion. IJRR, 2023. (Diffusion Policy原论文)Y. Ze et al. 3d diffusion policy. RSS, 2024. (DP33D扩散策略SOTA)E. Chisari et al. Learning robotic manipulation policies from point clouds with conditional flow matching. CoRL, 2im24. (3D Flow Matching Policy)我的期望让模型只需要去噪1-2步就能得到结果所以引入Consistency Training让模型预测的路径在时间上保持一致。DiT-X架构主要是一个AdaLN-Zero全称是Adaptive Layer-Norm Zero实际上就是对张量进行scale和shift与传统Layer Norm不同的点在于他不是一视同仁的而是有选择的。Zero指的是一开始Scale1, Shift0就是不对数据进行处理。

量子模拟中的Trotter分解优化与对称性编码技术

1. 量子模拟与Trotter分解基础量子模拟作为量子计算最具前景的应用方向之一，其核心目标是通过可控的量子系统来研究复杂量子体系的演化规律。在众多量子模拟方法中，基于Suzuki-Trotter分解的数字量子模拟因其良好的可扩展性和理论保障，已成为…...

2026/5/22 23:06:14 阅读更多 →

ARM架构随机数生成机制与安全应用实践

1. ARM架构随机数生成机制深度解析在计算机安全领域，高质量的随机数生成是加密算法、密钥生成和安全协议的基础支撑。ARMv8/v9架构通过FEAT_RNG（Random Number Generation）特性提供了硬件级的随机数生成支持，其设计遵循严格的密码…...

2026/5/22 23:03:01 阅读更多 →

TrollInstallerX终极指南：如何在iOS 14-16设备上快速安装TrollStore

TrollInstallerX终极指南：如何在iOS 14-16设备上快速安装TrollStore 【免费下载链接】TrollInstallerX A TrollStore installer for iOS 14.0 - 16.6.1 项目地址: https://gitcode.com/gh_mirrors/tr/TrollInstallerX 你是否曾为iOS系统的严格限制而感到困扰…...

2026/5/22 23:01:42 阅读更多 →

app扫描wifi的时候需要打开GPS定位----否则扫不到

这是很奇怪的一个事情，wifi和定位有什么关系？但是就是要打开。...

2026/5/22 0:06:07 阅读更多 →

AMD Ryzen调试神器SMUDebugTool：免费开源工具让你的处理器性能飞起来！

AMD Ryzen调试神器SMUDebugTool：免费开源工具让你的处理器性能飞起来！ 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Tab…...

2026/5/22 5:48:42 阅读更多 →

Midjourney抽象表现主义风格迁移全链路（从梵高笔触到AI熵增美学的底层逻辑解密）

更多请点击： https://intelliparadigm.com 第一章：Midjourney抽象表现主义风格迁移全链路（从梵高笔触到AI熵增美学的底层逻辑解密） 抽象表现主义并非仅关乎色彩与笔触的失控，而是神经感知系统在高维特征空间中对抗坍缩…...

2026/5/19 8:47:40 阅读更多 →

2026届毕业生推荐的AI科研方案实际效果

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 处在学术研究的起始阶段，开题报告的撰写常常令好多研究生以及青年学者觉得麻烦&…...

2026/5/21 22:19:23 阅读更多 →