快速了解部分基础信息英文1.题目: ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training2.时间: 2025.093.机构: University of Washington, UC San Diego, Nvidia, Allen Institute for AI4.3个关键词: Flow Matching, Consistency Training, Visuomotor Imitation1句话通俗总结本文干了什么事情本文提出了一种名为ManiFlow的机器人控制策略通过结合流匹配和一致性训练能根据图像、语言等输入快速生成精准的高维动作解决了灵巧操作中推理慢和泛化差的问题。研究痛点现有研究不足 / 要解决的具体问题现有的Diffusion和Flow Matching策略在复杂灵巧操作中推理步数多慢、难以捕捉多指交互的细微差别、且在面对新物体和环境时泛化能力不足。核心方法关键技术、模型或研究设计简要提出了ManiFlow核心是引入连续时间一致性训练目标Consistency Training来加速推理并提升动作质量并设计了DiT-X网络架构来更高效地处理视觉、语言等多模态输入。深入了解部分作者想要表达什么作者旨在证明通过改进生成模型的训练目标加入一致性和网络架构DiT-X可以让机器人策略在极少的推理步数下1-2步就能完成高精度的灵巧操作并且能很好地泛化到从未见过的物体和双臂/人形机器人任务中。相比前人创新在哪里训练目标创新不同于以往仅用Flow Matching引入了连续时间的一致性训练Consistency Training无需预训练教师模型即可实现少步数推理。架构创新提出了DiT-X改进了DiT和MDT架构通过AdaLN-Zero机制将缩放和平移参数应用到交叉注意力层的输入输出实现了更细粒度的多模态条件控制。性能突破在真实世界的双臂和人形机器人上实现了极高的成功率且推理速度极快。解决方法/算法的通俗解释ManiFlow就像是一个“预判力”极强的机器人教练。传统的Diffusion模型像是一步步“去噪”还原动作很慢ManiFlow利用“一致性”原理让模型学会无论从哪个噪声阶段开始都能直接“跳跃”到正确的动作路径上一步到位。同时它用一个更聪明的“大脑”DiT-X来综合分析眼睛图像、耳朵语言和身体感觉姿态从而做出精准的动作。解决方法的具体做法一致性训练在训练时不仅预测当前时刻的速度还强制要求模型预测的路径在时间上保持一致即从A点到B点的路径是直的这使得推理时只需1-2步就能得到准确动作。DiT-X架构使用Transformer架构。对于低维信号如时间步使用AdaLN-Zero进行调节。关键改进将AdaLN-Zero的调节参数应用到交叉注意力层的输入和输出特征上让模型能更有选择性地筛选视觉和语言信息。3D感知使用轻量级PointNet编码器保留点云的几何细节且不使用最大池化操作以防止信息丢失。基于前人的哪些方法Flow Matching基于标准的流匹配损失函数作为基础。DiT (Diffusion Transformer)DiT-X块的设计灵感来源于图像生成领域的DiT。MDT (Multimodal Diffusion Transformer)借鉴了其交叉注意力机制但进行了改进。Consistency Models借用了无需教师模型的一致性蒸馏思想但将其扩展到了连续时间域。实验设置、数据、评估方式、结论实验设置涵盖64个模拟任务和8个真实机器人任务。数据模拟RoboTwin, Adroit, DexArt, MetaWorld48个语言条件任务。真实世界Unitree H1人形机器人、双臂xArm 7、单臂Franka Panda。评估方式任务成功率Success Rate对比了Diffusion Policy、Flow Matching Policy等基线。结论在模拟中图像输入提升45.6%点云输入提升11.0%。在真实世界中相比SOTA的3D Diffusion PolicyDP3平均成功率翻倍37.6% - 71.0%。具有极强的泛化能力能处理未见过的物体和背景干扰。提到的同类工作Diffusion Policy主要的对比基线代表了主流的扩散策略方法。3D Diffusion Policy (DP3)在3D点云策略中表现最好的工作ManiFlow在真实世界实验中主要超越了它。MDT在多模态条件控制方面的工作ManiFlow的架构与其进行了对比和改进。和本文相关性最高的3个文献C. Chi et al. Diffusion policy: Visuomotor policy learning via action diffusion. IJRR, 2023. (Diffusion Policy原论文)Y. Ze et al. 3d diffusion policy. RSS, 2024. (DP33D扩散策略SOTA)E. Chisari et al. Learning robotic manipulation policies from point clouds with conditional flow matching. CoRL, 2im24. (3D Flow Matching Policy)我的期望让模型只需要去噪1-2步就能得到结果所以引入Consistency Training让模型预测的路径在时间上保持一致。DiT-X架构主要是一个AdaLN-Zero全称是Adaptive Layer-Norm Zero实际上就是对张量进行scale和shift与传统Layer Norm不同的点在于他不是一视同仁的而是有选择的。Zero指的是一开始Scale1, Shift0就是不对数据进行处理。