Fast-ThinkAct Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning文献标题《Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning》作者 / 团队Chi-Pin Huang1, Yunze Man2, Zhiding Yu, Min-Hung Chen, Jan Kautz, Yu-Chiang Frank Wang1, Fu-En Yang NVIDIA发表期刊 / 年份2026-2-24核心关键词ADAPTERFast-ThinkAct摘要VLA任务要求早在过于复杂的视觉场景进行推理并在动态环境中自适应的执行动作。虽然最近对VLA推理的研究表明了显示的思考链CoT可以提高泛化性由于推理轨迹较长将导致过高的推理延迟。作者提出了Fast-ThinkAct一个高效的推理架构通过可语言化的潜在推理实现了紧凑且高性能的规划。Fast-ThinkAct从教师模型蒸馏潜在的CoT学习高效推理。由于偏好引导的目标驱动以对齐操作轨迹该操作轨迹传递用于具体化控制的语言和视觉规划能力。这使得增强推理Policy高效的学习紧凑的推理到动作执行。在本体抓取和思考分支的广泛实验表明了Fast-ThinkAct能够达到很好的性能并减少推理延时。同时维持有效的长期规划和零样本适应以及事故恢复。主要贡献作者提出了Fast-ThinkAct一个高效的推理架构压缩推理进入可语言表示潜在思考并维持表达计划的能力。作者通过偏好引导蒸馏一致性的抓取轨迹并将语言和视觉规划压缩为紧凑的连续延迟。作者通过抓取轨迹潜在变量引导推理增强policy学习将的高水平的视觉计划引入到了动作执行。与最先进的推理VLA相比,作者实现了高达89.3%的推理延迟减少同时在不同的具体基准上保持了强劲的性能。模型本文中所提出的Fast-ThinkAct是种面向VLA任务的高效具身推理框架它通过可语言化的潜在推理实现了紧凑且富有表现力的规划。与先前的生成冗长的文本CoT轨迹的推理性VLA不同作者引入了结合视觉轨迹对齐的奖励引导偏好蒸馏将语言和视觉规划压缩为紧凑的连续潜在向量从而实现隐式内部推理。学生VLM将推理编码为可由解码器语言化的紧凑潜在向量支持基于偏好的优化该优化利用RL派生的奖励信号从文本教师VLM中蒸馏高质量推理模式同时抑制低质量模式。作者进一步在教师与学生之间对齐轨迹潜在向量以迁移对具身控制至关重要的视觉规划能力。训练完成后学生VLM可作为推理增强策略学习的基础连接隐式多模态规划与动作执行在显著提升推理速度的同时性能优于现有推理VLM。JLa5X-1775714298941)]