这项研究由香港大学、上海人工智能实验室、上海交通大学和香港中文大学联合开展论文以预印本形式发布于2026年4月15日编号为arXiv:2604.14125有兴趣深入了解的读者可通过该编号查询完整论文。你有没有见过那种特别令人抓狂的场景——你让一个人帮你从桌上那堆东西里把红色的杯子拿给我他看了半天要么拿错了要么手伸过去又缩回来像在做某种奇怪的体操现在把这个场景换成机器人你大概就明白了机器人操控领域长期以来面临的核心难题如何让机器人既能听懂复杂的语言指令又能看清楚具体要操作哪个物体还能干得漂亮地完成动作这支来自多所顶尖高校的研究团队给出了一个颇具启发性的答案他们将其命名为HiVLA。**一、机器人大脑的两难困境**要理解HiVLA解决的是什么问题不妨先想一想人类厨师是怎么工作的。一位经验丰富的主厨一方面拥有丰富的料理知识——懂得什么菜该用什么火候、什么食材怎么搭配另一方面他的双手又需要极其精确地掌握刀功、控制切片的厚度。这两件事虽然都由同一个人完成但本质上是两种截然不同的能力一种是高层次的知识与判断另一种是低层次的精细动作控制。现在假设你打算让一个厨师学徒既当料理顾问、又当执行厨师并且让他通过反复练习一道菜来全面进化——结果很可能是练着练着他把那道菜做得越来越熟练但原本从书本上学来的广博知识却慢慢淡忘了。这个现象在机器人领域叫做灾难性遗忘。现有的大多数VLA模型即Vision-Language-Action模型可以简单理解为能看图、能理解语言、能控制动作的一体化机器人控制系统正是陷入了这个困境。这类模型通常以大型视觉语言模型为基础这些基础模型通过海量网络数据训练拥有相当强的常识推理能力。但当研究者把它们拿来在机器人操控数据上进行专项训练时原有的推理能力会不同程度地受损。毕竟机器人操控的数据量相比网络数据少得多而且非常专业化这种窄化训练很容易让模型的通用能力打折扣。**二、分工协作给机器人装上两套系统**HiVLA的核心思路是让思考和动手这两件事彻底分开。具体来说整个系统分为两个层次上层是一个负责规划的大脑由一个不做低级训练的视觉语言模型承担它只负责看图、理解指令、决定下一步该做什么、以及锁定要操作的目标物体在哪里下层是一个专门负责执行的双手由一个扩散变换器模型Diffusion Transformer简称DiT承担它不需要关心整体任务逻辑只需要根据上层传下来的精确指示把动作做出来。这种分工方式的关键优势在于上层的大脑不需要接触任何低层次的动作控制数据它的通用推理能力得以完整保留而下层的双手则可以专心打磨精准动作的执行能力不被复杂的语义推理任务干扰。上层规划器的工作流程可以这样理解每当机器人需要执行一步动作时视觉语言模型会观察当前的场景图像同时参考整体任务目标、上一步执行了什么动作、以及机械臂的夹持器当前处于什么状态。基于这些信息它会产生一个结构化的行动计划这份计划包含下一个子任务的文字描述比如拾取左侧的蓝色积木、需要执行的动作类型抓取还是放置、目标物体的名称以及一个精确的边界框——也就是目标物体在原始高分辨率图像中的坐标位置。这个边界框的产生是HiVLA整套方案里非常关键的一环。边界框的本质是视觉语言模型对该看哪里的明确定位它将抽象的语义指令和具体的空间位置联系起来让下层执行模型不需要自己去猜测我该去操作哪个物体。**三、放大镜的魔力从全局看到局部细节**规划器生成边界框之后系统会做一件听起来很简单、但实际上非常关键的事用边界框在原始的1920×1080高清图像上裁剪出一块局部区域得到目标物体的高分辨率特写图。这里有一个很微妙的设计决策。一般的系统处理图像时往往会把原始的高清图像压缩、下采样到较低的分辨率以节省计算资源。但这样做的代价是许多精细的视觉细节就丢失了——比如一个细小的铃铛、一个纤细的杯子把手、或者几个形状相同但颜色不同的积木。对于需要精细操控的任务来说这些细节恰恰是成败的关键。HiVLA的做法是全局场景图像用正常的分辨率输入而目标物体的局部特写图则直接从原始高清图像上裁剪保留了最高的像素质量。这就好比你在远处看一群人认不清谁是谁但只要拿出望远镜把某个人的脸放大看清楚识别任务就容易得多了。不过这里还有一个问题裁剪出来的局部图本身不携带任何关于它在整张图的什么位置的信息。如果下层的执行模型只看到一块局部特写它可能搞不清楚这个物体到底在机器人工作台的左侧、右侧还是中间。为了解决这个问题研究团队在局部特写图的每个图像块patch上都额外附加了一组绝对位置编码——简单说就是每个图像块都被告知它在原始高清图像坐标系中的具体位置。这一技巧源自于目标检测领域的经典方法让执行模型同时拥有放大的细节图和精确的空间坐标两者缺一不可。**四、执行模型的三重听觉从全局到局部再到语义**下层的执行模型也就是DiT动作专家是整套系统的双手。它的核心任务是接受上层规划器传来的各种信息把它们转化为机械臂的实际动作序列。在实现方式上研究团队设计了一种名为级联交叉注意力机制的架构。这个名字听起来有点复杂但本质可以理解为每一个Transformer计算块内部依次进行三次倾听每次倾听不同类型的信息从粗到细、从场景到目标、从视觉到语义逐步聚焦。第一次倾听的是全局场景信息。执行模型首先看到整张全局场景图经过DINOv2和SigLIP这两个视觉编码器处理获得对整个工作台环境的宏观理解——桌子上有哪些东西、机器人大致在哪个位置、背景是什么样子。这就好比一个工人在开始精细操作前先环顾整个工作台对环境有个整体把握。第二次倾听的是带位置信息的局部特写。执行模型接着看到目标物体的高清局部图同时这张图的每个像素块都携带了它在全局坐标系中的精确位置信息。这一步让执行模型知道我要操作的那个东西长什么样以及它在哪里这两件事同时到位缺一不可。第三次倾听的是子任务的语言指令。执行模型最后听到规划器给出的具体子任务描述比如拾取蓝色积木或者把章鱼印章压到红色垫子上。这一步让执行模型知道我现在该执行什么动作是抓取还是放置是轻推还是按压。这三次倾听按照从粗到细、从环境到目标、从视觉到语言的顺序依次叠加正是研究团队所说的粗到细注入策略。实验结果也证明这个顺序是最优的——其他排列方式的性能都有不同程度的下滑。在动作生成的具体机制上HiVLA采用了一种叫做条件流匹配Conditional Flow Matching的扩散模型框架。它的工作原理可以这样理解执行模型从一团随机的噪声动作序列出发在上下文条件的引导下一步步将这团噪声去噪最终输出一段连贯、平滑的动作序列。整个过程类似于雕刻家从一块粗糙的石料出发根据心中的构想一点点凿去多余的部分最终得到精美的雕塑。**五、在高难度考场上的测试成绩**研究团队在两套环境中对HiVLA进行了全面测试一套是名为RoboTwin 2.0的高保真仿真平台另一套是真实物理世界中的机器人。仿真平台上的测试覆盖了9个任务分为简单任务和困难任务两类。简单任务通常只需要一个技能动作比如按下订书机、敲响铃铛、提起锅等困难任务则要求机器人在完成多个连续动作的同时理解复杂的语义和空间关系比如将三个积木按照指定顺序叠放或者在三个完全相同的铃铛中点击最右边那个。这些任务特别考验机器人对左、中、右等空间语言的理解以及在杂乱场景中精确识别目标物体的能力。测试是在领域随机化设置下进行的意思是每次测试时桌面背景、桌上的干扰物体、桌子高度、灯光条件都会随机变化极大地增加了视觉感知的难度。每个任务进行100次独立测试取最后三个模型检查点的平均成功率。测试结果相当显著。HiVLA的总平均成功率达到83.3%而此前表现最好的对比系统H-RDT只有70.6%差距达到12.7个百分点。更广为人知的π0系统成功率仅为45.6%HiVLA比它高出了37.7个百分点。另外两个对比系统π0.5和StarVLA的成功率分别为44.8%和46.4%HiVLA同样大幅领先。在细分类别上简单任务方面HiVLA的平均成功率为96.0%而困难任务平均成功率为73.2%比H-RDT的54.6%高出了18.6个百分点。特别是在叠放三个积木这个难度最高的任务上π0和π0.5的成功率只有1%几乎完全失败StarVLA也只有16%H-RDT达到20%而HiVLA达到了37%——虽然仍有提升空间但相比其他系统已经是质的飞跃。**六、子任务分解到底有多重要**研究团队还做了一个消融实验测试了一个叫做去掉技能分解的变体也就是不让规划器把任务分解成细粒度的子任务而是直接把整体任务描述传给执行模型。结果发现在简单任务上这个变体和完整版HiVLA几乎没有区别——毕竟简单任务本身只需要一个动作整体指令和子任务指令内容相同。但在困难任务上去掉子任务分解后的平均成功率从73.2%下降到64.4%差距约为8.8个百分点。这个结果说明把复杂任务分解成一对一的细粒度子指令能显著降低执行模型的认知负担。当模型只需要关心现在抓这个物体而不是完成整个任务流程中的某一步它可以更专注地利用局部视觉信息生成精准动作而不是分心去猜测任务进度。此外研究团队还观察到了一个有趣的自我纠错现象。当执行模型在某一次抓取中失败了物体没有被成功抓住规划器会通过观察当前场景图像发现子任务尚未完成从而重新发出同一个视觉语言指令让执行模型重新尝试。这种独立的监督和纠错能力是端到端一体化模型所不具备的。**七、面对故意出错的规划器执行模型有多稳**分层系统有一个常见的质疑如果上层规划器出了错会不会像多米诺骨牌一样把下层执行模型也拖垮研究团队专门设计了一组扰动测试来回答这个问题。他们人为地向边界框坐标和语言指令中注入不同程度的噪声从20%到100%的错误率观察执行模型在这种情况下的表现。边界框方面即便误差注入率高达100%边界框完全错误执行模型仍然保持了57.0%的成功率。这是因为执行模型同时接收全局场景图像当局部特写图指向了错误的地方时全局图像提供了兜底的视觉信息让执行模型能在一定程度上自行校正。语言指令方面误差注入对成功率的影响就相当线性了——误差率每上升20%成功率大致下降20%左右到100%误差时成功率降至12%。这说明执行模型对语言指令的依赖性很强语义指导是必不可少的——但这也正是设计的本意。这组实验揭示了HiVLA在鲁棒性上的一个良好特性对视觉定位误差有相当强的容错能力对语义指令则严格遵从。**八、走进现实世界在真实杂乱环境中的表现**在真实物理机器人上研究团队测试了更具挑战性的场景用颜色和位置区分不同目标物体。比如点击左边的铃铛、把绿色的杯子放到托盘上、把红色积木放到盘子里——这些任务的共同特点是桌上有多个形状相同的物体机器人必须根据颜色或位置信息准确锁定目标。真实世界的训练数据量非常有限——只有360个遥控操作的演示并且这些数据是通过GroundingDINO和SAM2两个工具自动生成边界框标注的不需要人工逐帧标注。测试结果显示在单目标场景下HiVLA的表现普遍优于H-RDT点击一个铃铛的成功率HiVLA为13/30H-RDT为8/30放置一个杯子HiVLA为21/30H-RDT仅4/30放置一个积木HiVLA为20/30H-RDT为9/30。在多目标场景下差距更加明显。放置三个杯子时H-RDT的成功次数为0/30完全失败而HiVLA达到了6/30放置三个积木时H-RDT同样为0/30HiVLA为7/30。这些数据表明依赖纯全局视觉特征的模型在真实杂乱场景下无法有效区分相同形状但颜色不同的物体而HiVLA通过视觉定位和高清局部特写的配合在这一场景下保持了稳健的表现。**九、消融实验每个设计决定都有它的道理**研究团队还系统地验证了几个关键设计选择的必要性。关于是否需要高清局部特写他们对比了从640×360低分辨率图像裁剪局部图和从原始1080p高清图像裁剪局部图的两种方案。低分辨率版本在涉及精细结构的任务如提起锅的细长把手上表现明显下降整体平均成功率从83.3%降至75.2%。关于是否需要绝对位置编码去掉位置编码后整体成功率从83.3%降至76.8%。最明显的损失出现在点击三个铃铛任务上——成功率从98%暴跌至80%。道理不难理解三个形状完全相同的铃铛执行模型要区分左、中、右依靠的正是空间位置信息没有了精确的位置编码模型就无法可靠地区分它们。关于三类信息的注入顺序研究团队测试了所有六种排列组合。结果显示只使用局部图或只使用全局图时平均成功率都在70%左右两者结合时成绩明显提升而在两者结合的基础上全局→局部→语言这一顺序即先看整体场景、再看目标特写、最后听语言指令是最优的达到83.3%符合从粗到细的直觉逻辑。**十、系统效率够快才能用于现实**对于机器人控制系统而言响应速度至关重要。研究团队的VLM规划器在未经专项优化的情况下每次推理需要1.9秒——这对于高频实时控制来说太慢了。但关键在于规划器并不需要每帧都运行它只在需要决定下一个子任务时才触发。执行模型的动作推理则只需要0.162秒可以以较高频率运行。通过让规划器和执行模型异步并行运行规划器在后台思考的同时执行模型继续执行当前动作整个系统实现了8Hz的控制频率足以应对大多数桌面操控任务的实时要求。研究团队也指出规划器的推理速度还有很大的软件加速空间未来有望进一步提升。说到底HiVLA的贡献在于提供了一条切实可行的路径让机器人操控系统同时拥有聪明的大脑和灵巧的双手而且这两者可以独立升级迭代——当未来出现更强大的视觉语言模型时只需换掉上层规划器当有更好的执行模型时只需替换下层的DiT。这种模块化的思路让系统的进化变得更加灵活。当然当前版本也有其局限。37%的叠放三个积木成功率说明在需要精确空间推理和多步连续操作的超长流程任务上系统仍有相当大的提升空间。此外真实世界数据的采集仍然依赖人工遥控操作如何进一步降低数据采集成本也是值得继续探索的方向。你可能会好奇这样的系统离真正进入家庭或工厂还有多远目前的测试环境虽然加入了大量随机化干扰但仍然是相对受控的桌面操控场景距离应对开放环境中的不可预期状况路还相当长。但每一步扎实的技术进展都是在为那一天铺路。有兴趣深入探究的读者可以通过arXiv编号2604.14125查阅完整论文和项目主页。QAQ1HiVLA和普通的机器人控制模型有什么本质区别A普通的VLA模型把语言理解和动作控制捆绑在一起训练结果往往是推理能力和动作精度互相拖累。HiVLA把这两件事彻底分开上层用视觉语言模型负责理解指令和定位目标完全不做动作训练保住了推理能力下层专门的扩散变换器负责把规划结果转化为精确动作。两者各司其职互不干扰。Q2HiVLA的高清局部特写功能具体是怎么工作的A上层规划器会在高清图像上生成一个边界框标出目标物体的位置。系统随后从原始1920×1080分辨率的图像上直接裁剪出这个区域作为特写图输入给执行模型。这个特写图的每个图像块还附带了它在全局坐标系中的精确位置信息让执行模型同时知道物体长什么样以及它在哪里缺一不可。Q3如果规划器给出了错误的边界框HiVLA还能正常工作吗A有一定的容错能力。测试表明即使边界框完全错误执行模型仍能保持约57%的成功率。原因是执行模型同时接收全局场景图像作为辅助参考当局部特写图信息出错时全局图像可以提供一定程度的兜底信息帮助模型自我校正。但如果语言指令出错成功率则会按比例下降语义指导是系统不可或缺的核心。