1. 视觉-语言-动作模型的核心挑战与SCALE的创新突破在机器人控制领域视觉-语言-动作Vision-Language-Action, VLA模型正成为实现通用智能体的关键技术路径。这类模型通过融合视觉观察和语言指令直接输出控制动作形成闭环控制系统。然而真实世界的复杂环境给VLA模型带来了巨大挑战——训练阶段无法穷尽所有可能的场景变化导致模型在测试时面临各种不确定性。传统解决方案主要依赖两种思路一是通过大规模数据训练提升模型泛化能力二是在测试时采用多次采样和验证Test-Time Scaling, TTS来提高鲁棒性。但这些方法存在明显局限大规模训练成本高昂且难以覆盖长尾场景TTS方法需要额外训练验证模块或执行多次前向传播既增加计算开销又难以满足实时控制需求。SCALE技术的突破性在于它发现并利用了VLA模型内部的一个关键信号——自不确定性self-uncertainty。这种不确定性直接来源于模型输出分布的特性无需任何外部监督或额外计算。具体而言当模型对当前决策犹豫不决时其预测token的分布会表现出两种特征整体分布趋于平坦多候选动作概率相近对top-1选择的置信度不足1.1 传统方法的局限性分析现有TTS方法通常存在三个主要问题计算效率低下如RoboMonkey等方法需要生成N个候选动作并通过验证模块筛选导致推理时间线性增长。实测数据显示当N16时OpenVLA的推理延迟会增加15.9倍。领域适应性差验证模块通常在特定数据分布上训练当测试环境超出训练分布时如出现全新物体或布局性能会显著下降。干预维度单一现有方法仅调整动作解码过程而保持视觉编码固定。但在存在视觉干扰物如外观相似的多个物体时仅靠动作调整无法从根本上解决问题。关键发现在LIBERO-Long基准测试中传统TTS方法在将摩卡壶放在炉灶上这类存在视觉干扰的任务上成功率比SCALE低10-15个百分点。这表明单纯的动作优化无法解决感知歧义问题。1.2 SCALE的核心创新点SCALE的创新性解决方案建立在三个关键设计上双参考分布度量低不确定性参考qlow以top-1 token为中心的准one-hot分布反映模型对当前选择的确定性高不确定性参考qhigh均匀分布反映完全不确定状态自不确定性分数uk DKL(pk||qlow) - DKL(pk||qhigh)量化当前分布在这两个极端之间的位置联合调制机制# 自适应动作解码示例 def adaptive_decoding(logits, u_k, T01.0): tau_k T0 * sigmoid(u_k) # 温度系数随不确定性调整 scaled_logits logits / tau_k return Categorical(logitsscaled_logits).sample()单步时序关联视觉注意力的调整基于历史不确定性变化的指数移动平均EMA当前不确定性高于历史均值时增大注意力温度γ拓宽感知范围低于均值时减小γ聚焦关键区域这种设计使得SCALE在保持单次前向传播的效率同时实现了感知-动作的协同优化。如图1所示当面对视觉干扰时传统方法左的固定注意力会锁定错误区域而SCALE右能动态调整视觉关注点。图1SCALE右与传统固定管道左的对比。红色/绿色框分别显示错误和正确的注意力区域2. SCALE的技术实现细节2.1 自不确定性的数学建模SCALE的自不确定性度量建立在坚实的数学基础上。通过展开公式(2)可以发现uk E[log(qhigh/qlow)] ∫ pk(x)log(qhigh(x)/qlow(x))dx这实质上是假设检验中的对数似然比统计量衡量当前分布pk相对于两种极端假设完全确定vs完全不确定的倾向性。使用sigmoid函数转换后σ(uk)可以解释为当前状态不确定的后验概率。实现细节为避免数值问题qlow设置为(1-ε)在top-1 token其余token平分ε/(|V|-1)实验表明ε∈[1e-12,1e-10]时性能稳定最终选用ε1e-12对于多token动作如π0-FAST的5个token仅在前几个关键token上应用采样2.2 视觉-动作的协同调节SCALE的创新之处在于将不确定性信号同时注入视觉编码和动作生成两个阶段2.2.1 视觉注意力调制视觉编码器的自注意力机制被改造为Attn(Q,K,V) softmax(QKᵀ/(√d·γ))V其中γ通过以下方式计算# 视觉温度系数计算 delta_u u_curr - ema_prev # 当前与历史不确定性的偏差 gamma kappa * tanh(delta_u) # kappa2限制范围在(0.5,2)这种设计带来两个优势时序相关性利用EMA平滑不确定性信号避免瞬时波动导致的注意力抖动自适应缩放γ1时软化注意力分布扩大感知范围γ1时锐化注意力聚焦关键特征2.2.2 动作采样策略动作解码采用温度采样但温度系数τ由不确定性动态决定τ T0·σ(uk)不同模型的基础温度T0需要调整OpenVLAT01.0π0-FAST和SpatialVLAT00.3因其动作空间离散化方式不同2.3 实现效率优化为确保实时性SCALE采用了几项关键优化视觉-动作流水线当前步的视觉处理使用上一步的不确定性偏差避免等待当前步动作解码完成。实验表明这种滞后一步的设计仅带来1.3%的性能损失却保持了单次前向传播的效率。部分token采样对于生成多token动作的模型如SpatialVLA的12个token仅在前3-5个关键token上应用不确定性调节后续token自然受前面决策影响。批量并行计算自不确定性度量仅需输出logits可与其他计算并行几乎不增加额外开销。表1对比了不同方法在LIBERO基准上的表现方法空间任务物体任务目标任务长程任务平均OpenVLA(基线)86.286.277.752.775.7温度采样(t1.0)85.187.978.954.776.7Top-k(k40,t0.7)85.288.278.355.276.7SCALE(ours)89.591.082.363.381.53. 跨场景实验验证与性能分析3.1 仿真环境测试我们在三大类仿真基准上评估SCALELIBERO基准包含空间变换、物体替换、目标修改和长程任务四类挑战SCALE使OpenVLA平均成功率提升5.8%在长程任务上提升尤为显著52.7%→63.3%对更强的π0-FAST模型仍有1.8%的提升SIMPLER-WidowX测试精确的拾取放置操作在将胡萝卜放在毛巾上任务中SCALE将π0-FAST的成功率从62.5%提升至69.4%对零样本设置的SpatialVLA提升达10.4%LIBERO-PRO-Long包含语言重述、物体替换等扰动在物体替换扰动下SCALE帮助OpenVLA从26.6%提升到30.0%3.2 真实机器人实验真实世界实验采用UR10e机械臂设置包括已知任务胡萝卜→毛巾、茄子→碗、柠檬→盘子未知任务泰迪熊→碗、立方体→盘子测试几何形状和材质泛化结果如表2所示模型已知任务平均未知任务平均OpenVLA36.1%22.9%SCALE55.6%39.6%π0-FAST72.2%43.8%SCALE86.1%56.3%特别值得注意的是在将泰迪熊放入碗中任务中软质玩偶的形变使传统方法成功率仅29.2%而SCALE通过动态调整抓取策略达到45.8%。3.3 关键组件分析通过消融实验验证各组件贡献自不确定性度量比较了五种不确定性指标SCALE的dual-reference设计效果最佳63.3%比次优的Gini系数高5.5%。视觉调制目标实验证明调节视觉编码器的单模态注意力63.3%优于调节VLA中的跨模态注意力57.4%。时序信号使用基于变化量(Δu)的调节比直接用瞬时值(u)高7.9%说明追踪不确定性变化趋势更重要。4. 实际应用中的经验与技巧4.1 参数调优指南根据我们的实践经验不同VLA架构需要调整的关键参数基础温度T0动作空间大的模型如OpenVLAT01.0精细控制模型如π0-FASTT00.3-0.5可通过验证集上的边际成功率margin success rate校准EMA平滑因子α高频控制10Hzα0.8-0.9低频决策α0.5-0.7太高会导致响应迟钝太低会引起注意力抖动视觉温度范围κ一般设置κ2限制γ∈(0.5,2)对存在微小关键物体的场景如电子元件可缩小下限至0.34.2 常见问题排查问题1面对持续高不确定性时性能下降检查视觉编码器是否接收到完整场景确认语言指令是否明确无歧义适当降低T0减少过度探索问题2注意力频繁切换增加EMA的α值在γ计算中加入死区如|Δu|0.1时不调整问题3特定token位置失效分析各token的uk分布对关键动作token如抓取高度可固定τ4.3 扩展应用方向SCALE的思想可延伸至多机器人协作各机器人共享不确定性信号协同探索人机交互将人类反馈作为不确定性来源持续学习用uk标记需重点记忆的场景我们在实际部署中发现将SCALE与以下技术结合效果更佳视觉编码器使用DINOv2SigLIP融合特征动作token采用FAST等压缩表示加入简单的物理约束如工作空间限制5. 局限性与未来改进当前SCALE存在几个值得改进的方向长程依赖处理现有的EMA机制对分钟级任务记忆有限可引入LSTM等时序模型。多模态不确定性当前未区分视觉和语言模态的不确定性贡献可设计更精细的分解方法。安全约束高探索性可能带来风险需结合碰撞检测等安全模块。一个有趣的发现是在LIBERO-PRO的交换物体位置扰动下所有方法表现都很差SCALE仅3.4%成功率。这表明当语义和空间线索同时冲突时现有技术仍面临根本性挑战。