这项由加州大学圣地亚哥分校与亚马逊AWS合作完成的研究以预印本形式于2026年5月发布论文编号为arXiv:2605.09252。感兴趣的读者可通过该编号查阅完整论文。当你雇了一位助理却发现他每次回答哪怕是今天几号这种问题也要打开日历App查一查甚至去图书馆翻资料——你大概会觉得这个助理有点太依赖工具了。AI智能体面临的正是同样的困境。现如今配备了各种外部工具比如搜索引擎、计算器、代码执行器的大型语言模型已经被部署在无数实际场景中。然而这些模型有一个令人头疼的习惯不管任务简单还是复杂它们都倾向于调用工具哪怕自己明明可以直接回答。问题在于每次调用工具都要花钱——向外部API发送请求需要支付接口费用同时也会带来延迟。当一个智能体在一次会话中需要做出几十个决策时这些不必要的工具调用会迅速累积成巨大的成本浪费。研究团队因此提出了一个根本性的问题模型是真的不知道什么时候该用工具还是它其实内心明白只是在开口说话时忘了表达出来为了系统性地回答这个问题研究团队做了三件事他们构建了一套专门用于测试工具调用决策的评测基准发现了提示工程和推理引导这两种常见方案的失败原因又在模型的深层神经网络信号中找到了解决问题的线索最终提出了一种极为轻量、高效的干预方法。整个故事就像一位心理侦探一步步挖掘出嫌疑人内心深处的真实想法最终用那个真实想法来纠正嫌疑人的异常行为。一、给AI设计一场何时用工具的考试在这项研究之前学界已经有不少测试大模型工具使用能力的基准比如ToolQA、API-Bank、Gorilla等。但这些测试有一个共同的隐含假设每一道题都必须用工具来解决。换句话说它们测的是你会不会用工具而不是你知不知道什么时候该用工具。研究团队发现这个空白正是当前研究的最大缺口于是他们设计了一套全新的评测体系命名为WHEN2TOOL。WHEN2TOOL包含18个测试环境分为15个单步任务和3个多步链式任务覆盖了现实中AI智能体需要做出工具调用决策的三大核心场景。每个场景都有三个难度级别简单模型大多数时候不用工具就能答对、中等模型有时能答对有时答不对是真正的决策边界、困难模型几乎不用工具就无法答对。这样的设计让研究者可以精确地观察模型在什么情况下过度调用工具又在什么情况下明明需要工具却没有用。第一类场景考验的是我能算出来吗也就是计算规模的问题。模型对运算本身是完全理解的关键在于数字的大小是否超过了它能可靠计算的范围。以加法为例12加7任何人心算都没问题但涉及到万亿级别的乘法或者五阶矩阵的行列式就算是博士也得掏出计算器。这个类别里有计算器环境、统计环境、排列组合环境、矩阵环境和质数判断环境每个环境都通过调整数字规模来划定简单与困难的界限。第二类场景考验的是我知道答案吗也就是知识边界的问题。法国的首都是什么这是人人皆知的常识模型可以直接回答。但Taskforce Nimbus-73的冷却剂等级是什么——这个问题里的实体根本不存在于任何训练数据中模型必须查阅才能知道答案。这个类别包括检索环境需要搜索文档库、历史年份环境从众所周知到完全虚构的事件、游戏规则环境从真实游戏到纯属虚构的游戏、哈希计算环境从模型可能记住的MD5到完全自定义的哈希算法以及解码环境从摩尔斯电码到完全自创的密码体系。第三类场景考验的是我能可靠地执行下来吗也就是执行追踪的问题。这类任务模型既知道规则也有所有必要的信息难点在于执行步骤多到容易出错。预测print(23)的输出几乎不可能出错但追踪一个20次迭代的动态规划算法每一步都可能积累误差最终答案往往面目全非。这个类别涵盖列表操作环境、日期时间计算环境、代码执行环境、日程安排环境和正则表达式环境。多步链式任务则在单步任务的基础上更进一步要求模型做出三个相互依赖的工具调用决策——第一步的输出是第二步的输入第二步的输出又是第三步的输入。这三个多步环境分别对应上述三类场景分别测试链式算术、链式知识检索和链式代码执行。值得一提的是WHEN2TOOL完全在本地运行不需要任何外部API密钥或网络连接所有工具响应都是在本机上确定性地模拟出来的。这样的设计既保证了零成本又确保了实验的完全可复现性。整个基准包含1080个训练任务和2700个测试任务。研究团队还专门验证了难度设定的合理性在完全禁止使用工具的情况下所有模型在简单任务上平均得分69.4%中等任务54.4%困难任务仅15.5%这证明难度划分是有效的。二、两种常见解法为什么都不够用有了评测基准研究团队首先测试了两种最自然的、无需重新训练模型的解决方案通过修改提示词来约束工具调用提示词控制以及让模型在决策前先推理一遍推理引导。他们选择了六个不同规模和系列的模型进行评估包括Qwen3系列的1.7B、4B、14B、32B参数版本以及Llama-3.1-8B和Llama-3.3-70B。提示词控制的思路很直观告诉模型工具很贵能不用就不用。研究团队设计了五种提示模式分别是强制使用工具、默认设置无特殊要求、仅必要时使用、谨慎使用以及完全不用工具。结果发现第一个令人沮丧的现象是在默认设置下模型简直是工具调用狂魔。拿Qwen3-1.7B来说在750道简单题中它居然发出了864次工具调用平均每题超过一次。Llama-3.3-70B则在2250道单步测试题中总计发出了4377次工具调用。模型的默认逻辑似乎是工具可以用那就用吧完全不考虑是否真的需要。当提示词开始限制工具使用时第二个问题出现了这种限制是无差别的、一刀切的。以Qwen3-4B从默认设置切换到谨慎使用为例简单任务的准确率下降了14.5个百分点而困难任务的准确率也下降了20.3个百分点。这意味着提示词的限制并没有聪明地识别哪些工具调用是多余的、哪些是必要的而是把两者一起压制了。更糟糕的是研究团队用一个叫做每节省一次工具调用的准确率代价的指标来量化这个问题在困难任务上每减少一次工具调用损失的准确率是简单任务的两倍甚至更多。换句话说你在省钱的同时把最需要帮助的任务也搞砸了。推理引导的思路则更为精细让模型在调用工具之前先思考一下我到底需不需要用工具然后再据此行动。这套方法受到了ReAct和Reflexion等经典工作的启发。实验结果显示推理引导在简单任务上确实有所改善——Qwen3-14B在简单任务上的代价从-14.9改善到了-6.6说明显式推理确实帮助模型减少了一些不必要的工具调用。但在困难任务上这种方法依然无力代价仍高达-34.7。更严重的问题出现在Llama系列模型上。对于Llama-3.1-8B加入推理引导之后准确率从79.5%暴跌到31.2%Llama-3.3-70B则从83.1%跌至47.9%。问题出在哪里模型开始大段大段地叙述我打算调用工具……却从未真正生成有效的工具调用格式最终变成了光说不练工具调用次数降至接近零准确率随之崩溃。此外还有一个实际操作中的痛点提示词控制和推理引导都只能提供几个固定的工作点没有办法平滑地调节工具调用的比例。用户如果想设定一个具体的工具调用预算然后在该预算下最大化准确率这两种方法都无法做到。指定仅必要时使用和默认设置几乎产生相同的行为而谨慎使用和完全不用又几乎重叠在一起中间的大片空间是空白的。三、拨开迷雾模型的潜意识里藏着答案到这里研究团队提出了一个关键性的问题模型是真的不知道什么时候需要工具还是它其实知道只是在生成文字的过程中无法把这个知识表达出来为了回答这个问题他们决定深入模型内部直接检查神经网络的隐藏状态。可以把这个过程理解为不听一个人说什么而是直接扫描他的大脑活动来判断他真正在想什么。具体做法是对于每道题先让模型在没有工具的情况下尝试回答答对的标记为不需要工具标签0答错的标记为需要工具标签1。然后让模型正常处理这道题的输入在它开始生成输出之前提取最后一个输入位置的所有层的隐藏状态拼接成一个高维向量。最后用这个向量训练一个极简单的线性分类器就是在高维空间中画一条直线来区分两类看看能否预测工具是否必要。结果相当惊人。这个简单到几乎可笑的线性分类器在六个模型上的AUROC一种衡量分类器性能的指标满分为1全部达到了0.89以上其中多个模型超过了0.95。最小的Qwen3-1.7B达到0.894中等规模的Qwen3-14B达到0.957Llama-3.3-70B也有0.936。这意味着在模型开口说第一个字之前它的神经网络信号就已经以极高的准确度编码了这道题需不需要工具的信息。更震撼的对比来自Llama模型。前文提到推理引导在Llama-3.1-8B和Llama-3.3-70B上导致了灾难性的性能崩溃这两个模型的工具调用能力几乎完全丧失。然而在这些同样的模型上线性探针依然轻松达到了0.927和0.936的AUROC。这说明模型在神经表示层面知道什么时候需要工具和它能不能通过语言流畅表达出来是两件完全独立的事情。就像一个人可能内心深处知道答案却在公开表达时因为各种干扰而说出了错误的话——他大脑里的知识依然存在只是没有被正确传递到输出端。按难度分类来看探针在简单和困难任务上的表现都很优秀在中等难度任务上的AUROC相对略低——这完全符合预期因为中等难度正是模型自身也不确定的边界地带神经信号自然也更模糊。整个探针的训练只需要900个样本在普通CPU上几秒钟就能完成推理时间不到1毫秒。四、从潜意识到行动PROBEPREFILL方法详解既然模型内部已经有了清晰的工具必要性信号那么问题就变成了怎么把这个信号利用起来转化为正确的行动研究团队提出的方案叫做PROBEPREFILL中文可以理解为探针引导预填充。整个方法分三步走如同一个精心设计的接力赛。第一步是信息提取当模型处理完输入也就是题目本身时它会进行一次前向传播来建立计算缓存这是自回归生成本来就需要做的步骤。PROBEPREFILL在这个步骤中顺手读取最后一个位置的所有层的隐藏状态这部分额外开销几乎为零不需要额外的计算。第二步是探针预测把这些隐藏状态输入训练好的线性探针得到一个概率值p表示这道题需要工具的可能性有多大。然后用一个阈值τ来做二分决策如果p小于τ认为不需要工具如果p大于或等于τ认为需要工具。关键在于τ是可以调节的——调低τ会让探针更倾向于判断不需要工具减少工具调用但可能偶尔漏掉真正需要的调高τ则更保守减少漏判但也减少了节省。这一个参数就提供了一条平滑连续的准确率-效率权衡曲线而不是提示词控制那种几个离散的固定点。第三步是预填充引导根据探针的判断在模型开始生成回复之前先往回复的开头插入一句话。如果探针认为不需要工具插入I can solve this directly without using a tool.如果认为需要工具插入I need to use a tool for this question.。模型看到这句话后会将其作为开头继续完成后续的回复。这种软预填充方式允许模型在认为探针判断有误时进行覆盖修正为模型保留了一定的自主空间。研究团队也评估了硬预填充模式即直接强制输出格式直接回答的格式或工具调用的JSON格式不给模型留任何偏离的余地这对于那些容易忽视软引导的模型如Llama-3.3-70B尤其有效。实验结果证明PROBEPREFILL在所有测试模型上都优于提示词控制和推理引导这两种基线方法。以Qwen模型为例在任何给定的工具调用预算下PROBEPREFILL都能实现更高的准确率反过来在任何给定的准确率目标下它都能用更少的工具调用达到。更重要的是它展现出了自适应削减的能力——探针会智慧地跳过简单任务的工具调用同时保留困难任务的工具调用而不是像提示词控制那样无差别地压制所有调用。在六个模型上汇总来看PROBEPREFILL阈值τ0.5平均减少了48%的工具调用同时准确率仅下降1.7个百分点。对比来看能达到相近准确率水平的最好基线方法工具调用减少幅度只有6%效率差了八倍能达到相近工具减少幅度的最好基线准确率下降了将近9个百分点是PROBEPREFILL代价的五倍。五、更多考验多步任务、跨域迁移与真实世界验证研究团队没有止步于单步任务他们还在多个维度验证了方法的鲁棒性和泛化能力。在多步链式任务上探针的表现同样出色AUROC在0.84到0.97之间。Qwen3-4B在多步任务上使用PROBEPREFILL以更高的准确率85.3% vs 83.9%同时减少了75%的工具调用而最好的基线只能减少63%。对Qwen3-32B而言探针实现了55%的减少而最好的基线只能做到20%。有意思的是对于Llama系列模型探针反而增加了工具调用次数同时大幅提升了准确率——这说明这些模型在默认情况下对多步任务的工具调用还不够探针纠正的不是过度调用而是调用不足。为了测试探针是否真的学到了通用的工具必要性信号而不是对特定训练任务的死记硬背研究团队设计了跨域泛化实验在每个类别的5个环境中只用3个环境训练探针然后在全部5个环境上测试。结果显示跨域探针的准确率-效率曲线与在全部环境上训练的探针几乎完全重合证明探针捕捉的是类别层面的通用信号而非环境特定的捷径。此外研究团队还在真实世界的搜索问答场景中验证了方法。他们使用了Search-o1框架下的六个开放域问答数据集包括单跳事实问答NQ、TriviaQA、双跳推理HotpotQA、2WikiMultihopQA和复杂多跳推理MuSiQue、Bamboogle使用Qwen3-4B-Instruct进行测试。结果显示在四个数据集上PROBEPREFILL在减少更多搜索调用的同时达到了相当甚至更高的准确率。在HotpotQA上准确率从26.0%提升到28.8%同时搜索调用减少了50%在2Wiki上准确率从36.4%提升到39.2%搜索调用减少了56%在Bamboogle上准确率从25.4%提升到34.9%搜索调用减少了54%。在TriviaQA上准确率从69.6%微降到69.2%差异在误差范围内搜索调用减少了20%而最好的基线只能减少16%。仅在MuSiQue这个3-4步的超复杂任务上最好的基线强制工具调用减少了56%略好于PROBEPREFILL的48%因为这类问题几乎每一道都真的需要搜索。研究团队还将PROBEPREFILL与监督微调SFT这个更强的基线进行了比较。SFT需要在多块GPU上完整地微调模型参数耗时数小时而且需要精心构造训练数据。实验结果表明SFT确实能将准确率提高2-3个百分点但它并没有可靠地减少工具调用——在Qwen3-4B上工具调用甚至略有增加Llama-3.1-8B也一样。SFT学会了怎样更好地回答问题但没有学会何时不用工具这个决策边界。与此同时PROBEPREFILL只需要几秒钟的CPU训练时间不修改任何模型参数推理时每题额外开销不到0.7毫秒与任何现有的模型服务基础设施完全兼容。最后关于一些技术细节的补充说明有助于读者全面理解方法的设计研究团队的消融实验发现拼接所有层的隐藏状态比只用中间层或最后一层效果更好说明工具必要性的信息分布在整个网络中而非集中在某几层即使只用10%的训练数据约90个样本探针的AUROC也超过了0.81体现了极高的数据效率正则化强度在四个数量级范围内λ10到10000几乎不影响性能说明方法对超参数不敏感温度参数调节探针的置信度分布较高的温度提供更细粒度的控制但不影响方法的整体优越性。归根结底这项研究告诉我们一件反直觉的事AI智能体的工具调用失控问题不是因为模型无知而是因为它的知识被锁在了神经信号层面无法自然地渗透到语言生成的过程中。说得俗气一点模型的潜意识比它说出来的话更可靠。而PROBEPREFILL这套方法本质上是架了一条旁路直接读取潜意识信号绕过语言生成这个不可靠的中间环节以极低的成本把正确的知识传递到行动层面。这对于任何部署了工具增强型AI智能体的团队都有实际参考价值在不改动模型、不进行昂贵微调的前提下仅凭几秒钟的探针训练就能让API费用下降近一半同时基本不损失任务质量。更深层的意义或许在于它提示我们在许多看似需要大规模干预的AI行为问题中模型内部可能早已存在正确的信号我们需要的不是重新教它而是找到更好的方式来倾听它。QAQ1WHEN2TOOL基准测试与其他工具使用基准有什么不同A现有的工具使用基准如ToolQA、API-Bank等都假设每道题都需要用工具测的是模型会不会用工具。WHEN2TOOL则专门测试模型知不知道什么时候该用工具——它包含从完全不需要工具就能答对、到必须用工具才能答对的连续难度设计覆盖计算规模、知识边界和执行追踪三大现实场景是目前第一个专门研究工具调用决策的基准。Q2PROBEPREFILL方法需要重新训练大模型吗A完全不需要。PROBEPREFILL只训练一个极简单的线性分类器探针该分类器读取已有大模型处理输入时自然产生的隐藏状态信号。整个探针的训练只需要几百个样本在普通CPU上几秒钟完成不修改任何大模型参数推理时每次额外开销不到1毫秒可以直接叠加在任何现有的模型服务系统上。Q3为什么让大模型自己推理需不需要用工具这种方法效果不好A推理引导要求模型先用语言描述自己的决策过程再据此行动。研究发现这个过程相当不可靠对于Llama系列模型加入推理引导后模型会大篇幅叙述我打算调用工具却从未生成有效的工具调用格式准确率因此暴跌了30到50个百分点。更根本的原因是模型神经网络中已经编码了清晰的工具必要性信号探针AUROC高达0.93以上但这个信号没有被稳定地传递到语言生成过程导致说的和想的不一致。