中国人大团队突破:让AI搜索告别低效查询,答案准确率飙升25%
来自中国人民大学的研究团队在2026年1月向学术界提交了一项关于AI搜索代理优化的重要研究成果。这篇论文将在2026年7月20-24日于澳大利亚墨尔本举行的第49届ACM SIGIR信息检索研究与发展国际会议上正式发表。感兴趣的读者可以通过arXiv预印本平台的编号2601.04888查阅完整论文内容。假设你正在网上搜索一个复杂问题的答案比如1955年电影《安纳波利斯的故事》中那位出生于1914年2月15日的美国演员是谁你的AI助手开始搜索第一次它查询凯文·麦卡锡的出生日期结果却找到了一位美国政客的信息而不是你要找的那位演员。这个小小的失误就像走错了一个路口导致整个搜索旅程偏离了正确方向最终给出了错误答案。这正是当前AI搜索系统面临的核心困境。尽管这些系统能够自动调用搜索引擎、处理复杂问题但它们生成的中间搜索查询往往不够精准。一个关键词的遗漏、一个限定条件的缺失都可能让搜索结果偏离预期进而导致后续推理过程全部走偏。更令人担忧的是现有的AI训练方法主要关注最终答案是否正确却忽略了搜索过程中每一步查询的质量。这就好比只在意学生考试成绩却不关心他们做题时的思考过程是否合理。人大团队开发的SmartSearch框架正是为了解决这一痛点。研究团队的核心洞察是与其事后修正错误答案不如从源头上优化每一次搜索查询的质量。他们构建了一套完整的查询质量评估-优化-学习循环系统让AI搜索代理在训练过程中就学会如何提出更精准的问题。这套系统的工作原理可以用一个熟悉的场景来理解。当你向图书管理员询问一本书的位置时如果你只说我要找一本关于凯文的书管理员可能会困惑——是哪个凯文是传记类、小说类还是其他但如果你说我要找演员凯文·麦卡锡的传记他出生于1914年管理员就能迅速帮你定位。SmartSearch正是在教AI搜索代理学会后者那样的提问方式。研究团队设计了两个相互配合的核心机制。第一个是过程奖励机制它为每一次搜索查询打分并提供改进建议。这个机制包含两个互补的评估维度。其中一个维度通过规则来检查查询是否与之前的搜索重复避免AI反复查询相同的内容浪费时间。另一个维度则通过模型来判断查询意图是否必要、检索结果是否包含了期望的答案。当AI提出一个搜索查询后这套评估系统会给出0分或1分的评价同时生成文字反馈详细解释该查询存在的问题。第二个核心机制是查询优化。当系统识别出某个搜索查询质量不佳时会根据评估反馈对其进行改进然后让AI从改进后的查询点重新开始搜索。回到刚才的例子当AI查询凯文·麦卡锡的出生日期却得到政客信息时系统会提示查询意图是必要的但检索结果没有包含演员凯文·麦卡锡的信息而是找到了政客。基于这个反馈查询会被优化为演员凯文·麦卡锡的出生日期加上演员这个关键限定词后搜索引擎就能返回正确的信息了。为了让AI真正内化这种优化能力研究团队没有采用一步到位的训练方式而是设计了一个循序渐进的三阶段学习框架。这个框架的设计理念类似于学习驾驶的过程先跟着教练学习基本操作再在陪练指导下练习复杂路况最后独立驾驶并不断积累经验。第一阶段称为筛选式模仿学习。在这个阶段研究团队精心筛选了一批高质量的示范数据。这些数据不仅要求最终答案正确更重要的是整个搜索过程中的每一个查询都必须质量优良。通过过程奖励机制团队过滤掉了那些虽然最终答案正确、但搜索过程存在低质量查询的样本。只保留那些从头到尾每一步查询都精准有效的示范。AI模型在这些精选样本上进行训练就像学生跟着优秀教师的标准示范来学习。这个阶段虽然只用了原始数据的60%但模型的性能反而显著提升证明了高质量过程示范的重要性。第二阶段是查询生成对齐。这个阶段的核心是让AI学会区分好查询和坏查询。研究团队采用了一种对比学习的方法让AI先生成一个完整的搜索过程然后系统会识别出其中质量较低的查询并使用查询优化机制生成改进版本。这样就产生了多个不同的搜索轨迹它们在某些查询上存在差异。接下来系统会根据两个标准来判断哪个轨迹更优如果最终答案都正确那么包含低质量查询更少的轨迹更好如果最终答案都错误那么包含高质量查询更多的轨迹更好。AI通过不断比较这些轨迹对逐渐学会了什么样的查询策略更有效。这个阶段的训练方式让AI不仅知道应该怎么做更明白为什么这样做更好。第三阶段是查询感知策略优化。经过前两个阶段的学习AI已经掌握了基本的查询优化能力但还需要在更具挑战性的问题上磨练。研究团队挑选了一批经过多次尝试仍未解决的难题让AI在这些问题上继续训练。这个阶段采用了强化学习的方法但与传统做法不同训练过程中融入了查询优化机制。当AI生成一个搜索轨迹后系统不是简单地生成多个独立轨迹而是会识别出当前轨迹中的低质量查询进行优化然后从优化点继续生成新的搜索路径。这样既保证了训练样本的多样性又确保优化重点始终聚焦在查询质量上。在奖励设计上研究团队也做了精心考量。传统的强化学习主要根据最终答案是否正确来给奖励但SmartSearch的奖励函数同时考虑了搜索过程中每个查询的质量。具体来说如果AI给出了正确答案系统会根据搜索过程中低质量查询的数量适当降低奖励分数激励AI用更少、更精准的查询达成目标。即使AI没能给出正确答案系统也会根据其生成的高质量查询数量给予部分奖励鼓励AI至少朝着正确方向探索。这种奖励设计避免了AI为了获得高分而忽视搜索过程质量的情况。值得一提的是为了提高效率研究团队训练了一个轻量级的辅助模型来执行查询质量评估和优化任务。这个小模型首先由一个更强大的教师模型提供标注数据然后通过学习这些标注来掌握评估和优化能力。实验证明这个轻量级模型在查询评分上与人工标注的一致性超过80%与教师模型的一致性超过85%但运行速度快了近五倍。这个设计在保证效果的同时大幅降低了系统的计算成本。研究团队在多个具有挑战性的数据集上验证了SmartSearch的效果。这些数据集涵盖了两类任务一类是基于维基百科的知识密集型问答包括2WikiMultihopQA、HotpotQA、Bamboogle和Musique四个数据集另一类是开放网络环境下的探索任务包括GAIA和WebWalker。前者需要AI从海量结构化知识中精准检索信息并进行多步推理后者则要求AI在真实网络环境中导航搜索。实验结果令人印象深刻。在知识密集型问答任务上SmartSearch在所有四个数据集上都取得了最佳表现。平均而言它的精确匹配率EM达到37.5%F1分数达到47.2%相比第二名分别提升了25%和19%。具体到各个数据集在2WikiMultihopQA上SmartSearch的EM达到45.3%比第二名高出24%在HotpotQA上提升7%在Bamboogle上提升22%在Musique上提升15%。这些提升幅度都相当可观证明了优化查询质量对整体性能的巨大影响。更值得关注的是SmartSearch的泛化能力。尽管它完全在维基百科的本地搜索环境中训练但当研究团队将其应用到开放网络搜索任务时它依然表现出色。在GAIA数据集上SmartSearch的EM达到13.4%F1达到16.7%在WebWalker上EM为11.5%F1为31.0%。平均而言相比于在这些数据集上表现次优的方法SmartSearch的F1分数提升了近5个百分点。这说明SmartSearch学到的查询优化能力具有很强的通用性不局限于特定的搜索环境。研究团队还进行了详细的对比实验验证了各个组成部分的贡献。他们发现在第一阶段的模仿学习中加入查询质量筛选后即使训练数据减少到原来的60%模型的平均EM依然从28.7%提升到31.7%。这清楚地证明了高质量过程示范比单纯增加数据量更重要。在第二阶段如果去掉查询优化机制只是简单地生成多个独立轨迹进行对比学习平均EM会从33.5%下降到31.4%。如果去掉过程奖励只根据最终答案正确性来判断轨迹优劣平均EM则下降到32.2%。这些数字表明查询优化和过程奖励两个机制缺一不可它们共同作用才能实现最佳效果。在第三阶段的强化学习中对比实验揭示了更多细节。如果使用标准的强化学习算法不引入查询优化机制平均EM为34.8%如果只引入查询优化但不使用过程奖励平均EM为35.8%如果只引入过程奖励但不使用查询优化平均EM为35.1%。而SmartSearch同时使用两个机制后平均EM达到37.5%显著超过了各个变体版本。研究团队还绘制了训练过程中性能变化的曲线图清晰地展示了SmartSearch在训练过程中如何稳定提升最终收敛到最高性能水平。除了准确率研究团队还评估了搜索效率。他们定义了一个搜索效率指标计算方式是将每个问题的答案质量除以搜索调用次数然后取平均值。这个指标反映了AI用多少次搜索能达到什么样的答案质量。结果显示SmartSearch不仅答案质量最高搜索效率也最优。这意味着它用更少的搜索次数就能找到正确答案避免了无效搜索带来的时间和资源浪费。为了更直观地展示查询质量的提升研究团队还引入了搜索质量指标。这个指标衡量的是多少搜索过程完全由高质量查询组成称为完美率以及多少搜索过程虽然最终答案错误但包含高质量查询称为部分率。SmartSearch在完美率和部分率两方面都明显领先其他方法。完美率高意味着AI能够持续生成精准查询避免中途出错部分率高则说明即使最终没能解决问题AI的探索方向也是正确的为后续改进奠定了基础。研究团队还特别验证了那个轻量级辅助模型的有效性。他们随机选取了100个搜索轨迹让人工标注员、教师模型和学生模型分别对每个查询打分。统计发现教师模型与人工标注的一致性接近90%学生模型与教师模型的一致性超过85%学生模型与人工标注的直接一致性也超过80%。这些数字证明轻量级模型在保持高准确率的同时大幅降低了计算成本。进一步的实验表明如果用教师模型替代学生模型来执行评估和优化性能提升不到1个百分点但每个样本的处理时间却增加了近5倍。这清楚地说明使用轻量级模型是一个明智的权衡选择。通过一个具体案例可以更生动地理解SmartSearch的工作方式。面对问题美国考古学家道格拉斯·D·斯科特因其在某个战场遗址的工作而著名这场战役发生在哪一年SmartSearch首先分析问题理解需要找到这位考古学家最著名的工作地点然后确定那场战役的年份。接着它生成第一个搜索查询道格拉斯·D·斯科特著名的考古遗址成功检索到相关信息发现他因在小大角战场的工作而闻名。过程奖励系统为这个查询打1分因为查询意图明确且检索结果包含了期望信息。随后AI利用其内部知识直接推断出小大角战役发生在1876年无需进一步搜索。这个例子展示了SmartSearch如何通过精准查询快速锁定关键信息同时避免了不必要的搜索步骤。相比之下如果查询质量不佳会导致什么后果呢在前面提到的电影演员问题中如果AI查询凯文·麦卡锡的出生日期搜索引擎可能返回政客凯文·麦卡锡的信息出生于1965年1月26日。过程奖励系统会给这个查询打0分并提供反馈查询意图是必要的但检索结果包含的是政客凯文·麦卡锡的信息而非演员。基于这个反馈查询优化机制会将查询改为演员凯文·麦卡锡的出生日期添加了演员这个关键限定词。改进后的查询能够准确检索到演员凯文·麦卡锡的信息出生于1914年2月15日从而引导AI得出正确答案。这个对比清楚地说明了查询质量的微小差异可能导致截然不同的结果。当前学术界在AI搜索代理领域的研究主要分为三类方向。第一类是基于提示词工程的方法通过精心设计的提示词和结构化工作流来引导AI的行为但这类方法没有从根本上提升模型的底层能力。第二类是基于监督学习的方法让AI通过模仿专家示范来学习这能显著提升性能但往往忽略了示范数据中可能存在的低质量查询。第三类是基于强化学习的方法通过奖励机制引导AI自主探索更好的策略。近期一些研究开始在强化学习中引入过程奖励但大多聚焦于优化推理过程本身较少关注中间搜索查询的质量。SmartSearch的创新之处在于明确将查询质量作为核心优化目标并设计了完整的评估、优化和学习循环来实现这一目标。从技术实现的角度SmartSearch的训练过程包含三个递进阶段。第一阶段使用了一个名为ARPO-14B的模型来生成初始轨迹然后用这些轨迹对Qwen2.5-3B-Instruct模型进行监督微调。训练采用了7e-6的学习率运行3个轮次使用DeepSpeed ZeRO-3和FlashAttention2技术加速训练过程总批量大小为64输入长度上限为16384个词元。第二阶段在第一阶段得到的模型基础上进行DPO训练使用LoRA微调技术学习率保持7e-6同样运行3个轮次输入长度上限减至10000个词元总批量大小为32。第三阶段针对那些经过4次采样仍未解决的难题进行强化学习学习率调整为1e-6每个样本生成8条轨迹总批量大小为64PPO小批量大小为16输出长度上限为8192个词元每次推理过程中最多调用5次搜索工具。在最终推理时系统允许最多10次搜索调用输出长度上限扩展到16384个词元。整个研究的意义不仅在于性能的显著提升更在于它揭示了一个重要原则在复杂的多步骤任务中优化中间过程的质量与优化最终结果同样重要甚至更为关键。这个原则不仅适用于AI搜索代理也可能启发其他需要多步决策的AI系统的设计。比如在自动驾驶中关注每一个转向决策的质量可能比只关注是否安全到达目的地更有价值在医疗诊断AI中优化每一步检查建议的准确性可能比只评估最终诊断结果更能提升系统可靠性。当然这项研究也存在一些局限性和未来可以改进的方向。当前的过程奖励机制主要依赖两个维度的评估未来可以考虑引入更多维度比如查询的创造性、信息覆盖的全面性等。查询优化机制目前主要基于小模型的改写未来可以探索更复杂的优化策略比如从多个候选优化方案中选择最佳的一个。三阶段学习框架虽然有效但也增加了训练的复杂度未来研究可以探索如何简化流程或实现端到端的联合优化。从更广阔的视角来看SmartSearch代表了AI研究中一个重要的范式转变从结果导向到过程导向。传统的AI训练往往只关心最终输出是否正确就像只看学生的考试成绩而忽略其解题思路。但SmartSearch告诉我们如果想要AI真正掌握一项复杂技能必须深入到过程的每一个环节确保每一步都符合高质量标准。这种过程质量优先的理念可能会影响未来更多AI系统的设计思路。说到底信息检索的本质是提出正确的问题。在传统搜索引擎时代人类用户负责提问搜索引擎负责查找。而在AI搜索代理时代AI既要理解用户的复杂意图又要自己拆解问题、提出一系列精准查询最后整合信息给出答案。这对AI的要求远高于传统系统。SmartSearch通过系统化的训练方法让AI学会了这种提问的艺术显著提升了其解决复杂问题的能力。随着这类技术的不断成熟我们或许能够期待一个更智能的信息获取时代AI助手不再因为理解偏差而给出错误答案而是能像经验丰富的研究员一样准确把握每个问题的关键高效定位所需信息最终为用户呈现可靠的答案。这不仅会改变我们获取知识的方式也可能深刻影响教育、科研、商业决策等众多领域的信息处理模式。对于那些想要深入了解技术细节或在自己的研究中应用这些方法的读者完整的论文已经在arXiv平台上公开编号为2601.04888。研究团队还在GitHub上开源了相关代码仓库地址为MYVAE/SmartSearch方便学术界和工业界进一步探索和改进这项技术。