1. 多模态浏览代理的现状与挑战在人工智能领域多模态大语言模型MLLMs正经历着从单纯的文本理解到多模态智能代理的转变。这种进化使得模型能够同时处理文本、图像、视频等多种信息形式并通过工具调用能力在开放网络环境中进行自主探索和决策。然而这种能力的快速提升也带来了新的评估挑战——我们如何准确衡量这些智能代理在真实网络环境中的表现当前主流评估方法存在三个明显缺陷首先任务设计过于简单大多局限于两跳以内的浅层检索无法反映真实网络搜索的复杂性其次关键信息往往来自非公开资源如付费视频或内部文档导致评估结果难以复现最后评估维度单一仅关注最终答案的正确性而忽视了搜索过程中的推理质量。这些问题严重制约了我们对多模态浏览代理真实能力的理解。2. BrowseComp-V3基准的核心设计理念2.1 多维度的跨模态覆盖BrowseComp-V3通过两个关键维度提升任务复杂性搜索深度和跨模态交互。在搜索深度方面基准引入了多跳推理设计要求代理在不同网页间进行信息串联。例如一个典型任务可能要求根据图中穿红色衣服人物左侧运动员的信息查找他在加拿大公开赛16强比赛中的总得分。这类问题需要代理先识别图像中的特定人物再通过文本搜索获取比赛信息最后进行计算。跨模态交互则分为三个复杂度层级区域内对齐在同一视觉区域内关联文本和图像信息区域间整合在不同视觉区域间建立信息关联图像间推理跨多个图像进行联合推理2.2 过程导向的细粒度评估与传统基准不同BrowseComp-V3为每个任务设计了专家验证的子目标序列。这些子目标不仅指导任务分解还支持过程级别的评估。我们定义过程得分(Process Score)作为核心指标ProcessScore(q) | ˆGq| / |Gq|其中Gq表示解决问题q所需的真实子目标集合ˆGq表示模型实际完成的子目标集合。这种评估方式能精确识别模型在哪些推理环节出现瓶颈。2.3 高可靠性与可复现性为确保评估的严谨性BrowseComp-V3采用三重过滤标准证据可追溯性所有支持证据必须能通过公开搜索引擎获取并提供完整的人工标注轨迹时间稳定性优先选择时间不变的客观知识避免动态网页内容的影响答案客观性要求答案简洁可验证支持标准化自动评估3. 数据集构建与质量控制3.1 五阶段构建流程BrowseComp-V3的构建遵循严格的闭环质量保证框架如图1所示包含五个关键阶段阶段1初始化与指南制定由领域专家定义核心评估维度领域多样性、任务层级和跳数分布并构建包含视觉输入、查询、子目标、答案和元数据的初始范例。这些范例与指导文档共同为后续大规模标注建立黄金标准。阶段2工具增强的探索性标注标注人员根据领域专业知识分配子任务使用专业工具套件包括文本搜索、网页访问、图像搜索、图像裁剪和反向图像搜索进行探索性网络搜索。他们记录完整的交互轨迹将复杂任务分解为关键子目标并标注获取每项关键证据所需的能力。阶段3双重验证与对抗过滤原始数据集经历两个连续的筛选阶段。首先在人工验证循环中验证者复现标注的搜索轨迹评估逻辑连贯性、证据支持和答案准确性。未通过验证的样本返回修订。其次使用最先进的多模态大模型过滤掉简单示例确保保留涉及长尾知识或复杂推理需求的挑战性样本。阶段4结构化数据格式化验证通过的样本经过后处理转换为统一的JSON格式包含标准化的输入/输出字段、子目标和交互轨迹。这种格式化既保证人类可读性也支持机器可解释性便于自动化评估管道的构建。阶段5专家质量控制在正式发布前领域专家审核结构化数据的安全性、隐私合规性和事实准确性。只有通过审核的样本才会纳入最终数据集确保符合伦理和专业标准。3.2 数据集统计特征BrowseComp-V3包含300个精心设计的问题覆盖科学、技术、社会、文化和生活五大领域如图2左。这些问题根据复杂度分为三个级别级别1单一视觉搜索89题级别2跨区域整合140题级别3跨图像推理71题难度分布上45题为简单级别139题为中等86题为困难30题为专家级如图2右。这种分层设计能全面评估模型在不同复杂度任务上的表现。4. 实验设计与关键发现4.1 评估设置我们在四种代表性设置下系统评估BrowseComp-V3人类基线招募具有博士水平专业知识的参与者使用标准网页浏览器独立解决问题。参与者可自由浏览公开网络资源收集证据产生可验证答案。无工具MLLMs评估多个SOTA MLLMs在无工具访问情况下的表现模型必须直接生成答案。评估模型包括GPT-5.2、o4-mini、GPT-4o等9个主流模型。工具增强MLLMs评估通过官方网络平台访问的工具增强模型服务启用最大推理模式以发挥其全部能力。包括GPT-5.2-Thinking、Gemini-3-Pro-Preview等。OmniSeeker评估使用我们自定义的多模态浏览代理框架的模型表现。该框架配备标准化工具包括文本搜索、网页访问、图像搜索等。4.2 主要结果分析表2展示了BrowseComp-V3上的性能对比关键发现如下性能差距与基准难度人类平均成功率为68.03%过程得分为82.93%。相比之下所有模型的成功率均低于40%验证了基准区分真实搜索复杂度的能力。工具增强的关键作用无工具时大多数模型成功率仅约10%。工具增强带来显著提升表明参数化知识无法充分捕获开放网络中的动态跨模态证据链。OmniSeeker的有效性当配备OmniSeeker时所有模型均实现显著改进性能媲美专用专有系统。特别是开源模型Doubao-Seed-1.8达到33.67%的成功率。过程评估的价值过程得分普遍高于成功率表明模型能完成单独子目标但难以维持长序列任务的逻辑一致性。这种差距凸显了细粒度过程评估的必要性。4.3 细粒度能力分析任务级别表现表3随着任务复杂度从级别1提升到级别3模型性能显著下降。这表明模型能有效执行单一视觉搜索但在区域间整合和图像间关系推理方面面临挑战。搜索深度影响图3左人类和模型性能都随搜索深度增加而下降但模式不同。人类在较长搜索路径上表现急剧下降而模型下降更平缓暗示模型利用参数化知识补偿搜索复杂度。能力边界图3右人类瓶颈主要在文本搜索因处理大量文本时的注意力限制而模型瓶颈在多模态整合。闭源模型相比开源模型显著减少了感知和 grounding 错误。4.4 失败模式分析图5展示了四个代表模型的错误分布多模态grounding与感知视觉grounding和感知失败主导所有模型的错误分布表明当前MLLMs难以在复杂嘈杂的网络环境中准确提取和感知视觉信息。多模态进展与规划约束闭源模型相比开源模型大幅减少感知和grounding错误。但随着多模态能力提升长程规划成为限制SOTA模型进一步改进的主要瓶颈。5. OmniSeeker框架设计为解决现有模型的局限性我们开发了OmniSeeker——一个统一的多模态浏览代理框架。该框架的核心创新包括5.1 模块化工具集成OmniSeeker整合了五类关键工具文本搜索基于Serper API返回前5个结果图像搜索输出嵌入对话上下文作为base64编码数据网页访问使用Jina AI检索和解析网页内容图像裁剪以编程方式执行返回裁剪后的图像反向图像搜索支持基于视觉内容的检索5.2 自适应规划机制框架采用基于强化学习的规划器能够动态评估子目标完成进度根据上下文调整工具使用策略在证据不足时发起补充搜索在多跳推理中维持信息一致性5.3 开源实现优势OmniSeeker作为开源框架相比闭源系统具有三大优势透明度完整公开工具调用逻辑和决策过程可扩展性支持自定义工具集成成本效益可在本地部署避免API调用费用实验表明当配备OmniSeeker时开源模型性能提升显著Doubao-Seed-1.8达到33.67%的成功率接近GPT-5.2-Thinking的39.13%。6. 实际应用建议基于BrowseComp-V3的评估结果我们为开发多模态浏览代理提出以下实践建议6.1 模型选择策略闭源模型适合需要最高准确率的场景但成本较高GPT-5.2-Thinking综合性能最佳39.13% SRGemini-3-Pro-Preview视觉任务表现突出开源模型OmniSeeker平衡性能与成本Doubao-Seed-1.8开源模型最佳33.67% SRQwen3-VL-235B中文场景优势明显6.2 工具调用优化交互轮次设置10-20轮最大交互图4左较大模型能从更多轮次中获益采样策略采用Best-of-NN4-8可提升一致性图4右失败处理当连续3次工具调用失败时应触发重新规划6.3 错误缓解措施针对常见错误类型图5视觉grounding错误添加注意力可视化模块验证模型关注区域图像感知失败对关键图像区域进行多次裁剪和放大候选实体混淆维护实体消歧记录避免重复错误推理错误引入逐步验证机制检查中间结论合理性7. 未来研究方向BrowseComp-V3揭示的几个关键研究方向值得关注原生多模态推理当前模型依赖串联的单模态处理需要发展真正的跨模态联合推理架构长程规划优化改进模型在复杂任务中的子目标分解和进度管理能力动态知识整合增强模型区分参数知识和实时检索信息的能力评估范式扩展开发更全面的过程评估指标捕捉推理质量、工具使用效率等维度关键提示在实际部署多模态浏览代理时务必设置人工复核环节特别是对于医疗、法律等高风险领域的查询。即使最先进的模型在BrowseComp-V3上也仅达到36%准确率这提醒我们需要谨慎看待AI系统在关键任务中的自主性。