模型发布会那些榜单,到底在测什么
每次新模型发布最热闹的部分往往不是模型名而是后面那张长表。SWE-Bench Verified、Terminal-Bench 2.0、OSWorld、GPQA Diamond、MMLU、MMMU Pro、BrowseComp……名字一个比一个唬人像极了游戏里的成就系统。如果咱们不常盯模型圈很容易有两个感觉第一怎么每家都赢了第二这些分数到底跟我有什么关系如果只想先记一个最实用的版本其实可以直接看这个想看写代码、改 bug、提 PR先看SWE-Bench Verified想看在终端里跑命令、改配置、排障先看Terminal-Bench 2.0想看自动操作桌面软件先看OSWorld想看自己查资料、做研究、汇总网页信息先看BrowseComp想看图表、截图、公式、文档理解先看MMMU Pro想看知识底子和高难推理再看MMLU、GPQA Diamond、Humanitys Last Exam想看工具调用和 agent 工作流看MCP Atlas、t2-bench先把这张使用说明记住再回头看各家发布会就没那么容易被一堆数字带着跑了。这事其实挺像手机发布会跑分。早几年大家最爱看的还是模型会不会答题。后来发现答题高分不等于真能干活再后来Agent、工具调用、电脑操作这些能力开始变重要于是榜单也一波一波换主角。所以看这些 benchmark别只看分数先看它想证明什么。很多时候榜单本身就是厂商在说咱们这一代模型想让你记住它最擅长的是什么。第一代明星先证明模型会考试MMLUMMLU算是大模型 benchmark 里的老牌指标测的是大范围学科知识问答。数学、物理、法律、医学、经济都覆盖到了本质上像一张综合考试卷。它当年火很大程度上是因为简单直接谁分高谁看起来更聪明。但它现在越来越像基础分。原因也简单选择题适合标准化比较但也最容易把会答题和会做事混在一起。所以现在如果哪家发布会还把MMLU放得特别靠前业内一般不会太激动。它能说明模型底不错但很难单靠它证明模型已经能进真实工作流。GPQA DiamondGPQA Diamond测的是专家级高难度知识推理。题目来自物理、化学、生物这些理工科领域难度明显高于MMLU。它在发布会里常扮演一个角色证明模型不只是知道得多而是碰到硬题也能推。但这个榜单也有很典型的圈内观感更像高智商证明题不太像日常工作流。也就是说一个模型GPQA Diamond很高咱们会倾向于认为它推理能力不错但不会直接得出那它写代码、调环境、查资料也一定强的结论。Humanity’s Last ExamHumanitys Last Exam这个名字就很会做发布会 PPT。它测的是跨学科高难度综合题目的很明确给顶级模型再造一个更难拉开差距的赛场。这个榜单的八卦感很强很多人第一次记住它不是因为题型而是因为名字太像宣发文案。但它也确实反映了一个规律老 benchmark 快被刷穿以后行业就会继续造更难的新 benchmark。第二代明星光会答题不够还得会看图MMMU ProMMMU Pro测的是图文混合内容的理解和推理。题目里既有文字也有图片、图表、公式、示意图模型需要一起理解。它出现的背景很现实很多真实任务本来就不是纯文本咱们看报表、截图、流程图本来就是图文混着来的。所以MMMU Pro比MMLU更接近真实场景。但它主要还是在考理解不是在考执行。它证明模型看得懂不代表模型一定能把事做完。第三代明星大家开始关心模型到底能不能干活这一波是近两年最热闹的。原因很简单大家对模型像学霸一样会做题已经有点审美疲劳了开始追问另一个问题它到底能不能自己干活SWE-Bench VerifiedSWE-Bench Verified现在几乎已经成了代码模型发布会的保留节目。它测的是真实软件工程里的修 bug 和实现需求能力给模型一个 GitHub 仓库里的真实 issue 和代码让它改代码再跑仓库自带的测试看它到底有没有改对。Verified版本则是把原始数据集里更靠谱、可复现的题筛出来。这个榜单为什么这么火因为它第一次把会不会写代码往能不能在真实仓库里把事做成推进了一大步。但圈里也有个默认共识SWE-Bench很重要但不能神化。任务集合、agent scaffold、工具链、上下文长度都会影响结果有些团队甚至明显是在备赛。所以看到高分正确打开方式不是它已经是全栈工程师了而是它在标准化代码修复任务里更像一个能干活的助手了。Terminal-Bench 2.0Terminal-Bench 2.0测的是终端环境里的连续操作能力。模型要在真实命令行环境里读日志、跑命令、改配置、执行脚本、调试错误。重点不再是最后吐出一个答案而是一连串动作能不能串起来。它能火起来和 Agent 这波热潮关系很大。因为很多开发任务本来就不是给我一段代码而是先看目录、再读文件、再跑命令、再看报错、再修改、再验证。所以Terminal-Bench 2.0代表的是一个明确转向模型比较的单位从回答变成了完成任务。OSWorldOSWorld测的是电脑界面操作能力。模型要像人一样操作桌面环境打开应用、点菜单、填表单、拖拽文件、切换窗口。它考的不是代码能力而是 GUI 场景下的执行能力。这类榜单很符合让模型接管更多日常软件操作的想象因为很多办公软件和企业内网工具根本没有优雅 API最后还是得点界面。不过它的问题也很明显GUI 环境非常脆弱分辨率、等待时间、页面细节变化都会影响结果。也就是说它更接近真实世界但也更不稳定。BrowseCompBrowseComp测的是上网找资料并回答复杂问题的能力。模型需要主动浏览网页、搜索信息、整合多个来源最后再给出答案。它特别有时代感因为很多用户对 AI 的真实期待本来就不是背知识库而是你去查一下然后整理给我。不过同样地BrowseComp高分也不等于现实里就一定靠谱。搜索策略、页面新旧、网页可访问性都会影响表现。它测出来的是一种很有价值的上限不是最终体验本身。还有一类新榜单工具调用和 Agent 编排t2-bench / MCP Atlas这类 benchmark 测的是工具调用和多步流程编排能力。MCP Atlas更偏向看模型在 MCP 生态里的工具使用能力t2-bench更强调多步任务怎么串起来。核心问题其实都一样模型会不会正确选工具、按顺序调用工具、在中间步骤出错时继续往下走。这类榜单越来越多也很现实单模型能力差距在缩小真正拉开体验差距的开始变成工具链和 workflow。所以越往后看benchmark 就越不像传统考试越像给一个数字实习生发电脑、发终端、发浏览器、发一堆工具然后看它能不能把活接住。ARC-AGI 2最容易引发争论的一个ARC-AGI 2测的是面对全新题型时的泛化能力。题目通常是抽象图形推理模型之前没见过类似模式不能靠背题只能临场找规律。它在一众 benchmark 里气质很特别因为它不太关心知识储备也不太关心具体工具使用而更像在追问模型到底有没有一种更一般性的抽象推理能力这也是为什么它总能引发讨论。支持的人会觉得它更接近智能本身怀疑的人会觉得它离真实工作太远。所以它很适合用来吵架不太适合单独拿来指导采购。为什么每隔一阵子发布会主推的榜单就会换一批规律其实很简单先找到一个大家都认可、又方便比较的 benchmark大家围着它优化分数越卷越高用户发现高分和真有用之间还有距离于是新的 benchmark 出来去补旧 benchmark 没覆盖到的能力所以榜单的演化史某种程度上就是行业对模型到底该有用在哪儿这件事的认知演化史。早期大家最关心像不像学霸后来关心会不会推理再后来关心能不能调用工具、操作电脑、自己把任务做完。顺手看一眼几家最近都拿什么分数上桌如果咱们把最近几家的公开页和配图摊开来看会更直观地发现一件事大家虽然都在讲 benchmark但根本不是按同一张卷子在汇报成绩。有的主打SWE-bench Verified有的更爱讲SWE-Bench Pro、Terminal-Bench 2.0、MCP Atlas还有的会把ClueEval、OmniDocBench这种更贴近自己市场和产品形态的指标搬出来。下面这张表不是为了告诉咱们谁绝对第一而是为了让咱们感受一下同样叫 benchmark对外展示时的选题就已经带着立场了。模型公开给出的数据我更在意它说明了什么GPT-5.4BrowseComp 86.8%、SWE-bench Verified 81.42%、MCP Atlas 62.7%、Humanitys Last Examwith tools53.0%OpenAI 这次明显更想强调能自己查、能自己做、能自己接工具Claude Opus 4.6Anthropic 官方新闻页也给了SWE-bench Verified 81.42%、BrowseComp 86.8%、MCP Atlas 62.7%、Humanitys Last Examwith tools53.0%这一组数据配图里还出现了Coding Performance Evaluation 57.5这更像在告诉外界Opus 不只会写还在往长任务 工具链方向对齐GLM-5.1官方文档正文能直接抄到的是SWE-Bench Pro 58.4官方配图里还能看到Coding Performance Evaluation 54.9智谱这次最想讲的是 coding 和 agentic coding口径也更偏工程任务Qwen3.6-Plus官方博客配图里能看到Terminal-Bench 2.0 61.4、SWE-bench Pro 59.3、SWE-bench Verified 78.8、SWE-bench Multilingual 89、ClueEval 58.7、QwenWebBench 1518 Elo、NL2Repo 37.3、MMMU 86.0、OmniDocBench v1.5 91.2、Video-MME 87.8阿里这次摆法特别像全栈能力墙既要 coding也要中文/网页/文档/视频多模态和 agent 一起讲对应的官方来源GPT-5.4https://openai.com/zh-Hant/index/introducing-gpt-5-4/Claude Opus 4.6https://www.anthropic.com/news/claude-opus-4-6GLM-5.1https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1Qwen3.6https://qwen.ai/blog?idqwen3.6如果再把这些数字横着看一遍会发现一个很有意思的现象GPT-5.4和Claude Opus 4.6更爱拿BrowseComp、MCP Atlas、HLE with tools这种高级代理人味道很重的指标出来GLM-5.1直接抓SWE-Bench Pro和 coding 配图思路非常直给先证明能干活Qwen3.6-Plus则更像一整面展板恨不得把 coding、中文、文档、多模态、视频理解全摆上去所以咱们平时看发布会榜单最值得先问的不是这个分高不高而是它为什么偏偏选这个分数给咱们看benchmark 从来不只是测量工具它也是叙事工具。那咱们普通用户到底应该怎么看我自己的建议是先别问谁分最高先问你最想拿它干什么。写代码、改 bug、提 PR重点看SWE-Bench Verified在 CLI 里跑命令、改配置、排障重点看Terminal-Bench 2.0自动操作桌面软件重点看OSWorld查资料、做研究、汇总网页信息重点看BrowseComp看图表、截图、公式、文档重点看MMMU Pro看基础知识和高难推理底子再参考MMLU、GPQA Diamond、Humanitys Last Exam看工具调用和 agent 工作流参考t2-bench、MCP Atlas如果非要再补一句更圈内的判断那就是今天的 benchmark 分数已经越来越像产品定位广告而不是最终使用体验本身。一句话总结MMLU老牌综合考试测知识覆盖GPQA Diamond高难专家题测深度推理Humanitys Last Exam更难的综合拉分题适合头部模型互卷MMMU Pro图文混合理解多模态开始上桌SWE-Bench Verified真实仓库修 bug代码能力最受关注的代表Terminal-Bench 2.0终端连续操作代表 Agent 工作流转向OSWorld桌面 GUI 操作离数字员工更近一步BrowseComp上网查资料测主动检索与整合ARC-AGI 2抽象泛化能力最容易引发这算不算真正智能争论t2-bench/MCP Atlas工具调用与多步编排反映 Agent 生态竞争如果咱们把这些榜单串起来看会发现它们其实不是一堆散乱缩写而是一条很清楚的线模型圈这几年一直在把聪明翻译成有用只是每一代 benchmark 翻译的方法不一样。