工具越来越能干接入越来越快业务一边催上线一边又开始担心另一件事 这个 Agent 到底会不会越权 分数看起来很好结果到底靠不靠谱 流程是跑通了但中途断掉、重试、恢复之后状态还是不是同一个状态这不是焦虑变多了。 是测试对象真的变了。Anthropic 发布 Claude Opus 4.7 时把安全行为、诚实性和对恶意 prompt injection 的抵抗能力明确写进了版本说明OpenAI 更新 Agents SDK 时把 native sandbox execution 和 model-native harness 放到了核心位置伯克利 RDI 则公开展示多个常用 AI benchmark 可以在不真正完成任务的情况下拿到高分浏览器侧又开始出现 self-healing browser harness 这类更强调运行时自修复的工具。现在很多团队面对的已经不是一个“会回答问题的模型”而是一个会读文件、跑命令、接浏览器、写产物、带状态恢复、带权限边界的执行系统。很多岗位变化表面上看是 AI 能力升级。 落到测试现场实际发生的是另一件事过去那套只盯输出、只盯流程、只盯结果对错的方法开始越来越不够用了。一、先出问题的不是功能点而是边界和可信度最近不少团队遇到的问题并不是“功能做不出来”。而是做出来之后开始发现新的不确定性正在往前顶。Claude Opus 4.7 的官方说明里重点不只是模型能力本身还专门列出了 honesty、deception、misuse cooperation 和对 malicious prompt injection 的抵抗能力等安全维度并明确说明 4.7 在部分指标上比 4.6 更强。这个信号很清楚前沿模型的发布已经不再只是能力发布也是在同步发布行为边界。([Anthropic][1])OpenAI 对 Agents SDK 的更新也很说明问题。官方把 agent 放进 controlled workspace把执行层做进 sandbox把 harness 作为编排层独立出来目标不是“再多一个接口”而是让 agent 能在文件、工具、命令和长链路任务中安全地工作。这个变化一旦落到业务里测试就不可能只盯接口返回和文本输出。 ([OpenAI][2])而伯克利 RDI 这次把另一层问题捅得更透。他们审计了 13 个常用 benchmark结论是全部存在 critical risk更进一步他们展示了 agent 如何直接利用评测逻辑漏洞在多个 benchmark 里跑出高分。这里最危险的不是某个模型偶尔答错而是评测系统本身也可能在误导人。([加州大学伯克利分校RDI][3])能力越强先暴露问题的往往不是功能而是边界、环境和评测。这句话放在现在的测试现场里几乎已经成了事实。二、真正变厚的不是模型参数而是系统外沿很多人还在用一个旧前提理解 AI 产品 它只是一个更复杂一点的接口。这个前提现在越来越站不住。今天的 Agent已经不只是“给我一个问题我给你一个答案”。 它可能要先读资料再拆任务再进工作区再装依赖再执行命令再开浏览器再写文件再产出报告必要时还要停下来等人工审核审核通过后继续往下跑。OpenAI 这次更新 Agents SDK强调的正是这种长链路、受控执行和安全运行而不是单轮调用。browser-use 的公开仓库对这种趋势写得也很直接。无论是 browser-use 主仓库还是 browser-harness 子项目都把“self-healing browser harness”当成核心定位。这里真正重要的不是“浏览器也能被模型控制”而是执行过程本身开始具备运行时修复和能力补齐的属性。也就是说系统真正变复杂的地方不只是模型内部。 更大的变化发生在模型之外它接了什么环境它拥有什么权限它在失败后如何恢复它的行为如何被审计它的分数是否可信这些东西一旦加进来测试对象就不再只是“结果”而是一整条执行链。过去很多团队测的是 C。 现在真正容易出问题的越来越多出在 B、D、E、F、G、H 这些位置。三、安全、评测、运行时正在变成 AI 测试的三条主线1. 安全规则开始前移Claude 4.7 最值得测试人注意的不是它又刷新了哪个榜单而是官方公开把安全行为当成版本变化的一部分来讲。Anthropic 明确说Opus 4.7 在 honesty 和抵抗 malicious prompt injection 上优于 4.6同时也承认并不是所有安全维度都同步增强。这个表述本身就很工程化。它说明模型不是“整体更强”这么简单而是在不同能力和不同风险面上做权衡。对测试来说这意味着以后不能只问它会不会做事。 还得问它在什么时候必须不能做事。会做是功能问题。 该停住是边界问题。 后者的难度明显更高。2. 评测可信度开始独立成题伯克利 RDI 这次最有价值的不是又曝出几个 benchmark 有漏洞。 而是它把行业里一个长期存在但经常被跳过的问题正式推到了台前评测器本身也应该被当成被测对象。如果 benchmark 共享环境、验证逻辑有缺口、judge 能被注入、ground truth 泄露那最后看到的高分很可能不是能力结果而是利用结果。 这件事一旦进入模型选型、平台采购、对外宣传后果比普通线上 bug 更重。AI 测试里最危险的幻觉不是模型幻觉而是“评测可信”的幻觉。很多团队现在已经开始做 AI 评测了。 但后面谁会吃亏往往不是谁测得少而是谁把评测器当成理所当然。3. 运行时开始独立成层OpenAI 这次对 Agents SDK 的描述里有一个非常关键的信号orchestration 和 execution 被明确拆开了。sandbox 负责受控执行harness 负责模型与工具、文件、审批、任务流之间的编排。这对测试影响很大。以前测 agent更多是在测提示词是否稳定工具调用是否正确输出是否符合预期现在还要测工作区是否隔离文件状态是否一致中断恢复是否可控重试是否引入副作用审核前后上下文是否断裂产物、日志、回答能否对得上这些问题本质上已经更像运行时测试而不是单纯的结果测试。四、同样叫 AI 测试新对象已经不是老办法能覆盖的这两年很多团队都在说自己在做 AI 测试。 但把对象展开看差别已经非常大。过去更常见的测试对象现在开始出现的测试对象Prompt 输入与文本输出工作区、文件、命令、浏览器、产物单轮回答正确率长链路任务完成率功能通过或失败权限边界、恢复能力、审计能力跑分高低评测器是否可信页面脚本稳定浏览器执行能否自愈这个变化不是名词换了而是对象真的换了。 browser-harness 这类项目强调的是 self-healing不是简单脚本回放OpenAI 强调的是 sandbox execution不是单纯 tool callingAnthropic 强调的是 safety profile不是只讲效果。三边一起变说明行业正在把 AI 从“模型问题”改造成“系统问题”。所以今天再说 AI 测试至少要分清两种工作一种还是在测输出。 另一种已经是在测一个带状态、带权限、带环境、带恢复的执行系统。这两类都重要。 但后者明显更难也更接近下一阶段岗位要求。五、工程落地时测试团队最该补的不是“多写几个用例”真正该补的不只是测试数量。 而是测试对象的定义方式。1. 先把评测器纳入范围后面做 AI 评测不能只建设任务集和评分逻辑。 至少还要补上这些检查ground truth 是否泄露评分逻辑是否会被输入污染judge 是否存在注入路径评测环境和执行环境是否共享状态高分到底是能力提升还是规则漏洞伯克利这次已经把教训给得很具体了不测评测器后面的分数可能没有太强讨论价值。2. 从结果测试升级到运行时测试如果系统里已经接了 Agent建议最少补四类用例环境隔离测试命令、依赖、文件、网络访问是否越界状态恢复测试中断、超时、容器丢失后能否续跑人工审核衔接测试审批前后上下文和产物是否一致审计追踪测试日志、文件、截图、回答能否串起来复盘这些问题如果不上线前测往往会在上线后变成“偶发失败”“重复执行”“状态错乱”“查不出原因”的问题。OpenAI 把 sandbox 做进 Agents SDK本身就在说明运行时已经不是可有可无的外围能力了。3. 把浏览器自动化从脚本工程升级成策略工程这一点对测试开发尤其重要。过去浏览器自动化更像在解决“脚本怎么写得更稳”。 后面更关键的问题会变成页面状态怎么感知中途跑偏怎么恢复动态流程怎么纠偏执行过程怎么观察agent 临时补出来的 helper 怎么审计self-healing browser harness 这类方向继续走下去测试侧真正拉开差距的不再只是 locator 和等待时间而是运行过程设计能力。 ([GitHub][4])这里再放一张图会更适合读者理解“结果测试”和“系统测试”的差别同样叫测试。 覆盖范围已经不是一个量级。下一代 AI 测试的分水岭不是会不会多写几个 Prompt而是能不能把模型当成一个真正会跑起来的系统来测。六、下一阶段拉开差距的可能不是 Prompt而是系统验证能力很多在校生会觉得这些变化离自己还远。 其实一点都不远。岗位要求的变化通常先出现在技术栈里再出现在 JD 里最后才出现在大家的体感里。 当 Claude 4.7 这种版本开始把安全行为公开写进版本说明当 OpenAI 把 sandbox 和 harness 正式推成标准能力当 benchmark 被证明能被系统性刷分测试岗位对“只会测功能、只会看结果、只会写普通断言”的容忍度一定会越来越低。对初级工程师来说最该补的是从“结果验证”走向“过程验证”的意识。 对中级工程师来说更该补的是把 AI 测试接进工程系统的方法。 对在校生来说最值得尽早建立的认知也很直接以后你面对的很多测试对象已经不是一个页面、一个接口、一个功能点。 而是一条真正会执行、会中断、会恢复、会影响外部环境的链路。问题已经摆在这了。 你现在手里的测试体系里评测器、执行环境、权限边界、恢复机制哪一项已经被你当成正式的被测对象了