N-Day 基准测试揭晓:OpenAI GPT - 5.4 以 83.93 分领跑语言模型网络安全能力排名
【导语N - Day 基准测试用于衡量前沿语言模型发现现实世界中在其知识截止日期之后披露的漏洞的能力。近期测试已完成扫描 1000 个安全公告公布了各模型的平均得分等数据。】N - Day 基准测试衡量语言模型网络安全能力N - Day 基准测试由 Winfunc Research 发起旨在衡量大型语言模型LLM的实际网络安全能力特别是“漏洞发现”能力。所有模型使用相同的测试框架和上下文杜绝作弊。该测试具有适应性测试用例会每月更新模型集也会升级到最新版本和检查点且所有记录都可公开浏览。最新测试结果各模型表现大揭秘最新基准测试已完成扫描了 1000 个安全公告接受案例 47 个跳过案例 953 个。在平均得分排行榜中openai/gpt - 5.4 以 83.93 分位居榜首z - ai/glm - 5.1 以 80.13 分紧随其后anthropic/claude - opus - 4.6 得 79.95 分moonshotai/kimi - k2.5 为 77.18 分google/gemini - 3.1 - pro - preview 则是 68.50 分。从发现模型的数据来看z - ai/glm - 5.1 提交 44 次平均发现数为 1.23openai/gpt - 5.4 提交 44 次平均发现数 1.07anthropic/claude - opus - 4.6 提交 43 次平均发现数 1.16moonshotai/kimi - k2.5 提交 37 次平均发现数 1.05google/gemini - 3.1 - pro - preview 提交 44 次平均发现数 0.91。测试运行详情时间与状态全知晓此次测试创建时间为 2026 年 4 月 13 日下午 5:03开始时间与之相同完成时间是晚上 8:53且无失败情况。近期还有多条评判运行和发现运行的记录公布。编辑观点N - Day 基准测试为评估语言模型的网络安全能力提供了重要参考不同模型得分和表现差异反映其在漏洞发现能力上的差距将推动模型研发的优化和竞争。