N-Day 基准测试揭晓：OpenAI GPT - 5.4 以 83.93 分领跑语言模型网络安全能力排名

张

张建站

2026/4/15 7:47:10

10分钟阅读

N-Day 基准测试揭晓：OpenAI GPT - 5.4 以 83.93 分领跑语言模型网络安全能力排名

【导语N - Day 基准测试用于衡量前沿语言模型发现现实世界中在其知识截止日期之后披露的漏洞的能力。近期测试已完成扫描 1000 个安全公告公布了各模型的平均得分等数据。】N - Day 基准测试衡量语言模型网络安全能力N - Day 基准测试由 Winfunc Research 发起旨在衡量大型语言模型LLM的实际网络安全能力特别是“漏洞发现”能力。所有模型使用相同的测试框架和上下文杜绝作弊。该测试具有适应性测试用例会每月更新模型集也会升级到最新版本和检查点且所有记录都可公开浏览。最新测试结果各模型表现大揭秘最新基准测试已完成扫描了 1000 个安全公告接受案例 47 个跳过案例 953 个。在平均得分排行榜中openai/gpt - 5.4 以 83.93 分位居榜首z - ai/glm - 5.1 以 80.13 分紧随其后anthropic/claude - opus - 4.6 得 79.95 分moonshotai/kimi - k2.5 为 77.18 分google/gemini - 3.1 - pro - preview 则是 68.50 分。从发现模型的数据来看z - ai/glm - 5.1 提交 44 次平均发现数为 1.23openai/gpt - 5.4 提交 44 次平均发现数 1.07anthropic/claude - opus - 4.6 提交 43 次平均发现数 1.16moonshotai/kimi - k2.5 提交 37 次平均发现数 1.05google/gemini - 3.1 - pro - preview 提交 44 次平均发现数 0.91。测试运行详情时间与状态全知晓此次测试创建时间为 2026 年 4 月 13 日下午 5:03开始时间与之相同完成时间是晚上 8:53且无失败情况。近期还有多条评判运行和发现运行的记录公布。编辑观点N - Day 基准测试为评估语言模型的网络安全能力提供了重要参考不同模型得分和表现差异反映其在漏洞发现能力上的差距将推动模型研发的优化和竞争。

新手必看：GLM-4.7-Flash在Ollama上的完整使用教程

新手必看：GLM-4.7-Flash在Ollama上的完整使用教程想在自己电脑上跑一个又聪明又快的AI模型，但看到动辄几十GB的模型就头疼？试试GLM-4.7-Flash吧。它是个30B参数的大模型，但经过特殊设计，跑起来特别轻快，就…...

2026/4/15 7:46:13 阅读更多 →

2026届学术党必备的五大降AI率助手推荐

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 涉及DeepSeek系列论文的阐述方面，大规模语言模型的高效训练与推理方法被系统地进…...

2026/4/15 7:41:12 阅读更多 →

Chart.js项目实战：电商用户行为追踪完整指南

Chart.js项目实战：电商用户行为追踪完整指南【免费下载链接】awesome A curated list of awesome Chart.js resources and libraries 项目地址: https://gitcode.com/GitHub_Trending/awesome/awesome 在当今数据驱动的电商环境中，理解用户行为模…...

2026/4/15 7:40:10 阅读更多 →