Claude Opus 4.7发布：或将抢走全球7亿打工人饭碗！

张

张建站

2026/4/24 3:00:29

10分钟阅读

来源新智元Anthropic 正式发布 Claude Opus 4.7并将它定义为当前可广泛使用的最强 Claude 模型。性能不如此前曝光的新一代Claude Mythos Preview那么炸裂但比普通用户能真正用到的Opus 4.6强了太多除了Agentic搜索能力略有下降外实现了全面碾压官方给出的本次升级的关键词复杂任务、更强视觉、更稳的长链路执行以及更少需要人工参与。只要还在用大模型写文档、读截图、做演示、整理材料Opus 4.7 带来的体验变化很难绕开。本次更新最大的亮点是Opus 4.7的视觉能力大幅提升在测试中从Opus 4.6约50%的分数直接飙升到接近满分而这补上了AI目前最大的视觉短板或许已经不知不觉地迈过了替代人类工作的那道最重要的槛GPT-5.4 Thinking是这样评价它的对手Claude Opus 4.7发布给打工人带来的影响的本次升级的关键在于复杂任务的完成度Anthropic 把 Opus 4.7 的核心升级点放在了高级软件工程和长时间任务执行上。用户已经可以把过去需要密切监督的高难度编码工作交给它处理它会更严格地执行指令也会在回报结果前主动想办法验证输出。API 发布说明里Anthropic 也把它称为当前最强的通用可用模型面向复杂推理和代理式编码场景。大模型竞争的焦点正在从答得像不像转到做得完不完。只会写一段漂亮答案已经不够了。能不能把一份长文档改干净能不能把一套资料串起来做成可交付物能不能持续几十分钟甚至更久不跑偏这才会决定它在日常工作里能不能真的替人扛起一片天。这能够从 Opus 4.7 的官方发布重点里直接看出来。纯编程只是开胃菜SWE-bench Multilingual 测的是模型修复真实 GitHub issue 的能力覆盖多种编程语言。Opus 4.7 拿 80.5%Opus 4.6 拿 77.8%涨 2.7 个百分点。单看这个数似乎只是一次常规迭代。但同一张图右边那组数据更有意思后面回头讲。1M token 里的长任务GraphWalks 是 OpenAI 做的长上下文基准把一张有向图用边列表塞满 1M token 上下文让模型做图遍历。两种考法一种是 Parents给一个节点让模型找出所有直接指向它的父节点另一种是 BFS 广度优先搜索从起点出发一路找到特定深度可达的节点对 Agent 跑多步骤长任务是硬指标。在 Parents 1M 这趴Opus 4.7 从 71.1% 提到 75.1%4 个百分点的常规改进。而到了 BFS 1MOpus 4.7 则从 41.2% 一口气干到 58.6%拉开 17.4 个百分点。换个场景再看。Vending-Bench 2 让模型模拟经营一台自动售货机测长时间工作流里的决策连贯性。Opus 4.6 最终余额 8,018 美元Opus 4.7 做到 10,937 美元。同一台售货机同一个时间窗口Opus 4.7 多挣了 36%。Agent 的眼睛换了代ScreenSpot-Pro 测的是 Agent 的屏幕定位能力。给模型一张 VSCode、Photoshop、AutoCAD 这类专业软件的高分辨率桌面截图加一条自然语言指令让它定位到具体的 UI 元素。在高分辨率屏幕里目标 UI 元素往往只占整张图的 0.07%极考验精细视觉。同样低分辨率不带工具Opus 4.6 拿 57.7%Opus 4.7 拿 69.0%拉开 11.3 个百分点。切到高分辨率Opus 4.7 不带工具就达到了 79.5%。叠加工具调用跑分直接来到 87.6%。视觉能力在一些测试如XBOW的基准测试中Opus 4.7相比Opus 4.6得分直接翻倍从54.5%跃升到接近满分98.5这造就了Opus 4.7相比4.6在计算机使用Computer Use能力的天壤之别回到前面留的那张编程图。SWE-bench Multimodal 这项Anthropic 是用内部实现的测试 harness 跑的。测的是前端 JS 软件修 bug任务里带着 UI 截图、效果图一类的视觉素材模型要结合图片和代码一起干活。从 Opus 4.6 的 27.1% 做到 Opus 4.7 的 34.5%一口气提了 7.4 个百分点。Opus 4.7 的编程升级重点是让模型看懂屏幕。眼睛换代了脑子才能干更复杂的活。GPT-5.4 和 Gemini 3.1 Pro 都没扛住前面全是自比现在来看看跟老对手们怎么打。GDPval-AA 是 Artificial Analysis 基于 OpenAI GDPval 数据集做的评估。它覆盖了 44 种知识工作职业、9 大 GDP 核心行业任务来自资深职业人士平均 14 年经验的真实交付物。AA 版本让模型在 agent loop 里干活用盲测两两对比打 Elo 分。Opus 4.7 拿 1753Opus 4.6 拿 1619GPT-5.4 拿 1674Gemini 3.1 Pro 拿 1314。Opus 4.7 高出 GPT-5.4 79 分高出 Gemini 3.1 Pro 439 分。OfficeQA Pro 是 Databricks 做的企业级推理基准语料是近 100 年的美国财政部公报8.9 万页 PDF、2600 万个数字。模型要精准找到文档、解析表格和正文、跨文档做分析推理。在这里Opus 4.7 的跑分高达 80.6%而 Opus 4.6 只有 57.1%GPT-5.4 和 Gemini 3.1 Pro 更低分别是 51.1%和 42.9%。换句话说Opus 4.7 是 GPT-5.4 的 1.6 倍是 Gemini 3.1 Pro 的 1.9 倍。跃升最炸的是生物学翻到最后一张Structural Biology生物分子推理。Opus 4.6 只有 30.9%。而Opus 4.7 直接冲到了 74.0%。一次版本迭代从三成到七成半2.4 倍。堪称是所有 benchmark 里跃升最夸张的一项。普通用户最先感受到的是三大变化第一个变化指令遵循能力更强了。Anthropic 写到Opus 4.7 的指令遵循能力大幅提升过去很多模型会松散理解、漏掉细节Opus 4.7 则更倾向于逐条照着执行。代价是旧提示词有时会出现意料之外的结果用户需要重新调整写法。对普通用户来说这会直接减少提示词玄学写需求、定格式、列限制条件会更有用。第二种变化Claude 看图会更细。Opus 4.7 支持长边最高 2576 像素的图像输入大约 375 万像素超过此前 Claude 模型的三倍。官方专门点了几个场景密集截图、复杂图表、精细结构图、需要像素级参考的任务。放到现实使用里这对应的就是看懂一页密密麻麻的数据截图识别产品原型细节从复杂流程图里抽信息读一张高分辨率海报或报表时少丢细节。第三种变化输出结果会更容易接近可交付的成品。Anthropic 提到Opus 4.7 在界面、幻灯片、文档这些专业任务上更有审美也更有创造性。它在基于文件系统的记忆上做得更好能跨多轮、多会话记住关键备注减少重复交代背景。对经常拿模型润色材料、整理项目、反复改同一份内容的人来说这种提升会比跑分的提升来得更直观。这次发布安全也被摆在了同样重要的位置Anthropic 在一周前刚刚公布 Project Glasswing专门谈到了前沿模型在网络安全方向的风险与收益。Opus 4.7 成了这套新思路下第一个公开部署的模型官方强调它的网络安全能力弱于 Mythos Preview并且上线时带有自动检测和拦截高风险网络安全请求的护栏。合规安全研究人员则可以申请加入新的 Cyber Verification Program。从安全评估看Opus 4.7 与 Opus 4.6 的整体安全画像相近在诚实性和抵抗恶意提示词注入上更强在某些细项上也存在小幅走弱。Anthropic 的结论是它整体上「较为可靠且值得信任」距离理想状态还有空间。这说明Anthropic 没有把发布包装成一次毫无代价的全面跃升。谁会立刻受益谁又要多留一个心眼最先受益的人群很清楚开发者、分析师、法务、研究人员以及所有高频处理文档、表格、演示材料的人。官方早期测试反馈里很多合作方都提到同样几件事复杂工作流更稳了错误恢复更强了文档推理、代码审查、数据分析、长上下文任务都有明显提升。需要多留一个心眼的地方也已经写在官方说明里。更高分辨率图像会烧掉更多 Token用户用不到这些细节时最好先压缩图片。Opus 4.7 还换了分词器Tokenizer同样的输入可能会多出大约 1.0 到 1.35 倍 Token高 Effort 下输出 Token 也会增加。对直接在 Claude 应用里聊天的普通用户这更多会体现在额度和响应体验上。对使用龙虾和Hermes Agent这类API的用户和团队客户这就是实打实的成本变量。好在价格方面Opus 4.7和4.6与4.5保持了一致没有涨价但这个价格本身其实就已经足够昂贵了...Anthropic想传递的信号已经很清楚了从 Opus 4.7 这次发布能看出Anthropic 眼下押注的方向已经很明确长任务执行、视觉理解、工具协同、少监督交付这几项能力正在被打包成下一阶段的大模型主战场。官方同步上线的 Xhigh Effort思考程度介于 high 和 max 中间、Task Nudgets 公测以及 Claude Code 里的 /ultrareview也都围着这个方向在转。除了官网公告外Claude也公布了Opus 4.7的系统卡长达232页里面公布了更多值得关注的细节限于篇幅再次我们不作展开。对普通用户来说对Claude Opus 4.7更直接的感受会是交代清楚以后它更容易把事情做对看图更细写出来的东西更能直接拿去用。大模型从会聊天走向会干活这一步又往前挪了一大截。真正能干好活的最强生产力模型从Opus 4.6变成了Opus 4.7。参考资料https://www.anthropic.com/news/claude-opus-4-7https://x.com/claudeai/status/2044785261393977612https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf推荐阅读MIT新晋副教授何恺明《计算机视觉进展》课程附Slides与资料下载西电IEEE Fellow团队出品最新《Transformer视觉表征学习全面综述》如何做好科研这份《科研阅读、写作与报告》PPT手把手教你做科研奖金675万3位科学家斩获“中国诺贝尔奖”最新 2022「深度学习视觉注意力」研究概述包括50种注意力机制和方法【重磅】斯坦福李飞飞《注意力与Transformer》总结84页ppt开放下载2021李宏毅老师最新40节机器学习课程附课件视频资料欢迎大家加入DLer-大模型技术交流群长按识别邀请您进群

C语言中的枚举

枚举类型是一种独立的类型，其值为其底层类型的值，其中包含了显式命名的常量（枚举常量）的值。例如： #include <stdio.h>typedef enum {HAL_OK 0x00,HAL_ERROR 0x01,HAL_BUSY 0x02,HAL_TIMEOUT 0x03 } HAL_St…...

2026/4/24 2:58:28 阅读更多 →