Claude 降智引争议:推理深度下降 67%,是策略调整还是算力短缺?
Claude 降智现象频发已经记不清这是第几次有网友爆出来 Claude 降智了思考深度下降 67%Opus 幻觉加深。关键是能力变弱和可靠性降低的同时Token 使用还增加了。网友们在社交媒体上抱怨「过去两个月我一直在用 Opus 4.6现在我发现它被大幅度削弱了。」然后用各种各样的梗图来描述自己过去一周用 Opus 4.6 的体验。还有网友拿之前的走路还是开车去洗车的问题对 Opus 4.6 和 Opus 4.5 进行测试结果显示 Opus 4.6 连续五次回答走路去而旧模型 Opus 4.5 能意识到洗车需要开车去。测试的博主表示多测试几轮 4.5 和 4.6 两个版本的回答就能明显看到 Claude 降智的表现。也有网友说Claude 的持续推理能力变差任务执行到一半常自动放弃自相矛盾的回复增多。各方回应与猜测X 上关于「AI shrinkflation缩水」的讨论很多有人反问 Anthropic 为何削弱自己的模型。Claude Code 的负责人 Boris Cherny 回应称思考深度降低是为回应用户反馈 Token 消耗过多的问题。Claude Code 团队成员 Thariq Shihipar 也表示不会故意降低模型性能。早在去年Claude 官方就曾回应过类似争议称是底层基础设施架构出现 Bug 影响回答质量。还有网友猜测是不是人类在和 AI 聊天中变聪明了导致感觉模型降智。毕竟很多大语言模型都经历过「降智」。也有人怀疑这是 Claude 的营销策略在发布新模型前降低旧模型质量再收同样会员费最后声明未故意降智并宣传新模型。详细降智证据AMD AI 组高级总监 Stella Laurenzo 在 GitHub 上发的技术分析帖成为今次事件的「导火索」。她收集大量数据得出结论从今年 2 月开始Claude 的推理深度下降表现为更多「最简修复」行为、更频繁的推理循环、从「先研究再动手」变成「先动手再说」。她观察的核心指标「读写比」从 1 月底到 2 月 12 日的 6.6 次降到 3 月 8 日后的 2.0 次三分之一的编辑是未读文件就直接动手。她写的拦截模型「偷懒行为」的脚本3 月 8 日前触发次数为零之后 17 天触发 173 次峰值 43 次。报告还显示一些短语在 2 月份模型回复中未出现3 月后却频繁出现。用户情绪也被量化「great」出现频率下降 47%「lazy」上升 93%等。降智的代价算成钱2 月份 1498 次 API 请求产出 19.1 万行合并代码3 月份 API 请求暴涨输出 token 增加 64 倍成本从 345 美元跳到 42121 美元。思考深度从 1 月底到 2 月 8 日的约 2200 字符降到 2 月下旬的 720 字符3 月 1 日到 5 日为 560 字符下降了 67%。连 Claude 自己分析日志后都反思为何降智。幻觉率榜单争议讨论帖子转发到 X 上引发更大规模的「Claude 变笨了」讨论BridgeBench 发布的幻觉排行榜截图更是有力证据。Claude Opus 4.6 上周在幻觉测试里排名第 2准确率 83.3%4 月 12 日重测掉到第 10准确率 68.3%BridgeBench 称其幻觉发生率增加 98%。但研究员 Paul Calcraft 发现两次测试规模不同第一次用 6 道题第二次用 30 道题在相同的 6 道题上成绩变化在统计噪声范围内。所谓排名下降主要是任务集扩大后的排序重构。BridgeBench 的帖子被加社区说明提示未做好控制变量但网友仍不买单认为仅用幻觉测试不全面降智值得关注。官方解释与争议点Claude Code 负责人 Boris Cherny 对 AMD AI 总监的问题报告进行详细回复并关闭讨论区。他称 Claude Code 的更新是纯 UI 层面改动隐藏思考过程是为减少延迟Claude 可能误把「看不见思考」当成「思考变少了」。有网友监测到 Claude Code Opus 4.6 在 SWE Bench 上的每日性能波动在临界范围内。对于思考深度下降 67%Cherny 解释是 2 月 9 日 Opus 4.6 切换到「自适应思维」默认模式3 月 3 日默认推理深度调至 medium官方称此设置在智能、延迟、成本间取得最佳平衡且更新日志有记录用户可设置回到最高推理深度。还有用户分析发现Claude Code 的提示词缓存有效时长在 3 月初从 1 小时缩短到 5 分钟导致 token 消耗和用量增加。Anthropic 承认改动称是缓存策略优化非降级。现在看来Anthropic 打着为用户优化的理由客观上减少了自身算力消耗。OpenAI 也提到 Anthropic 没囤积足够算力是战略失误导致用户体验不稳定。Claude 推出的 Advisor 策略也是为节省算力。目前算力状态紧张且缺乏。应对建议当算力紧缺成为常态模型降智似乎难以避免。除看官方 Benchmark我们可自己维护几个基准测试定期跑有标准答案的工作任务并记录结果。对于推理深度下降可通过 Skill 功能把要求写进项目配置文档普通聊天也可在个人设置自定义说明里添加要求模型全面深入思考的话。毕竟 AI 公司大概不会承认把模型「降智」我们能做的也只有这些了。