刚刚,Claude Mythos打爆AI评测天花板!超指数狂飙,2027奇点加速
来源新智元编辑Aeneas KingHZ【新智元导读】就在刚刚Claude Mythos把评测干「失效」了METR第一次测不准AI攻防拐点到了AI进化已成「外星文明」降临超越指数增长2027 AGI奇点正加速撞向人类。刚刚Claude Mythos干爆METR评测上限超指数级进化已经逼近AGI奇点。就在今天一张趋势图刷屏全网。国际最权威的AI评测机构METR惊恐地发现他们的「温度计」要被Mythos撑爆了。Claude Mythos Preview的能力已经捅破了人类评测框架的天花板进入了「失真区」OpenAI超级对齐团队前成员Leopold Aschenbrenner曾预测2027年是AGI的奇点但现在的最新数据显示Mythos的表现已经略高于2027情景的趋势线。「外星文明」已经强行着陆阴影已覆盖整片天空。评测界的大地震当「满分」不再有意义在METR最新的测试中他们试图衡量AI完成长周期复杂任务的能力Time Horizons。METR设置了一个名为「50%成功率时间线」的指标——即模型有50%的概率成功独立完成一项人类需要耗费X小时才能完成的任务。此前此前的模型成绩是几十分钟或几个小时。但当Claude Mythos站上考场时数据直接爆表了它在人类需要16个小时才能完成的极其复杂的长线任务上轻松达到了50%的成功率你可能会问那测试32小时、64小时的任务呢METR给出的答案让人惊恐「我们测不了了。」在METR精心构建的228个魔鬼级测试任务中只有区区5个任务是被归类为「16小时及以上」的。这意味着什么这意味着人类现有的、引以为傲的难题库已经被AI彻底掏空了。就像用刻度只有1米的卷尺去量一栋摩天大楼除了知道它「爆表」了我们对其真实的深度一无所知。「外星文明」已降临在16小时以上的区间METR根本没有足够的样本来对Mythos进行准确的定量比较。METR坦言在这个阈值之上数据的测算变得「不稳定且失去意义」。这是人类历史上极为罕见的一幕创造者失去了丈量被创造物能力的工具。当「考官」已经出不出题的时候「考生」的真实实力到底有多恐怖这不仅仅是一次常规的AI模型迭代而是一次「超指数级」的物种变异。旧的法则正在崩塌AI已成「外星文明」降临AI从业者、硅谷著名观察家Chase Brower直言AI发展远超行业预期根据SemiAnalysis的数据AI行业的年化营收已经远超此前对2026年第二季度约260亿美元的预测。当前的AI技术已如「清晰可见的外星飞船」一样悬浮在人类文明的天空中。人类已经无法理解AI的超指数增长这不再是实验室里的数据标志着AGI的征兆已经完全显现超指数比指数增长还快把METR那张趋势图拉出来细看。纵轴是AI能自主完成的编码任务时长从8秒到5年对数刻度。横轴是模型发布时间2021到2028。每一个点是一个模型版本。把点连起来画出来的不是一条直线不是一条指数曲线而是一条比指数还陡的弧。AI在超指数增长AI增速本身在加速。2021年最好的模型能自主完成8秒级别的任务——写一行代码修一个拼写错误。2023年初推到了1分钟量级——一个小函数、一段简单调试。2024年中冲到了大约1小时——一个完整feature的实现、一次多文件重构。2026年4月Mythos Preview落点16小时——一个完整的工程子项目读代码、理解架构、制定方案、编写实现、调试测试一气呵成不需要人类盯着。每一代的跃升幅度都比上一代更大。间隔时间都比上一代更短。本图由AI生成人类的演化是为了让我们在草原上计算果实和猎物的距离大脑天生是线性的。我们好不容易理解了「指数增长」现在却被迫面对指数之上的指数。猿类的大脑面对超指数直接集体宕机。本图由AI生成METR在图上画了几条参考线。基于多家机构联合预测假设AI能力按目前最主流的预期持续增长大约在2027年前后触达通用人工智能门槛。Mythos的数据点落在这条线的上方。不是偏了一点。是在时间轴还没走到2027的位置上能力值已经超过了2027的预测值。AI基础设施从业者Chase Brower看完METR报告后在推特上判断那个预计在2026年初出现的Agent-1描述其实有点低估了当前最好模型的能力。整个行业对AI发展速度的预估都偏保守了。这里有个细节容易被忽略。METR的纵轴不是跑分不是准确率不是某个benchmark上的百分比。那条曲线目前没有任何减速的迹象。安全圈原子弹时刻从「助手」到「自主攻击者」如果说METR的烦恼还是学术性的那么Palo Alto Networks的预警则是带血的实战报告。近期Palo Alto获得了Mythos、GPT-5.5-Cyber等前沿模型的早期无限制访问权限。测试结论让所有防御者脊背发凉AI已经跨过了那道名为「自主」的门槛。当模型能自主工作16小时的时候它在安全领域能干什么时间坍缩3周1年Palo Alto的报告中有一个令人震撼的数据使用Mythos辅助进行漏洞分析仅仅3周时间其完成的工作深度和覆盖广度等同于一整个顶级渗透测试团队整整1年的工作量。链接https://www.paloaltonetworks.com/blog/2026/05/frontier-ai-defense/这直接是降维打击。本图由AI生成以往的AI只能帮你写个脚本、搜个代码片段。但Mythos展现出了一种近乎恐怖的「软件漏洞直觉」。它能识别出上万行代码中那些零散、低危的小漏洞。更要命的是它能像顶级黑客一样将这些原本不起眼的漏洞串联成一条致命的攻击链。从初步入侵到数据拖库在AI辅助下整个过程被压缩到了25分钟。而在过去这种级别的攻击可能需要一个团队潜伏数周才能完成。本图由AI生成在奇点撞向我们之前如何自救Anthropic曾因为觉得Claude Mythos「太危险」而拒绝全面发布一度被嘲讽为PR手段。但现在看来这更像是一种对未知的敬畏。Mozilla已经开始行动他们利用Mythos扫描Firefox浏览器仅在2026年4月一个月内就修复了破纪录的423个安全问题。这说明AI也是最强的盾但前提是你要比攻击者跑得更快。我们必须接受一个残酷的现实旧时代的防御节奏已经彻底失效。检测响应时间不能再以「小时」计必须缩短到「分钟」甚至「秒」安全不再是人的审计而是「用AI对抗AI」的自动化博弈。与此同时资本侧也已经allin。在过去5个月里英伟达向自己的客户注资约400亿美金300亿给OpenAI20亿给算力商CoreWeave32亿给光纤商康宁……本图由AI生成、数据来源于网络由AI收集这些钱转了一圈最后全部变成了英伟达芯片的订单。显然黄仁勋正在用钱投票强行拉拽全产业链加速撞向奇点。但这套永动机最可怕的地方在于它在奇点坠落前根本无法停下。Chase Brower指出Anthropic的年化收入已经远高于此前260亿美元的预测线。资本市场已经在用脚投票——钱在押注那条曲线不会拐弯。2027年按照METR趋势图上那条中央轨迹线是多家机构联合预测的AGI门槛年份。Mythos已经跑在这条线的上方。如果接下来18个月不出现根本性的技术断崖——不是减速不是瓶颈而是物理定律级别的硬墙——那么2027不再是一个需要辩论的预测。本图由AI生成它是一个需要准备的倒计时。AGI的奇点不再是预测而是正在发生的冲击。外星文明已经来临我们能做什么参考资料https://www.paloaltonetworks.com/blog/2026/05/frontier-ai-defense/https://metr.org/time-horizons/https://x.com/ChaseBrowe32432/status/2053159533862908019阅读最新前沿科技趋势报告请访问21世纪关键技术研究院的“未来知识库”未来知识库是“21世纪关键技术研究院”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告加入未来知识库全部资料免费阅读和下载牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》麦肯锡超级智能机构赋能人们释放人工智能的全部潜力AAAI 2025 关于人工智能研究未来研究报告斯坦福2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告191 页壳牌2025 能源安全远景报告能源与人工智能57 页盖洛普 牛津幸福研究中心2025 年世界幸福报告260 页Schwab 2025 未来共生以集体社会创新破解重大社会挑战研究报告36 页IMD2024 年全球数字竞争力排名报告跨越数字鸿沟人才培养与数字法治是关键214 页DS 系列专题DeepSeek 技术溯源及前沿探索50 页 ppt联合国人居署2024 全球城市负责任人工智能评估报告利用 AI 构建以人为本的智慧城市86 页TechUK2025 全球复杂多变背景下的英国科技产业战略韧性与增长路径研究报告52 页NAVEX Global2024 年十大风险与合规趋势报告42 页《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页2025 - 2035 年人形机器人发展趋势报告 53 页Evaluate Pharma2024 年全球生物制药行业展望报告增长驱动力分析29 页【AAAI2025 教程】基础模型与具身智能体的交汇350 页 pptTracxn2025 全球飞行汽车行业市场研究报告45 页谷歌2024 人工智能短跑选手AI Sprinters捕捉新兴市场 AI 经济机遇报告39 页【斯坦福博士论文】构建类人化具身智能体从人类行为中学习《基于传感器的机器学习车辆分类》最新 170 页美国安全与新兴技术中心2025 CSET 对美国人工智能行动计划的建议18 页罗兰贝格2024 人形机器人的崛起从科幻到现实如何参与潜在变革研究报告11 页兰德公司2025 从研究到现实NHS 的研究和创新是实现十年计划的关键报告209 页康桥汇世Cambridge Associates2025 年全球经济展望报告44 页国际能源署2025 迈向核能新时代麦肯锡人工智能现状组织如何重塑自身以获取价值威立Wiley2025 全球科研人员人工智能研究报告38 页牛津经济研究院2025 TikTok 对美国就业的量化影响研究报告470 万岗位14 页国际能源署IEA能效 2024 研究报告127 页Workday 2025 发挥人类潜能人工智能AI技能革命研究报告20 页CertiKHack3D2024 年 Web3.0 安全报告28 页世界经济论坛工业制造中的前沿技术人工智能代理的崛起》报告迈向推理时代大型语言模型的长链推理研究综述波士顿咨询2025 亚太地区生成式 AI 的崛起研究报告从技术追赶者到全球领导者的跨越15 页安联Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告33 页IMT2025 具身智能Embodied AI概念、核心要素及未来进展趋势与挑战研究报告25 页IEEE2025 具身智能Embodied AI综述从模拟器到研究任务的调查分析报告15 页CCAV2025 当 AI 接管方向盘自动驾驶场景下的人机交互认知重构、变革及对策研究报告124 页《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页《面向科学发现的智能体人工智能进展、挑战与未来方向综述》全国机器人标准化技术委员会人形机器人标准化白皮书2024 版96 页美国国家科学委员会NSB2024 年研究与发展 - 美国趋势及国际比较51 页艾昆纬IQVIA2025 骨科手术机器人技术的崛起白皮书创新及未来方向17 页NPLBeauhurst2025 英国量子产业洞察报告私人和公共投资的作用25 页IEA PVPS2024 光伏系统经济与技术关键绩效指标KPI使用最佳实践指南65 页AGI 智能时代2025 让 DeepSeek 更有趣更有深度的思考研究分析报告24 页2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告37 页华为2025 鸿蒙生态应用开发白皮书133 页《超级智能战略研究报告》中美技术差距分析报告 2025欧洲量子产业联盟QuIC2024 年全球量子技术专利态势分析白皮书34 页美国能源部2021 超级高铁技术Hyperloop对电网和交通能源的影响研究报告60 页罗马大学2025 超级高铁Hyperloop第五种新型交通方式 - 技术研发进展、优势及局限性研究报告72 页兰德公司2025 灾难性网络风险保险研究报告市场趋势与政策选择93 页GTI2024 先进感知技术白皮书36 页AAAI2025 人工智能研究的未来报告17 大关键议题88 页安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告威达信2025 全球洪水风险研究报告现状、趋势及应对措施22 页兰德公司迈向人工智能治理研究报告2024EqualAI 峰会洞察及建议19 页哈佛商业评论2025 人工智能时代下的现代软件开发实践报告12 页德安华全球航空航天、国防及政府服务研究报告2024 年回顾及 2025 年展望27 页奥雅纳2024 塑造超级高铁Hyperloop的未来监管如何推动发展与创新研究报告28 页HSOAC2025 美国新兴技术与风险评估报告太空领域和关键基础设施24 页Dealroom2025 欧洲经济与科技创新发展态势、挑战及策略研究报告76 页《无人机辅助的天空地一体化网络学习算法技术综述》谷歌云Google Cloud2025 年 AI 商业趋势白皮书49 页《新兴技术与风险分析太空领域与关键基础设施》最新报告150 页《DeepSeek 大模型生态报告》军事人工智能行业研究报告技术奇点驱动应用加速智能化重塑现代战争形态 - 25030940 页真格基金2024 美国独角兽观察报告56 页璞跃Plug and Play2025 未来商业研究报告六大趋势分析67 页国际电工委员会IEC2025 智能水电技术与市场展望报告90 页RWS2025 智驭 AI 冲击波人机协作的未来研究报告39 页国际电工委员会IEC2025 智能水电技术与市场展望报告90 页RWS2025 智驭 AI 冲击波人机协作的未来研究报告39 页未来今日研究所 2025 年科技趋势报告第 18 版 1000 页模拟真实世界多模态生成模型的统一综述中国信息协会低空经济分会低空经济发展报告2024 - 2025117 页浙江大学2025 语言解码双生花人类经验与 AI 算法的镜像之旅42 页人形机器人行业由 “外” 到 “内” 智能革命 - 25030651 页大成2025 年全球人工智能趋势报告关键法律问题28 页北京大学2025 年 DeepSeek 原理和落地应用报告57 页欧盟委员会 人工智能与未来工作研究报告加州大学伯克利分校面向科学发现的多模态基础模型在化学、材料和生物学中的应用电子行业从柔性传感到人形机器人触觉革命 - 25022635 页RT 轨道交通2024 年中国城市轨道交通市场数据报告188 页FastMoss2024 年度 TikTok 生态发展白皮书122 页Check Point2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议57 页【AAAI2025 教程】评估大型语言模型挑战与方法199 页 ppt《21 世纪美国的主导地位核聚变》最新报告沃尔特基金会Volta Foundation2024 年全球电池行业年度报告518 页斯坦福2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告191 页国际科学理事会2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告英文版118 页光子盒2025 全球量子计算产业发展展望报告184 页奥纬论坛2025 塑造未来的城市研究报告全球 1500 个城市的商业吸引力指数排名124 页Future Matters2024 新兴技术与经济韧性日本未来发展路径前瞻报告17 页《人类与人工智能协作的科学与艺术》284 页博士论文《论多智能体决策的复杂性从博弈学习到部分监控》115 页《2025 年技术展望》56 页 slides大语言模型在多智能体自动驾驶系统中的应用近期进展综述【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用皮尤研究中心2024 美国民众对气候变化及应对政策的态度调研报告气候政策对美国经济影响的多元观点审视28 页空间计算行业深度发展趋势、关键技术、行业应用及相关公司深度梳理 - 25022433 页Gartner2025 网络安全中的 AI明确战略方向研究报告16 页北京大学2025 年 DeepSeek 系列报告 - 提示词工程和落地场景86 页北京大学2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用99 页CIC 工信安全2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告42 页中科闻歌2025 年人工智能技术发展与应用探索报告61 页AGI 智能时代2025 年 Grok - 3 大模型技术突破与未来展望报告28 页上下滑动查看更多