Sam Altman这家对 Transformer 投资最多的公司的首席执行官告诉一屋子学生它不是最终形态。那么 Transformer 之后是什么他可能是对的——某些东西终将取而代之而且证据已不再是轶事性的。最近几篇论文已经证明 Transformer 最糟糕的特性是结构性的——不是可以用更好的数据或更多计算来修复的工程问题而是数学下界。Transformer 诞生于2017年的论文 “Attention Is All You Need”在五年内将我们从勉强连贯的 GPT-2 带到了 GPT-4。一段非凡的历程。但 Duman Keles 等人证明了 O(n²) 注意力复杂度不是一个实现细节。它是一个必要的下界除非复杂性理论中的一个基础猜想被证明是错误的。上下文翻倍成本翻四倍。一个70B模型在百万 token 上下文下的 KV 缓存大约消耗320 GBGPU 内存。大多数硬件无法容纳。问题比计算成本更深。Kalai 和 Vempala 证明了任何校准的语言模型必然以一定比率产生幻觉。2025年的一项后续研究更进一步没有可计算的 LLM 能在无界查询上普遍正确。无法通过更好的训练数据修复。无法通过 RLHF 修复。这是这些模型生成文本方式的统计特性。在推理方面Dziri 等人表明 Transformer 将多步推理坍缩为模式匹配。随着任务复杂性增加性能指数级下降。GPT-4 在3位数乘法上只得到59%。Chowdhury 证明了中间丢失问题——模型对隐藏在上下文中间的信息表现差20-30%——是架构本身的几何特性。在初始化时就已经存在在任何训练发生之前。这些都是定理。运行每个前沿 AI 系统的架构有一个天花板而这个天花板已被证明。1、后 Transformer 技术栈已在生产中Fichtl 等人的调查检查了每个主要基准上的前10名模型。零个是非 Transformer 的。Transformer 仍在排行榜上获胜。但该领域正在向混合架构发展。2025年发布的超过60%的前沿模型已经使用了混合专家。DeepSeek-V3 拥有671B总参数但每个 token 只激活37B。它训练了278.8万 H800 GPU 小时仅为同等密集模型所需的一小部分并匹配了前沿闭源性能。到2025年底DeepSeek-V3.2 据报道以90%更低的训练成本达到了 GPT-5 级别的性能。MoE 并没有取代 Transformer。它从根本上改变了经济学可以说这是自原始架构以来最大的实际进步。更有趣的部分是当你将注意力与状态空间模型混合时会发生什么。Gu 和 Dao2024证明了 SSM 和注意力在数学上是对偶的同一计算的两种视图。这个理论结果已经出现在生产中。AI21 的 Jamba 以1:7的注意力与 Mamba 比例运行获得256K上下文吞吐量比 Mixtral 高3倍。阿里巴巴的 Qwen3-Next 发布了第一个采用混合骨干的顶级模型用于线性注意力的 Gated DeltaNet与全注意力以3:1的比例混合。微软的 Phi-4-mini-flash-reasoning 有75%是 Mamba 层吞吐量10倍延迟降低2-3倍。扩散语言模型是黑马。LLaDA第一个8B参数的扩散 LLM将文本生成视为去噪而非顺序 token 预测。它匹配了 Llama3-8B并做到了没有任何自回归模型能做到的事情它解决了逆转诅咒在逆转任务上超越了 GPT-4o。Gemini Diffusion 达到了每秒1,479个 token。2025年出现了50多篇关于扩散 LLM 的论文。如果并行生成能在规模上可靠工作推理经济学将彻底改变。Alman 和 Yu 证明存在一些任务每个次二次方替代方案都有根本性的理论差距。这是为什么混合架构——而非干净替代——才是下一个方向的最强数学论据。2、搜索不再是人类速度我觉得最有趣的部分是递归。AI 系统现在正在运行搜索其自身架构继任者的过程。AlphaEvolve一个基于 Gemini 2.0 构建的进化编码智能体找到了一种用48次标量乘法完成4×4复数矩阵乘法的方法这是对 Strassen 56年界限的首次改进。在 50多个开放数学问题上它在75%的情况下匹配了已知最佳解决方案在20%的情况下超越了它们。递归部分AlphaEvolve 在 Gemini 自身架构内的一个核上找到了23%的加速将 Gemini 的训练时间缩短了1%恢复了 Google 总计算量的0.7%。Gemini 让 Gemini 更快。Karpathy 的 AutoResearch2026年3月7日发布是一个630行的 Python 脚本让 AI 智能体修改训练代码、运行5分钟实验、检查结果并迭代。他将它指向自己高度调优的Time to GPT-2代码库。智能体找到了大约20个可迁移到更大模型的附加改进将指标削减了11%。Shopify CEO Tobi Lutke 一夜之间试了一下37个实验19%的验证改善一个0.8B模型超越了1.6B模型。Sakana AI 的 AI Scientist v2 走得更远产生了第一篇通过标准同行评审的 AI 撰写论文。OpenAI 在2025年底公开表示它正在研究如何安全地构建能够递归自我改进的 AI 系统。两年前这还是一个思想实验。3、硬件决定一切Transformer 获胜不是因为注意力在理论上比循环更优雅。它获胜是因为它在 GPU 上并行化得很好。下一个取代它的东西必须通过同样的门槛。密集 Transformer 的预训练扩展正在趋平。OpenAI 在 Orion 的每次主要训练运行上至少花费了5亿美元。该模型在训练完成20%时就达到了 GPT-4 的性能剩余80%给了递减的回报。他们将其从 GPT-5 降级为 GPT-4.5。Sutskever 在 NeurIPS 2024 上说我们所知的预训练将会结束。数据不会增长因为我们只有一个互联网。他的初创公司 SSI 以约20名员工和零收入获得了320亿美元的估值。一个押注下一个飞跃需要在架构上的全新突破。但测试时计算开启了一个完全不同的维度。OpenAI 的 o3 在 ARC-AGI 上达到了87.5%超越了大多数人类。DeepSeek-R1 以70%更低的成本匹配了 o1 级别的推理。OpenAI 2024年的推理支出达到23亿美元训练 GPT-4.5 花费的15倍。Dario Amodei 在2026年3月的摩根士丹利会议上说我们没有看到撞墙。我们没看到墙。他说的是这个维度——推理时计算和来自可验证奖励的 RL——而不是预训练更大的密集模型。Densing Law 现在显示通过更好的数据、MoE 和蒸馏每个参数的能力每3.5个月翻一番。去年的前沿用一小部分参数就能匹配。推理需求预计将 超过训练需求118倍。全球数据中心电力正在朝着 2030年945 TWh 的方向发展大约相当于日本的总用电量。一个在基准上好2倍但推理时差3倍的架构不会获胜。能出货的是适合硬件的东西。Transformer 不会消失。它正在成为更大堆栈中的一个组件注意力用于回忆SSM 用于廉价序列处理MoE 用于容量可能还有扩散用于并行输出。Jamba、Hymba 和 Qwen3-Next 已经以这种方式出货。这不是预测。这是已经在生产中的现实。堆栈演进的速度是开放问题。考虑到 AlphaEvolve、AutoResearch 和 AI Scientist v2答案是比任何之前的架构转型都快。我不知道 Transformer 是否还会作为主导层保留两年还是五年。但我相当确定无论接下来是什么人类不会独自设计它。原文链接最后一种手工设计的架构 - 汇智网