万亿参数只激活420亿:小米MiMo-V2.5-Pro用混合专家架构重新定义长文本推理
当行业还在为百万 token 上下文窗口而欢呼时小米已经悄然将这个数字推到了一个新的量级。2026年4月27日小米开源了MiMo-V2.5-Pro——一个拥有1.02万亿总参数、但每次推理只激活420亿参数的混合专家MoE语言模型。这不是简单的参数堆砌而是一次架构层面的深度创新它支持高达100万 token 的上下文长度能够在数千次工具调用的复杂轨迹中保持强大的指令遵循能力和连贯性。这是小米迄今为止最强大的模型专为最苛刻的智能体任务、复杂软件工程和长时程推理而设计。从 MiMo-V2到 V2.5不只是参数的跃升如果说 MiMo-V2系列证明了小米在大模型领域的技术实力那么 V2.5-Pro 则是这个实力的集大成展示。从数据上看MiMo-V2.5-Pro 的总参数量从 V2.5的3100亿跃升至1.02万亿激活参数从150亿增加到420亿。但更重要的变化发生在架构层面模型采用了70层网络1层密集层69层 MoE 层其中10层使用全局注意力Global Attention60层使用滑动窗口注意力Sliding Window Attention, SWA。这种混合注意力机制的设计正是 MiMo-V2.5-Pro 能够高效处理百万 token 长文本的关键。混合专家架构的核心在于“稀疏激活”输入数据通过门控网络Gating Network被智能路由到最合适的专家子网络而不是激活所有参数。这就像一个智能调度系统根据任务类型选择最擅长的专家来处理既保证了模型的总容量又大幅降低了单次推理的计算成本。更值得关注的是MiMo-V2.5-Pro 延续了 MiMo-V2-Flash 引入的多 token 预测Multi-Token Prediction, MTP技术。与传统的推测解码Speculative Decoding不同MTP 模块是原生集成在训练和推理流程中的通过3层 MTP 网络模型可以在一次前向传播中预测多个 token大幅提升推理速度。这些技术细节背后是小米对效率和性能平衡的极致追求。1.02万亿参数听起来庞大但实际推理时只激活420亿参数这意味着在保持强大能力的同时大幅降低了计算成本和内存占用。基准测试小参数撬动大性能MiMo-V2.5-Pro 的能力不是靠宣传出来的而是在严苛的基准测试中证明的。从上图可以看到MiMo-V2.5-Pro Base 在多个维度都展现出强大的竞争力通用能力MMLU 得分89.4, MMLU-Redux92.8在 GPQA-Diamond“博士级别”科学问题测试中得分66.7大幅领先 Kimi-K2 Base 的48.1分。数学推理GSM8K 准确率达到惊人的99.6%MATH 数据集得分86.2AIME 20242025 得分37.3%全面领先竞品。代码能力HumanEval 得分75.6, SWE-BenchAgentLess得分35.7%不仅能写代码还能理解复杂代码库结构进行跨文件修改和 bug 修复。中文能力C-Eval 得分91.5CMMLU 得分90.2考虑到激活参数量只有420亿这个表现已经相当亮眼。百万 token 的长文本推理从理论到现实长文本处理能力是大模型的“圣杯”之一。许多模型声称支持百万 token 上下文但实际表现往往在超过一定长度后急剧下降。MiMo-V2.5-Pro 用实测数据证明它不仅支持百万 token而且能在这个长度上保持有效推理。小米使用了 OpenAI 的 GraphWalks 基准测试来评估长文本能力。这个测试会在提示词中填充一个由十六进制哈希节点组成的有向图然后要求模型执行广度优先搜索BFS找出恰好在深度 N 的节点或列出节点的父节点Parents。测试覆盖了从32k 到1M token 的全范围。结果令人印象深刻。MiMo-V2 Pro 在超过128k token 后性能迅速下降在1M token 时两个子任务的得分都降至0.00完全失效。而MiMo-V2.5-Pro 在512k token 时仍能保持0.56BFS和0.92Parents的得分在1M token 时得分为0.37和0.62。这意味着即使在百万 token 的极端长度下MiMo-V2.5-Pro 仍然能够理解和推理复杂的结构化信息。这种长文本能力的提升得益于混合注意力架构的精心设计。通过交替使用局部滑动窗口注意力和全局注意力MiMo-V2.5-Pro 在保持对全局信息感知的同时避免了传统全注意力机制的二次方复杂度。这不是简单的工程优化而是对注意力机制本质的深刻理解和创新应用。三阶段后训练从通用到专家的蜕变一个强大的基础模型只是起点如何通过后训练Post-training将其打磨成真正可用的产品才是考验技术团队功力的关键。MiMo-V2.5-Pro 采用了 MiMo-V2-Flash 引入的三阶段后训练范式第一阶段监督微调SFT- 使用精心策划的数据对构建强大的基础指令遵循能力让模型学会“听懂人话”。第二阶段领域专业化训练- 训练多个专家教师模型分别专注于数学、安全、智能体工具使用等不同领域使用强化学习RL奖励优化。第三阶段多教师在线策略蒸馏MOPD -单一学生模型从自己的输出中迭代学习同时持续接受多个专家教师的 token 级别精确指导无缝整合广泛能力。这种范式避免了传统多任务学习中的“能力稀释”问题让 MiMo-V2.5-Pro 既保持通用能力的广度又在数学、代码、长文本推理等关键领域达到专家级水平。未来展望混合专家架构的想象空间MiMo-V2.5-Pro 的发布让我们看到了混合专家架构在大模型领域的巨大潜力。传统密集模型在扩展到万亿参数级别时推理成本和内存占用难以承受。混合专家架构通过稀疏激活让模型在保持大容量的同时只激活处理当前任务所需的部分参数——就像人类大脑在思考数学问题和文学问题时激活不同的神经回路。MiMo-V2.5-Pro 的1.02万亿总参数、420亿激活参数配置代表了当前混合专家架构的最佳实践点足够大可以存储海量知识又足够小激活层面可以高效推理。展望未来混合专家架构还有很大优化空间如何让专家路由更智能如何在训练阶段就考虑推理效率如何与稀疏注意力、量化、剪枝等技术结合这些问题的答案将决定下一代大模型的形态。结语MiMo-V2.5-Pro 的发布标志着小米在大模型领域从追赶者到领跑者的转变。它不是简单的参数堆砌而是架构创新、训练范式和工程优化的综合体现。1.02万亿参数只激活420亿百万 token 长文本推理三阶段后训练范式这些技术细节背后是小米对效率、性能和可用性的极致追求。更重要的是通过开源策略小米正在构建一个开放、协作、共赢的 AI 生态。当越来越多的开发者使用 MiMo 模型当越来越多的应用基于 MiMo 构建整个行业都会从中受益。AI 的未来不属于某一家公司而属于所有愿意创新、分享和协作的参与者。MiMo-V2.5-Pro 的开源正是这个理念的最好诠释。社区地址OpenCSG社区https://opencsg.com/models/XiaomiMiMo/MiMo-V2.5-Prohf社区https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro关于 OpenCSGOpenCSG 是全球领先的开源大模型社区平台致力于打造开放、协同、可持续生态AgenticOps是人工智能领域的一种AI原生方法论由OpenCSG开放传神提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务具备业界领先的模型资产管理能力支持多角色协同和高效复用。