发布时间2026年4月24日报告来源DeepSeek-V4 Technical Report (HuggingFace PDF)整理日期2026年4月27日DeepSeek-V4 技术报告深度解析发布时间2026年4月24日报告来源DeepSeek-V4 Technical Report (HuggingFace PDF)整理日期2026年4月27日一、概览DeepSeek-V4 是什么DeepSeek-V4 是 DeepSeek-AI 于 2026年4月 发布的超大规模 混合专家MoE语言模型系列是继 DeepSeek-V3.2 之后的重大升级版本。本次发布包含两个模型两个模型都原生支持百万 token 上下文1M Context在 Agent 能力、世界知识和推理性能上均实现开源领域领先。核心发布亮点百万 token 上下文首次以 MoE 架构实现原生 1M context且效率极高架构三大创新CSAHCA 混合注意力、mHC 流形约束超连接、Muon 优化器极致效率1M token 下V4-Pro 推理 FLOPs 仅为 V3.2 的 27%KV 缓存仅 10%三档推理模式非思考 / Think High / Think Max适配不同计算预算完全开源模型权重与推理代码开源Agentic Coding 实用表现接近闭源前沿二、架构详解2.1 混合注意力机制CSA HCA问题背景传统 Transformer 注意力在超长上下文下计算开销呈 O(n²) 增长1M token 的计算量极其巨大。DeepSeek-V4 设计了两种新型注意力机制交替叠加2.1.1 压缩稀疏注意力Compressed Sparse Attention, CSA核心思路先压缩 KV 缓存再稀疏选择最相关的条目进行注意力计算。Lightning Indexer 使用 FP4 精度加速索引计算top-k 选择后 KV 召回率维持 99.7%。2.1.2 重度压缩注意力Heavily Compressed Attention, HCA2.1.3 CSA vs HCA 对比2.1.4 其他注意力细节● 查询归一化对查询和压缩KV条目执行额外 RMSNorm防止 logit 爆炸● 部分旋转位置编码Partial RoPE对向量最后64维应用 RoPE保留相对位置语义● 滑动窗口补充分支每个 query 额外保留 128 个未压缩 KV增强局部建模● 注意力 Sink可学习的 sink logits允许注意力得分总和趋近于0● KV 缓存精度RoPE维度用 BF16其余维度用 FP8相比纯 BF16 节省约 50% 存储2.1.5 效率收益在 1M token 上下文下2.2 流形约束超连接mHC问题背景标准超连接HC在深层堆叠时频繁发生数值不稳定限制了 HC 的规模化能力。mHC 核心创新双随机矩阵流形约束将残差变换矩阵 B_l 约束到 双随机矩阵流形Birkhoff多面体每行和每列的元素之和均为1且元素非负。数学保证● 谱范数 ‖B_l‖₂ ≤ 1非扩张变换信号不会爆炸● M 在乘法下封闭深层堆叠时稳定性传递● A_l、C_l 通过 Sigmoid 约束为非负有界防止信号相消Sinkhorn-Knopp 投影算法20次迭代实现双随机矩阵投影交替行归一化和列归一化快速收敛。动态参数化参数由输入动态生成小值初始化 静态偏置 可学习门控因子大幅增强表达能力。意义在保持模型表达力的同时从数学根本上解决了深层残差连接的不稳定问题。2.3 DeepSeekMoE 结构升级DeepSeek-V4 继承 DeepSeekMoE 框架相比 V3 有以下关键改动模型配置参数三、训练方法3.1 预训练数据规模模型 预训练 Token 数数据构成网页、数学、代码、长文档科学论文/技术报告、多语言语料长尾文化知识关键改进● 引入样本级注意力掩码更精细的样本边界控制● 加强长文档数据整理优先科学论文等高信息密度材料● 中期训练阶段加入 Agentic 数据增强 coding 能力● 128K 词表继承 V3 分词器增加少量特殊 tokenMuon 优化器传统问题AdamW 收敛慢训练不稳定Muon 核心对权重梯度执行矩阵正交化后更新让不同参数方向相互独立。混合 Newton-Schulz 正交化10次迭代两阶段● 前8步(a,b,c) (3.4445, -4.7750, 2.0315)——快速收敛● 后2步(a,b,c) (2, -1.5, 0.5)——精确稳定到奇异值为1优化器分配策略通信优化MoE 梯度量化为 BF16 传输减半通信量two-phase reduce-scatter 避免低精度累积误差。训练稳定性技巧预期路由Anticipatory Routing用稍旧参数计算路由索引解耦主干网络和路由网络的同步更新显著提升训练稳定性。系统自动检测 loss spike 时触发短暂回滚和预期路由模式之后恢复正常训练。SwiGLU 钳位线性分量钳位到 [-10, 10]门控分量上限设为 10消除异常值稳定训练且不损害性能。训练阶段序列长度从 4K 逐步扩展到 16K → 64K → 1M1T token 密集注意力预热之后引入稀疏注意力。3.2 FP4 量化感知训练QAT应用范围MoE 路由专家权重GPU 显存主要消耗来源CSA Lightning Indexer 的 QK 路径长文本场景加速FP4→FP8 无损转换原理● FP8(E4M3) 比 FP4(E2M1) 多2个指数位动态范围更大● 可完全吸收 FP4 子块1×32 tiles内的精细尺度信息● 实验验证FP4 子块内 max/min scale 之比满足阈值条件无损转换成立实际训练高精度权重先量化为 FP4再反量化为 FP8 参与计算——完全复用现有 FP8 框架无需修改。RL 一致性RL rollout 阶段直接使用真实 FP4 量化权重确保训练和推理行为完全一致。3.3 后训练两阶段范式在策略蒸馏OPD优势● 避免传统权重合并或多任务 RL 中的负迁移问题● 完整词表 logit 蒸馏梯度方差低训练稳定● 来自不同专家的知识通过 logit 级对齐融入统一参数空间推理努力模式三种模式均通过 RL 训练不同的长度惩罚和上下文窗口模式 特点 适用场景 格式生成式奖励模型创新不使用传统人工标注奖励模型直接整理指导性 RL 数据用生成式奖励模型即模型本身评估轨迹质量并对奖励模型本身也应用 RL 优化。优势模型内部推理能力天然融入评估过程高度鲁棒仅需少量人工标注即可达到优越性能。工具调用与交错思考● 新工具调用架构引入特殊 |DSML| token XML 格式缓解转义失败减少工具调用错误● 交错思考Interleaved Thinking在工具调用场景中所有推理内容在整个对话中完全保留跨越用户消息边界充分利用 1M context 优势● 快速指令Fast Instructions将辅助任务意图识别、是否触发搜索等编码为特殊 token直接复用已计算的 KV 缓存完全避免冗余预填充显著降低首 token 延迟四、基准测试结果4.1 DeepSeek-V4-Pro-Max vs 前沿闭源模型4.2 各模式横向对比结论V4-Flash-Max 在较大 thinking budget 下推理性能可以媲美 V4-Pro High但在纯知识任务和最复杂 Agentic 工作流上仍逊于 V4-Pro。4.3 预训练基础模型对比五、工程实现亮点5.1 专家并行EP细粒度通信计算重叠问题MoE All-to-All 通信是严重的吞吐量瓶颈。解决方案Wave-based 专家调度 融合 Mega-Kernel在稳态下当前 wave 的计算、下一 wave 的数据传输、已完成专家的结果发送同时进行形成完整流水线。关键理论每 GBps 互连带宽可隐藏 6.1 TFLOP/s 的计算通信。性能提升● 通用推理1.50–1.73× 加速● RL rollout 等延迟敏感场景最高 1.96× 加速开源MegaMoEDeepGEMM 的一部分5.2 TileLang 灵活高效内核开发TileLang 是 DeepSeek 用于 GPU 内核开发的领域特定语言DSL三大核心技术● Host CodegenCPU 验证开销从数十~百微秒 → 1微秒● Z3 SMT 求解器辅助整数分析形式化分析整数表达式支持向量化/内存冒险检测/边界分析● 数值精度与位级可重现性默认禁用 fast-math提供 IEEE-754 合规内在函数5.3 批次不变且确定性内核目标确保预训练、后训练、推理之间位级完全对齐。注意力层批次不变性● 问题标准 split-KV 方法导致输出依赖 batch 位置非确定性● 解决双内核策略高吞吐内核 低延迟内核两者累积顺序完全一致矩阵乘法端到端替换 cuBLAS 为 DeepGEMM放弃 split-k通过其他优化补偿性能。确定性反向传播● 注意力为每个SM分配独立累积缓冲区之后确定性全局求和● MoEtoken顺序预处理 多 rank 缓冲区隔离5.4 RL 百万 token 上下文扩展专门框架支持 1M token 上下文的强化学习训练关键技术● 可抢占容错 Rollout 服务支持 RL 过程中的故障容忍● 高效教师调度全词表 OPD 的通信优化● Agent AI 专用沙箱基础设施支持代码执行、工具调用验证六、真实场景评测6.1 代码 Agent内部评测从50名内部工程师收集约200个真实任务功能开发/Bug修复/重构/诊断涵盖 PyTorch/CUDA/Rust/C结果DeepSeek-V4-Pro 显著优于 Claude Sonnet 4.5接近 Claude Opus 4.5 水平。调查85名工程师● 52% 表示 V4-Pro 可作为主力编码模型媲美前沿模型● 39% 倾向于是● 9% 反对6.2 中文写作配对评估 DeepSeek-V4-Pro vs Gemini-3.1-Pro● 功能性写作V4-Pro 以 62.7% vs 34.1% 的胜率领先● 创意写作指令遵循V4-Pro 胜率 60.0%● 创意写作写作质量V4-Pro 胜率 77.5%注仅限最难提示的评估中Claude Opus 4.5 仍以 52% vs 45.9% 优势领先。6.3 搜索增强问答DeepSeek-V4-Pro vs V3.2客观主观问答● V4-Pro 以显著优势胜出● 最大提升在单值搜索精确事实定位和规划策略任务结构化计划合成● Agent 搜索始终优于 RAG且成本仅略高于 RAG6.4 白领任务中文30个高难度中文专业任务深度分析/文档生成/细致编辑跨13个行业DeepSeek-V4-Pro-Max vs Claude Opus 4.6 Max盲评● 总体V4-Pro-Max 实现 63% 非失败率多维度胜出● 优势维度任务完成 内容质量● 表现一致分析、生成、编辑任务均有优势七、技术贡献总结创新层次矩阵开放贡献资源 链接模型权重HuggingFace集合 https://huggingface.co/collections/deepseek-ai/deepseek-v4V4-Pro 推理代码 https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/tree/main/inferenceMegaMoE 内核DeepGEMM https://github.com/deepseek-ai/DeepGEMM/pull/304技术报告 PDF https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf八、个人分析与思考8.1 DeepSeek-V4 最大意义是什么百万 token 上下文的普惠化。不是首个支持 1M context 的模型但是第一个让 1M context 变得计算上可行且开源的模型。● V3.2 在 1M token 下FLOPs 和 KV 缓存极高实际部署成本巨大● V4 在 1M token 下FLOPs 降至 27%KV 缓存降至 10%真正实用这一突破对以下场景影响深远● 长文档理解整本书、完整代码库、长期对话上下文● 复杂 Agent 工作流长时程多步推理完整历史轨迹保留● 大规模代码 Agent整个仓库作为上下文8.2 CSA HCA为什么是混合设计这是一个稀疏精度与效率的权衡● 只用 CSATop-k 稀疏可能漏掉全局低频重要信息● 只用 HCA极度压缩128:1虽高效但可能丢失细粒度语义● 混合CSA 负责精细语义捕捉HCA 提供极低成本的全局粗粒度注意力二者互补这种设计哲学粗细粒度互补在神经网络中并不新鲜但首次被如此系统地应用于超长上下文注意力机制。8.3 mHC 的核心价值双随机矩阵约束是一个优雅的数学解既保证了信号不爆炸谱范数≤1又保证了信息路由的守恒性行列和均为1类似交通流守恒同时不强制特征对齐。这种思路值得在其他深层网络稳定性问题中借鉴。8.4 OPD在策略蒸馏的范式价值专家独立培养 统一整合解决了多任务学习的核心矛盾不同领域最优策略往往相互冲突。OPD 的解法各自训练到极致然后在 logit 分布层面蒸馏融合。理论上这是目前最理想的多专家整合方式——既保留了各专家的领域专注又通过蒸馏实现了统一的语用层面学习。8.5 与竞争对手对比分析核心差距V4-Pro 在 HLEHumanity’s Last Exam上仍落后于 Claude Opus 4.637.7 vs 44.4说明在最顶尖的知识推理边界闭源模型仍有约6个月左右的技术优势。8.6 对 UMMs/多模态研究的启发长上下文压缩注意力思路迁移CSA/HCA 的核心思想压缩→稀疏选择可以迁移到多模态 token 压缩大量视觉/音频 token 可以用类似方式压缩减少 LMM 的计算开销专家培养范式UMMs 研究中不同模态能力视觉、音频、文本可以用类似专家独立培养 OPD 整合的方式训练mHC 稳定性方案深层多模态网络中信号传播稳定性是关键挑战双随机矩阵约束是一个值得探索的通用方案参考资料● DeepSeek-V4 技术报告https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf● DeepSeek-V4 HuggingFace 集合https://huggingface.co/collections/deepseek-ai/deepseek-v4● MegaMoE 内核开源 PRhttps://github.com/deepseek-ai/DeepGEMM/pull/304本文档由 AI 助手基于 DeepSeek-V4 官方技术报告整理最后更新2026年4月27日