收藏 | 程序员小白必看：揭秘大模型 KVCache 的演进与优化秘籍

张

张建站

2026/5/8 9:31:04

10分钟阅读

随着多轮交互 Agent 改变搜索习惯长上下文导致 KVCache 持续膨胀显存瓶颈愈发突出。本文系统梳理了以注意力机制为核心的模型架构演进中KVCache 的优化历程。从压缩头数、维度到稀疏注意力、线性注意力以及量化与压缩等策略我们见证了业界如何打破显存与序列长度的线性关系实现推理效率与效果的平衡。未来或许融合多种机制将成为大模型发展的新方向。1 Decoder-only 模型结构目前主流大语言模型都采用 Decoder-only 架构其核心流程如下图所示包括以下核心组件组件职责Embeddingtoken ID → d_model 维向量Attentiontoken 间信息交互建模上下文依赖FFN / MoE非线性变换增加模型表达能力RMSNorm归一化稳定数值Residual残差连接保证梯度流通LM Headhidden → 词表 logits其中 Attention 是唯一需要 KVCache 的模块。近年来围绕 Attention 的每一项改进几乎都在改变 KVCache 的形态和大小。2 大模型推理加速的本质三要素大模型推理的所有优化本质上都是围绕计算、存储、通信这三个核心资源维度进行的资源置换trade-off。我们的目标在保障推理效果的前提下于有限的物理约束内追求吞吐与延迟的最优解。•存储换计算缓存 KVCache 或公共前缀用显存空间的增加换取计算量的减少。•计算/存储换效率通过 FP8/FP4 量化或 GQA 结构在微小的效果损失下换取带宽的释放与计算吞吐的提升。•通信换存储引入多级缓存用 PCIe/NVLink 的通信开销换取 GPU 显存的有效承载上限。•通信换算力利用率采用 PD 分离架构通过增加系统通信开销换取计算集群在不同推理阶段Prefill/Decode更高的硬件利用率。结合本文的主题下面我们重点讨论 KVCache 的演进。3 近几年和 KVCache 相关的演进过去几年大模型 Attention 架构经历了 MHA、MQA、GQA、MLA再到稀疏注意力、线性注意力的演进。从 KVCache 的视角审视可以归纳为同一个目标让模型更强的同时让 KVCache 更小。3.1 压缩 KV 头数 —— MHA → MQA → GQA标准的 Multi-Head AttentionMHA中每个 Q 头都配有独立的 K 头和 V 头KVCache 大小与注意力头数成正比。•MQAMulti-Query Attention, Shazeer 2019所有 Q 头共享一组 K/V 头KVCache 缩小到 MHA 的1/num_heads。效果极为显著但单组 KV 头的表达力不足模型质量有所下降。•GQAGrouped-Query Attention, Ainslie et al. 2023折中方案——将 Q 头分组每组共享一对 KV 头。例如 Qwen3-72B 使用 64 个 Q 头 / 8 个 KV 头8:1 分组比KVCache 降至 MHA 的 1/8质量几乎无损。3.2 压缩 KV 表示 —— MLALatent 维度压缩3.1 的思路是减少 KV 头的数量而 MLA 换了一个角度——压缩每个 KV 头的维度。MLAMulti-head Latent Attention, DeepSeek V2/V3不存储完整的 K/V 向量而是将它们联合压缩到一个低维 latent 向量c。推理时只需缓存c维度 kv_lora_rank qk_rope_head_dim注意力计算时再解压还原。以 DeepSeek V3 为例• 传统 MHA 每 token 缓存 KV 维度为hidden_size × 2 7168 × 2 14336• MLA 只需缓存kv_lora_rank qk_rope_head_dim 512 64 576维•单层 KVCache 压缩约 96%且模型质量不降反升联合压缩提供了正则化效果3.3 稀疏注意力 —— 选择性保留压缩序列范围前两个思路压缩头数、压缩维度都是在缩小每个 token 的 KV 表示大小而稀疏注意力换了一个角度减少需要保留 KV 的 token 数量。其核心洞察是在长上下文场景中并非所有历史 token 都对当前生成同等重要。如果能识别并只保留关键token 的 KV便可以大幅缩减缓存规模同时保持模型质量。沿着这一思路业界经历了从固定窗口截断到动态稀疏选择再到分层混合策略的演进3.3.1 SWA —— 滑动窗口截断历史SWASliding Window Attention, Mistral 2023.10每个 token 只关注最近 W 个 token 的 KV窗口外的 KV 直接丢弃。KVCache 上限固定为窗口大小 W不再随序列增长。•优势实现简单显存可控推理速度快•局限窗口外的信息完全丢失长距离依赖能力受限SWA 提出了一个关键洞察并非所有历史 token 都同等重要近距离 token 的价值远高于远距离 token。但它的做法过于激进——对窗口外信息一刀切式丢弃。3.3.2 NSA —— 稀疏索引选择性保留NSANative Sparse Attention, DeepSeek 2025.02在 SWA 的基础上进一步思考——能否不完全丢弃窗口外的信息而是用稀疏索引选择性保留重要 token 的 KVNSA 通过学习到的稀疏模式以远少于全量的 KV 覆盖关键信息兼顾了长距离依赖和显存效率。•优势保留了远距离的关键信息效果优于 SWA•局限稀疏模式需要动态计算增加了调度复杂度NSA 验证了选择性保留的可行性不需要存储所有历史 KV只需保留最重要的那部分。3.3.3 CSA HCA —— 分层混合集大成者CSA HCADeepSeek V4, 2026将 SWA 的近距离精确保留和 NSA 的远距离稀疏选择思想融合并推到极致形成分层混合注意力架构• 继承 SWA 的思想每层保留最近 128 token 的完整 KV滑动窗口• 继承 NSA 的思想对窗口外的历史不丢弃而是用不同粒度的压缩策略保留• 更进一步不同层使用不同的压缩比CSA 4:1HCA 128:1形成多尺度的信息覆盖不同距离的 token 分配不同的压缩策略。根据 DeepSeek V4 技术报告的等效对比在 1M token 的上下文设定下V4-Pro 的 KVCache 仅为 V3 的约 10%。以 V4-Pro 为例61 层前 2 层为 HCA之后 CSA 与 HCA 严格交替共 31 层 HCA 30 层 CSA。每一层的 KVCache 由两部分组成1滑动窗口所有层共有—— 存储最近 128 token 的完整 KV无论是 CSA 层还是 HCA 层都保留最近 128 个 token 的原始 KV不做任何压缩或丢弃。原因• 最近的 token 对当前生成贡献最大注意力权重随距离衰减• 近距离信息不能容忍任何精度损失• HCA 的压缩需要凑满 128 个 token 才能执行未凑满的部分必须以原始形式保留2历史区域 —— CSA 层先压缩再稀疏选择CSA30 层的 4:1 压缩比通过两个阶段实现阶段一交错重叠压缩。不是简单的每 4 个 token 无重叠划分而是以4 token 为步长、8 token 为窗口交错压缩——每个 compressed KV 单元覆盖 8 个连续 token与前后各重叠 4 个最终序列长度变为 S/4原始历史: [t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14, t15, t16, ...]c1 覆盖: [t1, t2, t3, t4, t5, t6, t7, t8 ] → 压缩为 1 个c2 覆盖: [t5, t6, t7, t8, t9, t10, t11, t12] → 压缩为 1 个c3 覆盖: [t9, t10, t11, t12, t13, t14, t15, t16] → 压缩为 1 个步长 4窗口 8 → 等效压缩比 4:1论文将每个窗口拆为两路Cᵃ当前步长新进入的 4 token和Cᵇ前一窗口重叠的 4 token分别投影后联合加权融合。这样每个原始 token 被前后两个压缩单元共同覆盖边界信息不会割裂过渡更平滑。阶段二Top-k 稀疏选择。通过 Lightning Indexer轻量级相关性打分网络对所有 compressed KV 单元快速评分无需走完整注意力开销每个 query 只选出最相关的 top-k 个V4-Pro: k1024参与后续正式稠密注意力计算压缩后序列: [c1, c2, c3, c4, ..., c262144] (1M/4 256K 个 compressed KV 单元)Lightning Indexer 快速粗筛 → 选出 Top-1024 个最相关 → 仅这些参与正式 Attention3历史区域 —— HCA 层块级压缩 128:1不做稀疏选择HCA31 层将历史序列按 128 token 为一块通过 token compressor 将整块融合为 1 个 compressed KV 向量。Compressor 内部包含可学习投影位置偏置 Softmax 全局加权聚合——不是简单池化而是带 Softmax 的块级加权融合历史 Block (128 tokens): [t1, t2, ..., t128] → 可学习投影位置偏置 → Softmax加权聚合 → [c1]1个压缩向量与 CSA 的关键区别•压缩方法不同CSA 的 token compressor 是轻量级压缩4 token → 1保留更多细节HCA 的 compressor 是带 Softmax 的块级加权融合128 token → 1压缩更激进但丢失更多局部信息。•后续处理不同CSA 压缩后还需 Lightning Indexer 做 top-k 稀疏选择HCA 压缩后不做 top-k直接对所有 compressed KV 做 dense attention——因为 128:1 的压缩率已经足够激进1M token → 约 8K 个 compressed KV全量计算开销也很小。4注意力计算两部分结果可学习融合推理时每一层为当前 token 计算注意力输出同时使用滑动窗口和历史区域的 KVCSA 层Q × [最近128 token 的 KV精确] Q × [Top-k compressed KV压缩稀疏选择] → 可学习融合 → 输出HCA 层Q × [最近128 token 的 KV精确] Q × [全部 compressed KV压缩dense attention] → 可学习融合 → 输出两部分的注意力输出经过可学习的融合而非简单相加后得到最终输出。滑动窗口保证了近距离的精确性历史区域则以不同粒度覆盖远距离信息。5整体压缩比以 CSA 为例在 1M 上下文下• 滑动窗口128 个完整 KV固定开销• 历史区域100 万 token 压缩为 S/4 25 万个 compressed KV存储层面 4:1 压缩• 注意力计算时进一步稀疏每个 query 仅选 top-1024 个 compressed KV 参与计算存储上CSA 层的 KVCache 大小趋近原始的 1/4。HCA 层128:1 聚合趋近 1/128。3.4 线性注意力 —— 固定隐状态解除序列长度瓶颈无论是 GQA/MLA 压缩表示大小还是稀疏注意力减少保留数量KVCache 的规模终究还是与序列长度挂钩——只是从 O(n) 变成了更小系数的 O(n)。有没有办法彻底打破这层绑定线性注意力给出了一个激进的答案参考 RNN 的思路用固定大小的隐状态替代逐 token 增长的 KVCache将缓存大小从 O(n) 降为 O(1)从根本上解除显存与序列长度的线性关系。这一思路的演进经历了三个阶段纯 SSM 架构验证固定隐状态的可行性Mamba线性注意力在保持 O(1) 缓存的同时改善表达力DeltaNet最终混合架构在工程落地中找到纯注意力与线性机制的最佳配比Qwen3.5。3.4.1 Mamba / SSM —— 固定大小隐状态Mamba/SSMGu Dao, 2023是这条路线的开创者——用一个固定大小的隐状态向量替代逐 token 增长的 KVCache无论序列多长推理时的缓存大小恒定。1核心思想用递推代替检索传统 Attention 的做法是把所有历史 KV 存起来每次生成时回头查而 SSM 的做法更像边读边压缩成一个摘要每次生成时只看摘要传统 Attention: 存所有历史 → KVCache 随序列线性增长O(n) 显存SSM: 压缩为隐状态 → hₜ Ā·hₜ₋₁ B̄·xₜO(1) 显存输出: yₜ C·hₜ D·xₜ2Selective SSM —— 选择性记忆与遗忘早期 SSM 的参数是固定的对所有 token 一视同仁。Mamba 的关键创新是让 Ā 和 B̄依赖于当前输入——模型能选择性地决定这个 token 重要吗要不要写入记忆注Ā 和 B̄ 由连续参数 A、B 经离散化涉及一个输入相关的步长 Δ 和矩阵指数运算得到这里省略数学细节只关注其直觉效果。直觉上模型为每个 token 动态计算一个开关 Δ•遇到重要 token → Δ 增大Ā 快速衰减为新信息腾空间B̄ 放大大量写入新信息•遇到无关 token → Δ 缩小Ā≈1旧状态几乎不变B̄ 缩小新输入几乎不写入一句话总结Δ 大 “关注当前”Δ 小 “忽略当前”。3完整 Mamba Block 数据流┌─────────────────────────────────────────────────────────────────┐ x → Linear 投影 →├─ x 路: Conv1d(k4) SiLU → 投影出 Δ,B,C离散化→ Selective SSM ─→ ⊙ → Linear↓ → y └─ z 路: ────────────────────────────────────→ SiLU(z) ───────→↗各组件的作用•Linear↑输入投影将 d_model 扩展到 2×d_innerd_inner expand × d_model默认 expand2一分为二——x 路进入 SSM 主计算z 路旁路保留用于门控•Conv1d(k4)一维因果卷积窗口大小 4SSM 递推是逐 token 操作对相邻 token 的局部模式如 n-gram感知不足。Conv1d 先在相邻 4 个 token 上做卷积提取短程局部特征作为补偿•投影离散化从当前输入中产生 Δ、B、C再结合固定参数 A 得到 Ā 和 B̄即前文所述的输入依赖衰减/写入系数•Selective SSM核心递推——hₜ Ā·hₜ₋₁ B̄·xₜ更新隐状态yₜ C·hₜ D·xₜ读取输出•⊙ 门控合并y_ssm ⊙ SiLU(z)——z 路为每个维度提供缩放因子≈0 抑制≈1 保留同时提供更直接的梯度回传路径•Linear↓输出投影映回 d_model4优劣势•优势推理显存 O(1)生成速度恒定不随上下文变长而减速•劣势固定隐状态本质是有损压缩——在需要精确回溯长距离细节的任务上如第 3 段第 2 句说了什么表现弱于全注意力3.4.2 Gated DeltaNet —— 门控线性注意力Gated DeltaNetMIT 2024; Qwen3.5 采用一种门控线性注意力机制用 delta 更新规则维护固定大小的隐状态矩阵。1核心更新公式固定隐状态: Sₜ αₜ · Sₜ₋₁ βₜ · (vₜ - Sₜ₋₁ · kₜ) · kₜᵀ输出: oₜ Sₜ · qₜ其中: αₜ exp(-softplus(a_proj(xₜ) dt_bias) · exp(A_log)) // 衰减因子∈(0,1)α→0 快速遗忘α→1 完全保留 βₜ sigmoid(b_proj(xₜ)) // 写入强度∈(0,1)控制沿 k 方向的精确纠错更新强度直觉理解固定隐状态 S 是一个 d×d 的关联记忆矩阵——你可以把它想象成一个 key→value 的联想存储器给定任意 key 向量矩阵能回忆出对应的 value。每个新 token 到来时更新分两步遗忘 delta 纠错写入•αₜ · Sₜ₋₁全局遗忘——对整个记忆矩阵做统一衰减类似清空黑板• βₜ · (vₜ - Sₜ₋₁·kₜ) · kₜᵀDelta Rule 更新先计算预测误差vₜ - Sₜ₋₁·kₜ当前真实值减去记忆矩阵对 kₜ 的旧预测再将纠错信号沿 kₜ 方向写入矩阵• 展开- βₜ · (Sₜ₋₁·kₜ) · kₜᵀ擦除旧关联 βₜ · vₜ · kₜᵀ写入新关联• 输出时Sₜ · qₜ相当于用 query 向量对矩阵中累积的所有历史信息做加权提取类似 Attention 的 softmax(QKᵀ)V但这里是线性版本无 softmaxα 和 β 互补α 负责粗粒度全局遗忘一次性衰减整个矩阵β 负责细粒度精确更新只修改特定 key 对应的记忆。两者结合解决了纯 DeltaNet 无法快速清除过时信息、纯门控无法精确更新特定关联的问题。2Conv1d 门控 —— 局部预混合与信息过滤与 Mamba 类似Gated DeltaNet 在线性注意力之前也使用Conv1d通常 kernel_size4并在输出时使用门控Gated DeltaNet Block 数据流: ┌─ α 路: exp-decay; β 路: Sigmoid ───────────────────┐ │ ↓ x → 多路 Linear →├─ q,k,v 路: q,k,v 各自 Conv1d(k4)SiLU → L2 Norm(q,k) → Gated Delta Rule → RMSNorm ─→ ⊙ → Linear↓ → y │ (k,v 更新 S; q 读取 o) ↑ └─ g 路: ──────────────────────────────────────────→ SiLU(g) ─────────────→↗•多路 Linear各自独立的线性投影分别生成 q, k, v, g, α, β图中简写为多路•q, k, v注意力核心——q 用于从记忆矩阵读取输出 (oₜ Sₜ · qₜ)k 和 v 用于更新记忆矩阵•gOutput Gate输出门控信号经 SiLU 激活后对输出逐元素缩放•αAlpha / 衰减因子通过 exp(-softplus(·)) 映射到 (0,1)控制对整个记忆矩阵的全局衰减程度•βBeta / 写入强度经 Sigmoid 激活映射到 (0,1)控制沿当前 key 方向的精确纠错更新强度•Conv1d(k4)一维因果卷积窗口大小 4局部混合弥补逐 token 递推的局部感知不足与 Mamba 一致的设计模式•L2 Norm对 q, k 归一化稳定线性注意力的数值•Gated Delta Rule核心递推——Sₜ αₜ·Sₜ₋₁ βₜ·(vₜ - Sₜ₋₁·kₜ)·kₜᵀ状态更新oₜ Sₜ · qₜ输出读取。α 控制全局遗忘β 控制沿 key 方向的精确 delta 更新•RMSNorm(输出) ⊙ SiLU(g)门控操作——g 路提供逐元素缩放因子控制哪些维度的信息最终输出同时 g 路提供更直接的梯度回传路径•Linear↓输出投影映回 d_model3与 Mamba/SSM 的核心区别维度Mamba/SSMGated DeltaNet隐状态形态一维向量 h∈R^d二维矩阵 S∈R^{d×d}信息容量更大更新规则递推加法 h A·h B·xDelta rule先擦除旧关联再写入新关联门控粒度参数 A/B 隐式控制双门控 α/β 显式独立控制遗忘和精确更新语义状态空间压缩更接近 Attention 的 KV 关联存储局部预处理Conv1d(k4)Conv1d(k4)4效果在多数长文本任务上效果接近全注意力同时保持 O(1) 的推理显存和恒定生成速度。由于固定隐状态是 d×d 矩阵信息容量远大于 SSM 的一维向量因此在复杂推理任务上表现更好。3.4.3 混合架构 —— 线性注意力全注意力分层混合架构Jamba 2024, Qwen3.5 2025综合两者优势——大部分层用线性注意力/SSM无需 KVCache每隔几层插入一个全注意力层需要 KVCache。1层配置以 Qwen3.5-397B 为例共 60 层采用 3:1 的混合比例45 层 Gated DeltaNet 15 层 Gated Attention总计KVCache 缩减至纯 dense attention 的约 1/4。Qwen3.5-397B 层配置示意共 15 个重复块 × 4 层 60 层:Layer 0: Gated DeltaNet → 无 KVCache固定隐状态内含 Conv1dLayer 1: Gated DeltaNet → 无 KVCache固定隐状态内含 Conv1dLayer 2: Gated DeltaNet → 无 KVCache固定隐状态内含 Conv1dLayer 3: Gated Attention → 需要完整 KVCacheGQA: 2 KV Heads, head_dim256Layer 4: Gated DeltaNet → 无 KVCache...每 4 层只有 1 层需要 KVCache → 仅 15 层有 KV 开销总 KVCache ≈ 25%2与 CSAHCA 的对比DeepSeek V4 的稀疏注意力CSAHCA和 Qwen3.5 的线性注意力混合是当前业界降低 KVCache 开销的两大主流方向它们的设计哲学有相似之处但实现路径截然不同维度CSAHCADeepSeek V4混合架构Qwen3.5核心理念不同层用不同压缩粒度不同层用不同注意力机制高效层大部分HCA 128:1 压缩 dense线性注意力层Gated DeltaNetO(1) 隐状态无需 KVCache精确层少部分CSA 4:1 top-k 稀疏全注意力层完整 KVCache长短距离都能精确检索局部特征每层 128 token 滑动窗口线性注意力层内 Conv1d 提取局部特征本质差异CSAHCA 是每一层都有 KVCache通过压缩/稀疏减少大小混合架构是大部分层完全没有 KVCache少数全注意力层保留完整 KV。两者的共同设计哲学用不同机制处理不同层次的信息而非一刀切。3.5 模型结构之外的优化 —— 量化与压缩前面的思路都在改变模型结构头数、维度、注意力机制而这条思路不动模型结构本身直接对存储的 KV 数据做后处理压缩——降低每个 KV 元素的位宽或维度。1标量量化FP8 / FP4最直接的方式——减少每个数值的存储位数•FP8 量化将 KVCache 从 BF1616 bit量化到 FP88 bit存储显存直接减半。计算 Attention 时在 Kernel 内通过缩放因子scale将 FP8 数据反量化回高精度参与运算。质量影响极小已被 vLLM/SGLang 等主流推理框架广泛支持是目前生产环境中最成熟的 KVCache 压缩手段。•FP4 (NVFP4) 量化NVIDIA Blackwell 架构推出的 4 bit 格式相比 FP8 再减半相比 FP16 减少 75%。采用两级缩放机制全局 FP32 scale 每块 FP8 scale质量损失 1%。2向量压缩标量量化到 4 bit 已接近极限——再低精度损失会急剧上升。另一类思路是不逐标量量化而是对整个 KV 向量做向量级压缩。例如 Google Research 的 TurboQuant通过极坐标变换在线向量量化将 KVCache 压缩到平均每个维度仅需约 3.5 bits对比 BF16 的 16 bits实现 5-6 倍压缩且质量几乎无损。3.6 跨层共享 —— CLACross-Layer Attention核心观察相邻层的 K/V 存在高度相似性。CLA 让某些层直接复用其他层的 KVCache不再独立计算和存储。传统: Layer 0 有自己的 KV, Layer 1 有自己的 KV, Layer 2 有自己的 KV ...CLA2: Layer 0 有自己的 KV, Layer 1 复用 Layer 0 的 KV, Layer 2 有自己的 KV ... → KVCache 减少 50%CLA 可以与 GQA/MLA 正交组合进一步压缩 KVCache。目前主要在学术研究阶段尚未被主流模型大规模采用。相关工作可参考Reducing Transformer Key-Value Cache Size with Cross-Layer Attentionhttps://arxiv.org/abs/2405.12981 MIT-IBM, 2024CLA 的原始提出、xKV: Cross-Layer SVD for KV-Cache Compressionhttps://arxiv.org/abs/2503.18893 2025基于 SVD 的后训练跨层压缩兼容 MLA。3.7 其他模块的间接影响除 Attention 外模型其他模块的演进也间接影响着 KVCache 的地位Pre-Norm RMSNorm 使模型可以稳定堆叠到 80-128 层层数越多 KVCache 总量越大Dense FFN → MoE 大幅降低了 FFN 的激活显存占用使得 KVCache 在推理总显存中的占比进一步上升可达 60-80%。换句话说MoE 越流行KVCache 优化越重要。4 各架构 KVCache 显存占用对比4.1 计算公式将第 3 章介绍的各架构落到具体的显存计算公式1MHA / GQA如 Qwen3-72BKVCache 显存 2 × num_layers × num_kv_heads × head_dim × seq_len × batch_size × dtype_size ↑ ↑ K 和 V 各一份每个元素字节数FP162, FP812MLA如 DeepSeek V3KVCache 显存 num_layers × (kv_lora_rank qk_rope_head_dim) × seq_len × batch_size × dtype_sizeMLA 将 K 和 V 联合压缩为低维 latent 向量详见 3.2因此没有 “×2”。3混合架构如 Qwen3.5Gated DeltaNet Gated AttentionKVCache 显存 2 × num_full_attn_layers × num_kv_heads × head_dim × seq_len × batch_size × dtype_size仅全注意力层需要 KVCache详见 3.4.3线性注意力层的隐状态大小固定与序列长度无关。4CSA HCA如 DeepSeek V4V4 使用 High-rank MQA单共享 KV Head、head_dim512 分层序列压缩详见 3.3.3KVCache 显存 ≈ 压缩段滑窗段压缩段 (30 × kv_dim / 4 31 × kv_dim / 128) × seq_len × dtype_size ↑ CSA 30层 4:1压缩 ↑ HCA 31层 128:1压缩滑窗段 61 × kv_dim × window_size × dtype_size 固定开销FP16 下约 7.6 MB整体 KVCache 仅为 DeepSeek V3 的 10% 左右。4.2 数值对比模型架构层数每层每 Token KV 元素数单 Token KV 大小FP161M 上下文总量Qwen3-72BGQA808×128×2 2048320 KB305 GBDeepSeek-V3MLA6157668.6 KB65 GBQwen3.5-397B混合15/60 全注意力15有效2×256×2 102430 KB28.6 GBDeepSeek-V4CSAHCA61混合压缩CSA: 512/4128, HCA: 512/12847.7 KB7.4 GB注1M 1,000,000 tokens。“单 Token KV 大小” 每层元素数 × 层数 × 2 字节FP16。V3 有效 KV 维度为 576kv_lora_rank qk_rope_head_dimV4 为 512。V4 另有每层 128 token 滑窗固定开销约 7.6 MB长序列下占比可忽略。同样是 1M 上下文、单个请求Qwen3-72BGQA需要 305 GB KVCache而 DeepSeek-V4 仅需 7.4 GB——相差约 41 倍。这意味着同一块 GPU 上V4 架构能同时服务的并发请求数远超传统 GQA 架构。这就是 KVCache 优化的核心动机每省一点 KVCache就能多服务一个用户或者支持更长的上下文。5 畅想未来趋势回顾以上各方向我们从工程落地的角度做一个横向对比演进思路核心技术代表显存瓶颈突破带来的工程复杂度头数压缩3.1GQA带宽缓解低维度压缩3.2MLA显存容量大幅释放中需 Kernel 支持解压稀疏注意力3.3CSA/HCA/NSA序列级显存释放高需动态调度/稀疏 Kernel线性注意力3.4Gated DeltaNet/Mamba彻底解除线性增长高需重构计算范式精度压缩3.5FP8/FP4 向量压缩显存容量直接减半低生产环境标配站在多轮交互 Agent 越来越流行的今天长上下文的诉求变得更加迫切。我们可以清晰地看到当前业界正沿着两条核心路径做演进•稀疏注意力Sparse Attention以 DeepSeek V4 的 CSA/HCA、GLM-5 的 MLADSADifferential Sparse Attention为代表通过分层稀疏机制仅让高相关的 Token 参与计算在保持全局建模精度的同时将 KVCache 冗余度压至极限。•线性注意力Linear Attention以 Qwen3.5 的 Gated DeltaNet Gated Attention 混合架构、Kimi 的 KDAKimi Delta Attention MLA 混合架构、MiniMax-M1 的 Lightning Attention Softmax Attention 混合架构为代表用固定大小的隐状态替代随序列增长的 KVCache将显存复杂度从 O(n) 降至 O(1)从根本上解除显存与序列长度的线性绑定。未来哪条路径胜出也许答案是融合——线性注意力负责超长距离的全局编码稀疏注意力负责中近距离的精确检索滑动窗口负责局部的高保真注意力。也许是某个尚未出现的创造性突破。值得期待。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。对于想入局大模型、抢占未来10年行业红利的程序员和小白来说现在正是最好的学习时机行业缺口大、大厂需求旺、薪资天花板高只要找准学习方向稳步提升技能就能轻松摆脱“低薪困境”抓住AI时代的职业机遇。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

手机号码定位系统：3步快速查询归属地与地理位置

手机号码定位系统：3步快速查询归属地与地理位置【免费下载链接】location-to-phone-number This a project to search a location of a specified phone number, and locate the map to the phone number location. 项目地址: https://gitcode.com/gh_mirrors/lo…...

2026/5/8 9:30:55 阅读更多 →

别再只看RSS了！用smem工具5分钟搞懂Linux进程内存的USS和PSS

突破RSS局限：用smem工具精准诊断Linux进程内存占用当服务器内存告警频繁触发，而传统监控工具却无法给出合理解释时，大多数工程师的第一反应是打开top或ps查看RSS指标。但你是否遇到过这样的情况：所有进程的RSS总和远超物理内存总…...

2026/5/8 9:30:51 阅读更多 →

茉莉花插件：你的Zotero中文文献管理效率革命

茉莉花插件：你的Zotero中文文献管理效率革命【免费下载链接】jasminum A Zotero add-on to retrive CNKI meta data. 一个简单的Zotero 插件，用于识别中文元数据项目地址: https://gitcode.com/gh_mirrors/ja/jasminum 还在为Zotero中文文献管理…...

2026/5/8 9:27:38 阅读更多 →

ColorControl：一键掌控多设备显示与智能控制的终极方案

ColorControl：一键掌控多设备显示与智能控制的终极方案【免费下载链接】ColorControl Easily change NVIDIA display settings and/or control LG TVs 项目地址: https://gitcode.com/gh_mirrors/co/ColorControl ColorControl 是一个专注于显示参数优化与智…...

2026/5/8 2:36:29 阅读更多 →

使用Taotoken CLI工具一键配置开发环境与多工具API密钥的教程

使用Taotoken CLI工具一键配置开发环境与多工具API密钥的教程 1. 安装Taotoken CLI工具 Taotoken CLI工具提供两种安装方式。对于需要频繁使用CLI的场景，推荐全局安装： npm install -g taotoken/taotoken若只需临时使用或避免全局依赖，可通…...

2026/5/5 1:47:46 阅读更多 →

C语言固件完整性保护全栈方案（含国密SM4+可信执行环境TEE落地代码）

更多请点击： https://intelliparadigm.com 第一章：Shell脚本的基本语法和命令 Shebang 与执行方式每个可执行 Shell 脚本的第一行应以 Shebang（ #!/bin/bash）开头，用于指定解释器路径。保存为 hello.sh 后&#xf…...

2026/5/7 11:30:49 阅读更多 →

在 Node.js 后端服务中集成 Taotoken 实现多模型对话路由

在 Node.js 后端服务中集成 Taotoken 实现多模型对话路由 1. 准备工作在开始集成 Taotoken 之前，需要确保您的开发环境已满足以下条件。Node.js 版本建议使用 18.x 或更高 LTS 版本。通过运行 node -v 可以检查当前版本。如果尚未安装 openai 包，可以…...

2026/5/8 6:34:49 阅读更多 →