面向Ascend 950CANN技术架构的变与不变当前人工智能正以前所未有的速度渗透千行百业推动 AI 算力需求呈指数级增长算力已成为人工智能产业发展的核心竞争力。在此背景下昇腾推出新一代AI芯片Ascend 950PR与Ascend 950DT。两款芯片在继承上一代优秀能力的基础上围绕计算、通信等关键维度实现多项技术突破涵盖NDDMA、CV融合、SIMT、UB、CCU等创新特性大幅提升了大模型训练与推理、推荐、多模态等核心业务场景的性能与竞争力。本文将从芯片架构、计算与通信规格、关键新特性等维度对Ascend 950PR和Ascend 950DT进行全面、深入、细致的解析。一、Ascend 950硬件架构Ascend 950代际发布了两款芯片。一款是Ascend 950PR一款是Ascend 950DT。Ascend 950PR中的PR代表PrefillRecommendation此芯片面向的是Prefill和推荐场景特点是以较低的成本获得更高的性价比Ascend 950DT中的DT代表DecodeTraining此芯片面向的是Decode和训练场景特点是更高的访存带宽获取更高的性能。两款芯片是基于Ascend 950 Die与不同的Memory进行合封构成。Ascend 950 Die采用了双DIE UMA架构双DIE间通过高速的DIE to DIE通道连接使用户可以无感的使用2 DIE的算力极大的提升了用户易用性。Ascend 950PRAscend 950DT与前一代昇腾芯片相比在以下几个方面进行了提升AICORE子系统采用华为自研的第三代Davinci架构在前代架构基础上针对当前Transformer为核心、同时兼顾推荐、多模态等多种算法趋势从低精度算力、计算效率、易用性等方面进行了全面的提升。新增支持业界标准FP8/MXFP8/MXFP4等低数值精度数据格式并特别支持自研的HiF8提升训练效率和推理吞吐增加Cube-Vector融合通路极大的提升了Cube-Vector融合算子性能大幅度提升了Vector算力Cube:Vector算力配比达到8:1采用创新的SIMD/SIMT新同构设计提升编程易用性支持128字节的Sector-Cache提升离散且不连续的内存访问性能支持NDDMA高效数据访问提升内存访问效率存储子系统950芯片的存储子系统支持两种类型的Memory包括高容量、低成本的HiBL 1.0以及高访存带宽的HiZQ 2.0。采用统一的接口实现不同Memory的对接。IO子系统950芯片支持UB灵衢互联可以实现超节点系统的超高带宽、超低时延、超大规模组网需求。整芯片支持18个400Gbps端口支持超大互联带宽支持硬化的集合通信加速单元降低通信对访问带宽的占用提升通信性能并降低通信对计算的影响创新的支持UBUBOE互联协议同时兼容PCIE互联同时支持Load/Store的同步通信语义和URMA异步消息通信语义二、核的微架构改进提升计算性能和开发易用性在人工智能技术飞速发展的今天大型语言模型LLM、多模态AI等复杂任务对计算硬件的性能需求持续提升。昇腾AI芯片最新发布的第三代DaVinciCore架构通过硬件能力升级与软件协同优化在计算性能、开发者体验和能效比方面实现了持续提升。1、算力效率革命低精度计算混合架构性能提升4倍传统的AI芯片往往受限于计算精度与数据搬运效率而第三代DaVinciCore通过全栈数值格式创新和访存效率优化彻底释放低精度计算的潜力● HiF8/FP8/MXFP8/MXFP4支持MXFP8/4和FP8基础上全新设计了动态位宽浮点格式HiF8在保证精度的同时大幅降低存储与带宽需求。以HiF8为例其采用变长前缀编码原码阶码优化动态范围接近FP16-22~15但计算效率提升2~4倍尤其适合LLM训练与推理。HiF8阶码分布图锥形精度图● 张量-向量协同计算单核内Cube核张量计算峰值算力与上一代持平Vector核向量计算FP16/FP32性能翻倍二者通过高速直连通道实现数据无缝流转彻底解决传统AI芯片在混合计算如FA任务中的瓶颈问题。增加核内CV直连高速通路示意图● 优化核内buffer sizeL0C buffer Size增加到256KB支持Cube计算256*256 tile块算力密度比提升20%提升Mac效率达成90%场景的覆盖面分布式localbuffer降低多流水并发对local buffer的访问竞争提升流水并发的效率两者共同提升算子性能的天花板。2、访存效率持续优化提升算子非对齐小Burst场景的泛化性能● L2 Cache支持128B Sector访存颗粒度相比上一代的512B-128B小包场景4x带宽效率数据访问GM支持多种L2 Control Hint通过指令控制L2 Cache 的缓存策略优化Cache使用效率提升网络E2E的 Cache hit率。non-allocate(L2 hint)典型使能场景示意图● ND2NZ支持Advance模式对Stride在不大于256B的场景都支持并包处理。3、核微架构持续演进带来多项“黑科技”级编程优化● SIMD/SIMT混合编程开发者可自由选择并行模式——规则计算用SIMD双发指令榨干硬件性能复杂逻辑如多条件分支/小包搬运等场景切至SIMT线程级并行代码可读性与执行效率兼得。SIMT离散访问示意图● NDDMA指令传统数据搬移需硬件地址计算访存合并如今只需一行NDDMA指令(transpose,stride,broadcast,slice)硬件自动完成格式转换、对齐、分块效率提升50%以上。NDDMA指令能力示意图● 极简同步机制BufferID模型取代繁琐的set/wait配对消除分支逻辑让多核协作代码更直观、更健壮。新同步机制代码示例三、基于灵衢互联构建大规模超节点集群Ascend 950提供比前代芯片更高的连算比搭载先进的灵衢互联技术构建Ascend 950超节点集群能够大幅降低通信时延、提升算力效率有效破解大规模 AI 集群的通信瓶颈。1. Ascend950 IO接口136 Lane 按x4 Port分成9个Port2UB支持9 x4两个IO-Die支持最大18 x4并支持转发3Lane 32~35支持 x4 UBoE即物理层为ETH的UB传输模式40~15 Lane Comb x16 PCIe RC/EPAscend950可以嵌套接PCIe Device2. 支持多种硬件拓扑1POD形态1D fullmeshclos拓扑CPU按2:8 NPU配比64 NPU 16 CPU计算板每D出7*X4 UB 端口组成fullmesh连接交换板通过不同的L2 SW配置可以等效支持每D出4个端口或者8端口作为框内板间互联或者框间互联支持16/32*1825配置2AI server形态RoCE典配2*CPU8*David组成1个OS节点CPU节点支持鲲鹏及X86server内FullMesh7*X4 UB口出server Clos8*X4 UB口单机支持UBoE/RoCE互连可支持多张1825网卡3标卡形态基于X86底座支持四卡UB互联每卡3个X4 UB端口组成Fullmesh连接支持第三方网卡做参数面互联3. 使能UB灵衢互联灵衢互联UBUnifiedBus简称UB是面向新一代智算集群打造的新型互联协议是破解算力瓶颈、共建开放生态的重要布局。灵衢互联以“协议归一、平等协同、全局池化”为核心打破了传统互联的层级壁垒让CPU、NPU、存储等异构组件实现无主从直接通信并大幅降低通信时延、提升带宽利用率。华为已开放灵衢2.0完整技术规范推动产业协同创新。未来灵衢将持续演进突破更大规模组网能力携手产业伙伴构建自主可控、高效可靠的算力底座。灵衢互联提供分层的协议栈结构从下到上由物理层、数据链路层、网络层、传输层、事务层、功能层以及UMMU、UBFMUB Fabric Manager组成如下图所示。其中Entity为功能实体是全局通信的基本单元URMAUnified Remote Memory Access为统一远程内存访问。灵衢协议栈4. Ascend 950超节点Ascend 950围绕超节点架构持续创新将多台物理机器深度互联重新定义了高效、稳定、可扩展的大规模有效算力新范式并打造全系列超节点产品。Ascend 950以灵衢互联为基础构建的超节点架构在面向人工智能计算的多个核心业务场景如大模型预训练、中心推理、后训练与强化学习、多模态内容等业务领域均可提供领先的系统能力带来计算业务性能和资源利用率提升。总结Ascend 950PR和Ascend 950DT芯片在继承前代DaVinci架构核心设计理念的基础上围绕计算、存储、互联三大维度实现了系统性升级通过计算效能革新、访存效率深挖与互联架构突破三者的协同优化面向大模型预训练、中心推理、后训练与强化学习、推荐系统、多模态内容生成等核心AI业务场景提供了系统的软硬协同能力为AI产业的算力需求增长提供了强有力的算力底座支撑。直播回放链接面向下一代硬件CANN技术架构的变与不变_哔哩哔哩_bilibili【活动预告】4月18日CANN 2026年首场线下Meetup将在北京举办延伸解读面向Ascend 950的热门技术与前沿创新干货拉满⏰ 时间2026年4月18日周六14:00-17:30 地点北京中关村理工大学亚朵S酒店海淀区中关村东路66号 报名方式点击下方链接锁定名额期待与你在现场共探CANN技术前沿报名链接https://snic.gtsdata.huawei.com/datalinkpro/web/#/openFormFill?hashcodeqisSNuQW3fBeIIOLsPqvAIsDEsqmbPMh5A/ztytAI7M