CANN/GLM-5 NPU推理优化

张

张建站

2026/5/9 13:26:37

10分钟阅读

GLM-5 Inference on NPU【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer概述智谱团队发布了最新的模型GLM-5本样例基于GLM-5开源代码进行迁移并在CANN平台上完成对应的优化适配可在华为 Atlas A3 集群上运行起来。GLM-5 模型结构与 DeepSeek-V3.2-Exp 保持一致本样例的并行策略与性能优化方案均沿用 DeepSeek-V3.2-Exp。详细方案请参考NPU DeepSeek-V3.2-Exp推理优化实践。硬件要求产品型号Atlas A3 系列操作系统Linux ARM镜像版本cann8.5_pt2.8.0_glm_aarch_image_v0.1.tar驱动版本Ascend HDK 25.2.0npu-smi info 检查Ascend NPU固件和驱动是否正确安装。如果已安装通过命令npu-smi info确认版本是否为 25.2.0。如果未安装或者版本不是 25.2.0请先下载固件和驱动包然后根据指导自行安装。快速启动下载源码在各个节点上执行如下命令下载 cann-recipes-infer 源码。mkdir -p /home/code; cd /home/code/ git clone https://gitcode.com/cann/cann-recipes-infer.git cd cann-recipes-infer下载数据集从链接中下载长序列输入数据集longbook_qa_eng并上传到各个节点上新建的路径 dataset/InfiniteBench下。mkdir -p dataset/InfiniteBench下载权重智谱团队开源了GLM-5模型的Bfloat16与FP8两种格式权重, 可按需选择下载。下载GLM-5原始Bfloat16权重并上传到Atlas A3各节点某个固定的路径下比如/data/models/GLM-5。下载GLM-5原始FP8权重并上传到Atlas A3各节点某个固定的路径下比如/data/models/GLM-5-FP8。获取 docker 镜像从ARM镜像地址中下载 docker 镜像然后上传到A3服务器的每个节点上并通过命令导入镜像docker load -i cann8.5_pt2.8.0_glm_aarch_image_v0.1.tar。拉起 docker 容器在各个节点上通过如下脚本拉起容器默认容器名为 cann_recipes_infer。注意需要将权重路径和源码路径挂载到容器里。docker run -u root -itd --name cann_recipes_infer --ulimit nproc65535:65535 --ipchost \ --device/dev/davinci0 --device/dev/davinci1 \ --device/dev/davinci2 --device/dev/davinci3 \ --device/dev/davinci4 --device/dev/davinci5 \ --device/dev/davinci6 --device/dev/davinci7 \ --device/dev/davinci8 --device/dev/davinci9 \ --device/dev/davinci10 --device/dev/davinci11 \ --device/dev/davinci12 --device/dev/davinci13 \ --device/dev/davinci14 --device/dev/davinci15 \ --device/dev/davinci_manager --device/dev/devmm_svm \ --device/dev/hisi_hdc \ -v /home/:/home \ -v /data:/data \ -v /etc/localtime:/etc/localtime \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /etc/ascend_install.info:/etc/ascend_install.info -v /var/log/npu/:/usr/slog \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi -v /sys/fs/cgroup:/sys/fs/cgroup:ro \ -v /usr/local/dcmi:/usr/local/dcmi -v /usr/local/sbin:/usr/local/sbin \ -v /etc/hccn.conf:/etc/hccn.conf -v /root/.pip:/root/.pip -v /etc/hosts:/etc/hosts \ -v /usr/bin/hostname:/usr/bin/hostname \ --nethost \ --shm-size128g \ --privileged \ cann8.5_pt2.8.0_glm_aarch_image:v0.1 /bin/bash在各个节点上通过如下命令进入容器docker attach cann_recipes_infer cd /home/code/cann-recipes-infer/models/glm-5转换权重在各个节点上使用weight_convert.sh脚本完成FP8到Int8权重转换。入参介绍input_fp8_hf_path原始fp8权重路径output_hf_path转换后输出的权重路径quant_mode量化模式如果权重转换的运行环境为NPU需要先执行cann_path/usr/local/Ascend/ascend-toolkit/latest # CANN包安装路径 source ${cann_path}/bin/setenv.bash权重转换拉起示例# 转换为W8A8C16权重 bash utils/weight_convert.sh --input_fp8_hf_path /data/models/GLM-5-FP8 --output_hf_path /data/models/GLM-5-W8A8 --quant_mode w8a8c16修改代码修改cann-recipes-infer/executor/scripts/set_env.sh中的如下字段:export IPs(xxx.xxx.xxx.xxx xxx.xxx.xxx.xxx) # 所有节点的IP确保第1个IP是master多个节点的ip通过空格分开 cann_pathyour_cann_pkgs_path # CANN软件包安装路径镜像默认CANN包路径为/usr/local/Ascend/ascend-toolkit/latest在各个节点上修改config/路径下需要执行的yaml文件中的model_path路径。关于YAML文件中的更多配置说明可参见YAML参数描述。# W8A8 model_path: /data/models/GLM-5-W8A8在各个节点上修改 infer.sh 文件中的YAML_FILE_NAME指定为上一步需要执行的yaml文件名。默认的yaml路径为32卡推理。# W8A8 prefill export YAML_FILE_NAMEglm_5_rank_64_64ep_w8a8_prefill_benchmark.yaml # W8A8 decode export YAML_FILE_NAMEglm_5_rank_128_128ep_w8a8_decode_benchmark.yamlNote: 本样例Int8场景Prefill支持8-128卡Decode支持8-128卡可分别在config下的yaml文件中修改world_size配置。拉起多卡推理在各个节点上同步执行如下命令即可拉起多卡推理任务。bash infer.shBenchmark基于Atlas A3本实践使用config/glm_5_rank_128_128ep_w8a8_decode_benchmark.yaml作为运行配置文件对GLM-5 W8A8 量化版本进行了性能Benchmark测试。 |Quant Mode| Global Batch Size | Seq Length | Chips | TPOT (ms) | Throughput (tokens/p/s) | |-------| ----------------- | ---------- | ----- | --------- | ----------------------- | |W8A8 | 256 | 65536 | 64 | 22.54 |177.46 |注性能数据基于 MTP3 与 perfect eplb 配置采集平均 3 个 draft token 中 accept token 为 1.44 个。附录FAQHCCL_BUFFSIZE不足问题如果报错日志中出现关键字HCCL_BUFFSIZE is too SMALL, ..., NEEDED_HCCL_BUFFSIZE..., HCCL_BUFFSIZE200MB, ...可通过配置环境变量export HCCL_BUFFSIZE实际需要的大小解决所有Rank上的该环境变量需保持一致。HCCL_BUFFSIZE参数介绍可参考昇腾资料中的详细描述。自定义算子导入失败如果报错日志中出现类似关键字_OpNamespace custom object has no attribute可参考自定义算子指南编译所需算子。【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/ops-nn softmax交叉熵损失函数

SoftmaxCrossEntropyWithLogits 【免费下载链接】ops-nn 本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn 产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atl…...

2026/5/9 13:25:48 阅读更多 →

公平AI与领域知识融合：构建可解释的酒驾风险预测模型

1. 项目概述：当AI遇见“酒后不开车”的严肃命题“酒后不开车”早已是深入人心的社会共识，但每年因酒驾导致的悲剧依然时有发生。作为一名长期关注数据科学在公共安全领域应用的从业者，我一直在思考，能否利用现有的技术手段&#x…...

2026/5/9 13:25:21 阅读更多 →

CANN评测平台ApplyAdamW算子API描述

ApplyAdamW 算子 API 描述【免费下载链接】cann-bench 评测AI在处理CANN领域代码任务的能力，涵盖算子生成、算子优化等领域，支撑模型选型、训练效果评估，统一量化评估标准，识别Agent能力短板，构建CANN领域评测平台&am…...

2026/5/9 13:23:57 阅读更多 →

ColorControl：一键掌控多设备显示与智能控制的终极方案

ColorControl：一键掌控多设备显示与智能控制的终极方案【免费下载链接】ColorControl Easily change NVIDIA display settings and/or control LG TVs 项目地址: https://gitcode.com/gh_mirrors/co/ColorControl ColorControl 是一个专注于显示参数优化与智…...

2026/5/8 2:36:29 阅读更多 →

使用Taotoken CLI工具一键配置开发环境与多工具API密钥的教程

使用Taotoken CLI工具一键配置开发环境与多工具API密钥的教程 1. 安装Taotoken CLI工具 Taotoken CLI工具提供两种安装方式。对于需要频繁使用CLI的场景，推荐全局安装： npm install -g taotoken/taotoken若只需临时使用或避免全局依赖，可通…...

2026/5/9 12:07:00 阅读更多 →

C语言固件完整性保护全栈方案（含国密SM4+可信执行环境TEE落地代码）

更多请点击： https://intelliparadigm.com 第一章：Shell脚本的基本语法和命令 Shebang 与执行方式每个可执行 Shell 脚本的第一行应以 Shebang（ #!/bin/bash）开头，用于指定解释器路径。保存为 hello.sh 后&#xf…...

2026/5/7 11:30:49 阅读更多 →

在 Node.js 后端服务中集成 Taotoken 实现多模型对话路由

在 Node.js 后端服务中集成 Taotoken 实现多模型对话路由 1. 准备工作在开始集成 Taotoken 之前，需要确保您的开发环境已满足以下条件。Node.js 版本建议使用 18.x 或更高 LTS 版本。通过运行 node -v 可以检查当前版本。如果尚未安装 openai 包，可以…...

2026/5/8 6:34:49 阅读更多 →