华为CANN hcomm通信算子开发简介
简介【免费下载链接】hcommHCOMMHuawei Communication是HCCL的通信基础库提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm技术背景与价值随着大语言模型逐步向万卡级集群部署演进传统的集合通信库面临以下挑战内置通信算法难以在多样化场景中持续保持较优性能。通算融合趋势下用户对灵活通信算子编程语义的需求日益凸显。传统集合通信库封闭的黑盒设计限制了研究者探索新型通信原语因此HCCL开放了底层通信能力提供轻量级通信算子开发接口实现通信算子全栈可编程性利于研究者开展通信方案创新。HCCL通信算子开发接口具备以下关键特性支持昇腾设备上的多种通信引擎充分发挥硬件能力。支持多种通信协议包括PCIe、HCCS、RoCE、UB。通信平台能力与通信算子开发解耦支持通信算子独立开发。软件架构HCCL是CANN的核心组件为NPU集群提供高性能、高可靠性的通信方案。HCCL向上支持多种AI框架向下实现多款昇腾AI处理器之间的高效互联其架构如下图所示。图 1集合通信库软件架构图HCCL包含HCCL集合通信库与HCOMMHuawei Communication通信基础库HCCL集合通信库包含内置通信算子和扩展通信算子提供对外的通信算子接口。内置通信算子HCCL提供的基础通信算子包含集合通信算子和点对点通信算子。扩展通信算子用户可以使用HCOMM通信基础库提供的接口自定义扩展通信算子。HCOMM通信基础库采用分层解耦的设计思路将通信能力划分为控制面和数据面两部分。控制面提供拓扑信息查询与通信资源管理功能。数据面提供本地操作、算子间同步、通信操作等数据搬运和计算功能。控制面提供通信资源数据面提供操作资源的方法提供的相关接口可以让通信算子开发人员聚焦于业务创新而无需关注芯片底层复杂的实现细节。支持的产品型号通信算子自定义开发功能当前支持以下产品Ascend 950PR/Ascend 950DTAtlas A3 训练系列产品/Atlas A3 推理系列产品Atlas A2 训练系列产品/Atlas A2 推理系列产品针对Atlas A2 训练系列产品/Atlas A2 推理系列产品仅支持Atlas 800I A2 推理服务器、Atlas 300I A2 推理卡、A200I A2 Box 异构组件。【免费下载链接】hcommHCOMMHuawei Communication是HCCL的通信基础库提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考