拓扑模型【免费下载链接】hcommHCOMMHuawei Communication是HCCL的通信基础库提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm背景在实现通信算子时由于以下两种原因需要在控制面提供拓扑查询相关接口算子控制面实现需要为数据面创建Channel那不同rank是否互连以及通过哪些Endpoint互连是创建Channel必备的信息所以需要提供拓扑查询相关控制面接口。不同集群可能具有不同的连接关系算子实现的性能好坏与拓扑连接强相关。为了算子能够适配不同拓扑形态且具有较好性能需要感知拓扑连接关系。因此HCCL对通信域内不同rank间的连接关系进行拓扑建模构成的拓扑图称之为rank graph并提供了连接关系查询相关的控制面接口具体见拓扑信息查询。拓扑模型介绍HCCL使用传统节点与边的图Graph表达方式对拓扑建模。由于大规模AI集群一般会分级组建比如一个服务器包含多个NPU互连多台服务器组成一个Rack或SuperNode等。因此HCCL在图表达的基础上增加了拓扑层级的抽象。下图是一个拓扑模型示例通过该示例介绍拓扑模型中的概念Node图Graph中的节点包含两种类型通信对象在通信域中以rank ID标识的实体。Fabric对网络交换/路由的抽象。Fabric只能与通信对象相连。Fabric可以是一个交换机也可以是由多个交换机组成一套网络设施。抽象为Fabric节点的网络设施需要满足条件与它相连的通信对象两两之间都可以通过它互通。Endpoint一个Node的逻辑端口一个Node可以包含一个或多个Endpoint。Edge图Graph中的边表示不同Node之间的连接关系Edge两端是两个Node的Endpoint。Link表示两个通信对象之间可以建链的信息包含两端的Endpoint等。拓扑层级实际网络拓扑存在分级情况如下图所示拓扑分为Layer 0和Layer 1两级内部包含两个Layer 0拓扑每一层级的网络拓扑具备自己的拓扑类型比如Fullmesh、Clos等。【免费下载链接】hcommHCOMMHuawei Communication是HCCL的通信基础库提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考