CANN/asc-devkit任务间同步API
SetNextTaskStart【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit[!NOTE]说明 本接口为试验接口在后续版本中可能会调整或改进不保证后续兼容性。请开发者在使用过程中关注后续版本更新。产品支持情况产品是否支持备注Ascend 950PR/Ascend 950DT√该接口生效Atlas A3 训练系列产品 / Atlas A3 推理系列产品√该接口生效Atlas A2 训练系列产品 / Atlas A2 推理系列产品√仅保证编译兼容实际功能不生效。Atlas 200I/500 A2 推理产品√仅保证编译兼容实际功能不生效。Atlas 推理系列产品 AI Core√仅保证编译兼容实际功能不生效。Atlas 推理系列产品 Vector Core√仅保证编译兼容实际功能不生效。Atlas 训练系列产品√仅保证编译兼容实际功能不生效。Kirin X90√仅保证编译兼容实际功能不生效。Kirin 9030√仅保证编译兼容实际功能不生效。功能说明在SuperKernel的子Kernel中调用调用后的指令可以和后续其他的子Kernel实现并行提升整体性能。如图1所示SuperKernel按序调用子Kernel为保证子Kernel之间数据互不干扰会在子Kernel间插入算子间同步进行保序子KernelN-1调用该接口后之后的指令会和后续子KernelN实现并行。SuperKernel是一种算子的二进制融合技术与源码融合不同它聚焦于内核函数 (Kernel) 的二进制的调度方案展开深度优化于已编译的二进制代码基础上融合创建一个超级Kernel函数SuperKernel以调用子函数的方式调用多个其他内核函数也就是子Kernel。相对于单算子下发SuperKernel技术可以减少任务调度等待时间和调度开销同时利用Task间隙资源进一步优化算子头开销。开发者需要自行保证调用此接口后的指令不会与后序算子互相干扰而导致精度问题推荐在整个算子最后一条搬运指令后调用此接口。图 1通过SetNextTaskStart实现并行示意图函数原型该原型在如下产品型号支持Ascend 950PR/Ascend 950DTAtlas A3 训练系列产品/Atlas A3 推理系列产品Atlas A2 训练系列产品/Atlas A2 推理系列产品Atlas 200I/500 A2 推理产品templatepipe_t AIV_PIPE PIPE_MTE3, pipe_t AIC_PIPE PIPE_FIX __aicore__ inline void SetNextTaskStart()该原型在如下产品型号支持Atlas 推理系列产品AI CoreAtlas 训练系列产品templatepipe_t AIV_PIPE PIPE_MTE3, pipe_t AIC_PIPE PIPE_MTE3 __aicore__ inline void SetNextTaskStart()参数说明表 1模板参数说明参数名描述AIV_PIPESetNextTaskStart之后运行的指令如果位于AIV上的AIV_PIPE流水可以与后序算子并行。AIV_PIPE的取值范围为PIPE_MTE2、PIPE_MTE3、PIPE_S、PIPE_V流水类型介绍可参考硬件流水类型。AIC_PIPESetNextTaskStart之后运行的指令如果位于AIC上的AIC_PIPE流水可以与后序算子并行。AIC_PIPE的取值范围为PIPE_MTE1、PIPE_MTE2、PIPE_MTE3、PIPE_FIX、PIPE_M流水类型介绍可参考硬件流水类型。返回值说明无约束说明该接口适用于TorchAir图模式开发场景且需在启用SuperKernel特性后方可生效。相关信息可参考《PyTorch图模式使用指南(TorchAir)》中的“GE图模式 GE图模式功能 图内标定SuperKernel范围”章节。在算子运行过程中需要保证此接口在每个核上都被调用且每个核上仅被调用一次。若子Kernel某个TilingKey分支调用了此接口则开发者需要保证当前算子可能会运行的所有TilingKey均调用了此接口否则会出现因同步指令数量不匹配而卡住的现象。调用示例详细示例请参考TaskSync样例。#include kernel_operator.h AscendC::LocalTensorhalf dstLocal outQueueDst.DeQuehalf(); AscendC::DataCopy(dstGlobal, dstLocal, 512); // 在最后一条搬运指令后调用使之后的指令可与后续子kernel并行执行 AscendC::SetNextTaskStart(); outQueueDst.FreeTensor(dstLocal);【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考