WeightQuantBatchMatmul【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn产品支持情况产品是否支持Ascend 950PR/Ascend 950DT×Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√Atlas 200I/500 A2 推理产品×Atlas 推理系列产品×Atlas 训练系列产品×功能说明算子功能完成一个输入为伪量化场景的矩阵乘计算并可以实现对于输出的量化计算。计算公式$$ result self ANTIQUANT(mat2) bias $$公式中的$mat2$为伪量化场景的输入其反量化公式$ANTIQUANT(mat2)$为$$ ANTIQUANT(mat2) (mat2 antiquantOffset) * antiquantScale $$当需要对输出进行量化处理时其量化公式为$$ \begin{aligned} result QUANT(self ANTIQUANT(mat2) bias) \ (self ANTIQUANT(mat2) bias) * quantScale quantOffset \ \end{aligned} $$当不需要对输出再进行量化操作时其计算公式为$$ result self ANTIQUANT(mat2) bias $$参数说明参数名输入/输出/属性描述数据类型数据格式x1输入公式中的输入self。FLOAT16NDx2输入公式中的输入mat2。INT8NDbias输入公式中的输入bias。FLOAT32NDantiquantScale输入反量化参数中的缩放因子对应公式中的antiquantScale。FLOAT32-antiquantOffset输入反量化参数中的偏置因子对应公式中的antiquantOffset。FLOAT32-quantScale输入量化参数中的缩放因子对应公式中的quantScale。FLOAT32-quantOffset输入量化参数中的偏置因子对应公式中的quantOffset。FLOAT32-out输出公式中的result。FLOAT16,INT8ND约束说明不支持空tensor。支持连续tensor非连续tensor只支持转置场景。调用说明调用方式样例代码说明aclnn接口test_aclnn_weight_quant_batch_mat_mul通过aclnnWeightQuantBatchMatmul调用WeightQuantBatchMatmul算子。【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考