RRAM加速器中的位级稀疏性与相似性优化技术
1. 项目背景与核心挑战在深度学习领域计算效率和能耗问题一直是制约神经网络大规模部署的关键瓶颈。存内计算Compute-in-Memory, CIM架构通过将计算单元与存储单元融合有效减少了数据搬运带来的能耗开销。其中基于阻变存储器RRAM的神经网络加速器RRAM-Acc因其非易失性、高密度和模拟计算特性成为当前研究的热点。然而RRAM加速器面临一个根本性矛盾CIM架构需要结构化的计算模式而神经网络权重剪枝特别是细粒度剪枝产生的稀疏权重矩阵具有高度非结构化特征。这种矛盾导致两个关键技术难以协同发挥作用结构化计算需求RRAM交叉阵列中每行共享相同输入每列产生相同输出。单个零值无法跳过除非整行/整列为零。非结构化稀疏性细粒度剪枝产生的零值随机分布难以形成全零行/列造成存储资源和计算能力的浪费。图1展示了传统映射方式的问题尽管近半数RRAM单元存储零值但由于零值分散分布无法跳过任何计算导致大量无效功耗。关键观察RRAM交叉阵列中不仅存在零比特bit-level sparsity相邻列之间还存在显著的比特模式相似性bit-level similarity。这种相似性长期被现有研究忽视。2. 技术原理与创新设计2.1 位级稀疏性的数学基础当权重采用二进制补码表示时零值的所有比特位均为0非零值的每个比特位有50%概率为0。因此整体零比特比例可表示为P₀ p (1-p)×0.5 0.5 0.5p其中p为权重值稀疏率。实验数据显示图3在LeNet、AlexNet等典型网络中实际零比特比例与理论值高度吻合证实了位级稀疏性的普遍存在。2.2 位级相似性的概率模型研究发现RRAM阵列中列向量间存在大量局部相同的比特模式。对于长度为m的n个列向量任意位置比特值全同的概率为P(a⁽¹⁾ᵢa⁽²⁾ᵢ...a⁽ⁿ⁾ᵢ0或1) 1/2ⁿ⁻¹通过数学推导公式6-7可知当n2时至少半数行相同的概率超过50%。这一特性使得通过行重排序聚合相似列成为可能而更大的n值会导致概率急剧下降图5因此本文选择两列配对的优化策略。2.3 核心算法设计2.3.1 权重存储格式创新采用二进制补码替代传统的正负权重分离存储方案节省50%交叉阵列资源仅需增加符号位的移位减操作兼容现有模型无需重训练8比特权重的乘法运算分解如公式2所示其中仅第二、三项需要特殊处理硬件开销可控。2.3.2 基于汉明距离的重排序算法算法1列配对通过计算列向量间的汉明距离sHD公式8识别相似列对记录相同行位置。算法2在此基础上实现层次化压缩初始矩阵中寻找sHD最小的列对用相同行构建子矩阵迭代寻找新列对当相同行数等于操作单元OU高度时停止记录行列索引生成压缩映射方案图6展示了典型执行过程首先识别列对(2,9)有7个相同行用这些行构建子矩阵后找到列对(1,3)最终形成高度为4的OU。该过程确保每个相似列对仅保留一个副本。2.3.3 计算序列优化通过行列重排序实现双重压缩行重排序创建相似列对列重排序生成全零行图7 采用delta编码存储列索引差异减少寻址开销。3. 硬件架构实现3.1 系统级设计整体架构如图9所示关键创新包括处理单元(PE)层级8个计算单元(CU)分别处理权重的不同比特位相同比特位的权重集中存储统一位移量减少索引开销计算单元(CU)内部输入解码器支持水平/垂直两种数据流图10输出路由逻辑采用RRAM存储列索引图11重复列结果复用非重复列独立处理3.2 关键参数优化操作单元(OU)尺寸选择高度(OUheight)受ADC分辨率限制设为7宽度(OUwidth)权衡压缩效率与输入索引开销固定为8敏感度分析图8OUheight越小压缩率越高但需要更多计算周期。7×8的OU配置在压缩率与硬件效率间取得最佳平衡。4. 实验验证与性能分析4.1 实验设置基准模型LeNet5、AlexNet、VGG16、GoogleNet、ResNet18对比方案RePIM行压缩、SREOU基础设计、Hoon et al.高稀疏度优化评估指标性能1/(CCQ×EC)CCQ为计算交叉阵列数量EC为能耗4.2 结果分析性能提升图12平均提升61.24%LeNet5 54.15%至AlexNet 113.92%中低稀疏度30-70%优势显著因能同时利用零比特和相似性能耗对比图14较RePIM节能1.51-2.52倍索引开销增加被计算资源减少所抵消横向对比图13以ISAAC为基线本设计性能达205%远超SRE(115.8%)和RePIM(143.8%)5. 工程实现要点5.1 权重预处理流程稀疏化使用PyTorch L1非结构化剪枝量化8比特后训练量化(PTQ)编码转换符号-幅度码转二进制补码矩阵分割适配交叉阵列尺寸5.2 硬件设计技巧ADC资源共享水平数据流模式复用ADC动态功耗管理零值列直接关闭对应行驱动错误容忍设计相似列允许1-2比特差异需额外验证5.3 典型问题排查问题1压缩率低于预期检查OU尺寸是否匹配ADC分辨率验证权重矩阵分割是否产生边缘效应问题2计算精度下降确认补码转换未引入溢出检查符号位处理电路时序问题3性能提升不显著分析模型稀疏度分布调整OUheight/width比例6. 应用场景扩展本技术特别适合以下场景边缘设备上的实时推理如手机、IoT设备大模型中的低秩适配器(LoRA)部署联合稀疏化与量化的模型压缩方案实验中发现当权重稀疏度80%时传统全零列压缩方案与本方法差距缩小。因此建议在中等稀疏度30-70%场景优先采用本方案。