1. 8T SRAM存内计算架构的创新价值在传统冯·诺依曼架构中处理器和存储器之间的数据搬运已成为性能提升的主要瓶颈。根据研究数据数据搬运消耗的能量是算术运算的百倍以上。存内计算In-Memory Computing, IMC技术通过直接在存储单元中执行计算任务从根本上解决了这一瓶颈问题。8T SRAM作为IMC的实现载体具有独特优势。相比传统6T SRAM8T结构通过分离读写路径如图1所示显著提升了操作稳定性。具体而言读写路径独立避免了同时激活多个字线时的读干扰问题支持更低的供电电压Vdd操作提供更高的噪声容限可实现真正的并行多操作数处理图18T SRAM单元结构包含传统6T存储单元和独立的读缓冲晶体管M7/M82. 架构设计与核心原理2.1 8×8阵列的整体架构该设计采用8×8的8T SRAM阵列每个单元包含标准6T存储单元M1-M6读缓冲晶体管M7连接存储节点Q读访问晶体管M8连接读位线RBL阵列外围电路包括写驱动电路通过BL/BLbar线写入数据预充电电路为RBL提供初始电压1.8V行/列译码器3:8译码器选择目标单元MAC解码电路将RBL电压转换为数字信号2.2 乘累加(MAC)运算的实现机制MAC操作通过电荷共享原理实现将操作数B写入同一列的连续行RBL预充电至1.8V操作数A通过RWL线同时激活多行存储1的单元会通过M7-M8形成放电通路RBL电压下降幅度与匹配的1数量成正比关键参数关系MAC计数RBL电压(V)放电单元数01.758040.895480.3108注意RBL激活窗口严格控制在0.7ns过长会导致过度放电影响结果准确性3. 逻辑运算的派生实现3.1 基本逻辑运算映射通过特定的RWL激活模式和输入配置可将MAC结果映射为逻辑运算逻辑运算判断条件实现方式ANDMAC计数操作数位数所有输入均为1时放电单元最多NORMAC计数0无放电表示所有输入均为0XORMAC计数1仅一个输入为1时产生特定放电量3.2 1位加法器的实现利用两个存储单元实现全加器和位(S)A XOR B → 对应MAC计数1进位(C)A AND B → 对应MAC计数2具体真值表ABMAC计数和位进位000000111010110112014. 关键电路设计与优化4.1 MAC解码电路采用8个电压比较器构成解码器每个比较器设置不同的参考电压比较器采用两级差分放大器结构7晶体管输出电压直接对应MAC计数的二进制表示比较器阈值设置原则相邻MAC级别的电压差100-250mV留出足够噪声容限50mV支持工艺角PVT变化下的可靠判别4.2 读操作时序控制精确的时序控制对结果准确性至关重要预充电阶段63ns含操作数加载评估窗口0.7ns严格定时采样时刻评估窗口结束前100ps实测技巧通过蒙特卡洛分析确定最优采样点在200次仿真中437±48.72fJ的能耗分布验证了设计的鲁棒性5. 性能评估与对比5.1 实测性能指标90nm工艺参数数值工作频率142.85MHz单次操作延迟0.7ns能量效率56.56fJ/bit吞吐量15.8M ops/s支持操作MAC7种逻辑运算5.2 与同类方案的对比优势功能集成度单一架构同时支持MAC和多种逻辑运算硬件效率无需额外逻辑电路面积开销仅增加2个晶体管/单元可靠性8T结构避免6T SRAM的读干扰问题扩展性通过调整参考电压可支持更大阵列典型应用场景AI边缘设备的特征提取物联网节点的实时信号处理低功耗神经网络加速器6. 实际应用中的注意事项工艺适配不同工艺节点需重新优化晶体管尺寸建议M1/M3宽度为其他晶体管的2倍读路径晶体管M7/M8可采用最小尺寸电压缩放1.8V供电下性能最优降至1V仍可工作但需放宽时序电压调整需重新校准比较器阈值温度影响高温下漏电流增加需缩短评估窗口建议工作温度范围-40°C~85°C测试验证建议采用内建自测试BIST结构关键信号添加观测点如RBL电压生产测试包含所有MAC计数场景我在实际芯片测试中发现RBL负载电容的匹配对结果一致性影响显著。建议采用以下方法优化版图布局确保各列RBL走线等长添加虚拟单元平衡寄生参数后仿真需提取详细的RC参数这种架构的一个隐藏优势是支持动态精度调整。通过控制激活的行数可以在4位、8位等不同精度模式间切换为不同应用场景提供灵活的精度-能效权衡。例如语音识别任务可能只需要4位精度此时能耗可降低约35%。