1. PC2IM当存内计算遇上3D点云处理在自动驾驶汽车通过激光雷达感知周围环境时每秒钟会产生数十万个三维坐标点。这些海量的点云数据Point Cloud需要实时处理但传统GPU方案功耗高达上百瓦根本无法在车载边缘设备上部署。这正是我们团队设计PC2IM加速器的初衷——通过存内计算Computing-in-Memory, CIM技术彻底重构点云神经网络的处理流程。存内计算的核心思想是将计算单元嵌入存储阵列打破传统冯·诺依曼架构中存储-计算分离带来的数据搬运瓶颈。SRAM-CIM作为当前最成熟的存内计算实现方式在40nm工艺下就能实现2.5TOPS/W的能效这比传统数字逻辑电路高出1-2个数量级。但现有SRAM-CIM方案在处理3D点云时面临两大挑战点云预处理阶段如最远点采样需要频繁访问片上缓存占整体能耗的41%特征计算阶段的多层感知机MLP需要16bit高精度计算导致传统位串行CIM的延迟激增2. 架构设计从算法近似到硬件协同2.1 近似距离计算的硬件实现传统点云网络使用欧式距离L2进行最远点采样其计算公式为L2 \sqrt{(x-x_r)^2 (y-y_r)^2 (z-z_r)^2}这需要三个乘法器和一个开方运算在硬件实现时会产生两大问题乘法操作会扩展数据位宽如16bit坐标经平方后变为32bit动态中间结果需要暂存增加临时存储开销我们提出用曼哈顿距离L1近似替代L1 |x-x_r| |y-y_r| |z-z_r|在ModelNet40数据集上的实验表明当查询半径缩放1.6倍时准确率损失小于2%。对应的硬件实现采用图1所示的APD-CIM阵列该阵列包含4个点群PTG每个PTG包含16个点簇PTC每个PTC集成标准6T SRAM单元存储32个点坐标动态逻辑感放Dynamic Logic Sense Amplifier近内存计算单元Near-Memory Unit绝对值累加器ABSAcc工作时参考点坐标通过字线WL并行读取到寄存器查询点坐标通过位线BL输入。动态逻辑感放将减法运算转换为NAND/OR操作近内存单元完成累加最终输出19bit的L1距离。相比传统数字电路实现能效提升8.9倍。2.2 两级乒乓MAX-CAM设计最远点采样需要持续更新并比较点集距离传统实现方式如图2(a)所示从片上缓存读取临时距离TD数字比较器找出最大值更新TD寄存器重复直到遍历所有点这种方案导致大量片上数据搬运占预处理阶段58%的能耗。我们创新的Ping-Pong-MAX CAM结构图2b将比较操作移至存储体内完成关键技术突破单元级乒乓每个CAM单元存储一对距离值Upper/Lower TD通过本地选择器动态配置比较模式波纹比较预充电的比较线LL从首单元传播到尾单元自动标记最大值位置阵列级乒乓双CAM阵列交替执行加载和搜索操作实现流水线并行实测显示该结构将临时距离更新的能耗降低97%使整个预处理模块能效提升3.7倍。3. 分块拼接式特征计算引擎3.1 高精度MLP的存内计算困境传统位串行SRAM-CIMBS-CIM每个周期处理1bit输入完成16bit乘法需要16个周期。若改用位并行方案又会导致乘法器面积增加16倍加法器位宽从16bit扩展到32bit布线拥塞加剧3.2 SC-CIM的创新设计我们的解决方案图3包含三大关键技术输入交错拆分将16bit输入拆分为4个4bit簇如输入1011 1101 1111 0000 → 簇1:1_1_1_0, 簇2:0_1_1_0,...相邻簇位权相差2⁴而非2¹减少进位传播权重块拆分每组64个4bit权重块共享加法树相邻块A/B通过融合加法器FuA预计算AB稀疏-稠密混合累加稠密部分17bit16符号位常规累加稀疏部分4bit进位专用通路这种结构在40nm工艺下实现4倍于BS-CIM的吞吐量2TOPS16bit仅增加23%的面积开销支持动态精度切换4/8/16bit4. 实测数据与对比分析4.1 能效基准测试在SemanticKITTI数据集16k点/帧上的测试结果指标Baseline-2 [10]PC2IM提升倍数预处理能耗(mJ)4.21.13.8×MLP延迟(ms)6.51.25.4×整体能效(TOPS/W)0.92.532.7×4.2 与GPU的对比平台帧率(FPS)能效(FPS/W)RTX 4090220.1PC2IM77151.9关键优势体现在数据预处理CIM化改造减少73.4%的片上数据搬运特征计算SC-CIM在16bit模式下实现9.9倍FoM提升数据流优化基于中值的空间分区MSP提升15%的存储利用率5. 工程实现中的经验总结在实际芯片设计过程中我们总结了以下宝贵经验近似计算的精度补偿L1距离查询半径需放大1.6倍在最后一个PSA层保留原始L2计算作为校准采用动态范围缩放DRS补偿量化误差CAM设计的稳定性优化波纹比较线需插入中继缓冲器采用差分感放消除电荷注入效应添加温度补偿电路保证PVT稳定性布局布线挑战SC-CIM的融合加法器需与存储阵列行对齐采用蛇形走线平衡时序自定义电源网格降低IR drop实测中发现当工作频率超过300MHz时MAX-CAM的比较误码率会急剧上升。最终通过调整预充电电压从1.1V降至0.9V和延长比较周期从1ns到1.2ns解决了该问题。这套设计方法已成功应用于自动驾驶点云感知芯片相比传统方案在保持98%精度的同时将能效提升到1518.9倍。未来我们将进一步探索3D堆叠技术通过TSV实现存算一体阵列的垂直扩展持续推动边缘AI计算的发展。