昨天深夜调一个产线缺陷检测模型,RT-DETR在产线数据上mAP卡在78.3%死活上不去。盯着验证集里那些漏检的细小焊点和误判的背景纹理,突然意识到——我们太习惯把现成模型当黑盒用了,真正要压榨出最后几个点的精度,得从骨子里理解它每一层在干什么。今天这篇笔记,就聊聊我们到底能从哪些方向对RT-DETR动刀子。一、问题出在哪儿?先看那个让我头疼的案例:同一张电路板图像,YOLOv8能抓到四个虚焊点中的三个,RT-DETR只抓到两个,另外两个被误判成背景噪声。可视化注意力图发现,模型在浅层特征上就对小目标失去了聚焦能力。这引出了第一个改进方向——特征工程改造。RT-DETR的HGNetv2主干在中等目标上表现稳健,但小目标特征在多次下采样中几乎被稀释干净。我试过最直接的三板斧:第一,在backbone最后两个stage之间插入轻量级特征金字塔模块,不是直接照搬FPN,而是用分组卷积做了个廉价版跨尺度融合。第二,把第一个下采样层的卷积核从3x3换成2x2,stride保持2,这样第一层特征图能多保留些细节。第三,在encoder输入前加了条残差旁路,把stage2的特征直接拼接到下采样后的特征上,相当于给模型递了个“放大镜”。# 这是后来稳定使用的结构,早期版本踩过坑class