为什么DeiT用CNN当老师,效果反而比Transformer更好?深入聊聊知识蒸馏里的“模型偏见”
为什么CNN教师能让Transformer学生更优秀解码知识蒸馏中的架构偏见传递当Facebook AI团队在2020年发布DeiTData-efficient Image Transformers论文时一个反直觉的发现引起了广泛讨论使用CNN架构如RegNet作为教师模型进行知识蒸馏训练出的Transformer学生模型竟然比使用Transformer教师的效果更好。这一现象挑战了同类架构蒸馏更优的传统认知揭示了知识蒸馏中更深层的机制——模型归纳偏见的跨架构迁移。1. 知识蒸馏的本质超越标签的软知识传递知识蒸馏Knowledge Distillation最初由Hinton团队在2015年提出其核心思想是通过教师-学生框架将复杂模型学到的知识迁移到更轻量的模型中。与传统监督学习不同知识蒸馏传递的是教师模型生成的软标签soft labels这些标签包含了类别间的相对关系、决策边界等丰富信息。在DeiT的设定中知识蒸馏的损失函数由两部分组成L_global (1-λ)L_CE(ψ(Z_s), y) λτ²KL(ψ(Z_s/τ), ψ(Z_t/τ))其中L_CE是学生模型预测与真实标签的交叉熵损失KL项是学生与教师输出的KL散度τ是温度参数控制标签的软化程度λ平衡两项损失的权重关键发现当教师模型为CNN架构时学生Transformer在ImageNet上的top-1准确率比使用Transformer教师高出1-2个百分点。这一差距在数据量受限时更为明显。2. CNN与Transformer的架构偏见对比要理解这一现象我们需要先剖析两种架构的固有偏见Inductive Bias特性CNNTransformer局部感知通过卷积核强制局部连接自注意力可实现全局交互平移等变性内置的卷积操作保证需通过位置编码显式引入层次特征提取通过池化层自然实现需设计特殊结构实现参数效率高权重共享低全连接注意力数据依赖性低小数据即可有效训练高需大数据学习结构CNN的局部性偏见和平移不变性使其在图像任务中具有天然优势而Transformer的全局注意力机制虽然表达能力更强但也更容易在小数据场景下过拟合。3. 偏见传递的三种关键机制3.1 软标签作为偏见载体教师模型的softmax输出实际上编码了其决策过程中的所有架构偏见。对于同一张图片CNN和Transformer会产生不同的错误模式CNN倾向于对局部变形更鲁棒Transformer可能对全局结构更敏感但局部不稳定当使用KL散度最小化学生与教师的输出分布时这些偏见会通过梯度传播被隐式地注入学生模型。3.2 注意力模式的隐性迁移DeiT采用了一种创新的蒸馏token机制在输入序列中添加一个特殊的[distill]token该token通过自注意力与图像patch交互其输出专门用于匹配教师模型的预测[class token] --- 真实标签损失 [distill token] -- 教师蒸馏损失这种设计使得Transformer可以同时学习原始任务和模仿教师的决策过程后者包含了CNN的局部性偏好。3.3 特征空间的偏见融合通过分析中间层的激活模式我们发现使用CNN教师训练的Transformer早期层会发展出类似卷积的局部响应模式高层注意力图则保留Transformer的全局交互能力这种混合表征比纯Transformer教师训练出的模型更具适应性4. 实践启示与扩展应用这一发现对实际应用有多重意义数据效率提升策略在小数据场景下优先选择CNN作为教师模型中等数据量时可尝试混合教师CNNTransformer大数据条件下同架构蒸馏可能重新占优跨架构蒸馏的最佳实践温度参数τ的选择较低τ1-3强调教师确信的预测较高τ5保留更多相对类别信息损失权重λ的调整初期可设较高λ如0.7强化蒸馏后期降低λ让模型聚焦真实标签教师模型的选择标准不必追求教师的绝对性能更关注其错误模式是否对学生有益在医疗影像、卫星图像等专业领域这一发现尤其有价值。这些领域通常数据有限但标注成本高通过精心选择教师模型可以显著提升小Transformer模型的表现。