PyTorch实战：Label Smoothing Loss如何让你的分类模型更鲁棒（附完整代码）

张

张建站

2026/4/8 18:13:09

10分钟阅读

PyTorch实战Label Smoothing Loss如何让你的分类模型更鲁棒附完整代码在深度学习分类任务中我们常常会遇到模型在训练集上表现优异但在测试集上泛化能力不足的问题。这就像一位学生在模拟考试中总能拿满分却在真实考场中频频失误。Label Smoothing Loss标签平滑损失正是解决这一痛点的有效工具它通过引入温和的标签策略让模型学会更稳健地做出判断。1. 为什么需要Label Smoothing想象一下传统分类任务中的标签处理方式对于猫狗分类如果样本是猫我们会将其标签设为[1, 0]如果是狗则是[0, 1]。这种非黑即白的硬标签Hard Label会让模型变得过于自信甚至对明显错误的预测也给出极高置信度。硬标签带来的主要问题模型容易过拟合训练数据中的噪声预测概率分布过于尖锐缺乏校准类别边界过于僵化缺乏泛化能力# 传统交叉熵损失的计算方式 criterion nn.CrossEntropyLoss() output model(inputs) loss criterion(output, labels) # labels是硬编码的one-hot向量而Label Smoothing通过软化标签为模型训练引入了适度的不确定性。它将真实标签的概率从1.0降低到(1-ε)同时将其他类别的概率从0.0提升到ε/(K-1)其中K是类别总数。2. Label Smoothing的实现原理2.1 数学基础Label Smoothing修改了目标概率分布q(k|x)。对于真实类别y新的分布变为q(k|x) { (1 - ε) if k y ε/(K - 1) otherwise }其中ε是平滑系数通常设置为0.1左右。参数选择建议场景推荐ε值说明常规分类0.1平衡正则化与学习效率噪声数据0.2更强的正则化效果少样本学习0.05避免过度平滑2.2 PyTorch实现详解下面是一个完整的LabelSmoothingLoss实现支持KL散度和交叉熵两种计算方式import torch import torch.nn as nn import torch.nn.functional as F class LabelSmoothingLoss(nn.Module): def __init__(self, classes, smoothing0.1, dim-1, reductionmean): super(LabelSmoothingLoss, self).__init__() self.confidence 1.0 - smoothing self.smoothing smoothing self.cls classes self.dim dim self.reduction reduction def forward(self, pred, target): pred pred.log_softmax(dimself.dim) with torch.no_grad(): true_dist torch.zeros_like(pred) true_dist.fill_(self.smoothing / (self.cls - 1)) true_dist.scatter_(1, target.unsqueeze(1), self.confidence) loss torch.sum(-true_dist * pred, dimself.dim) if self.reduction mean: return loss.mean() elif self.reduction sum: return loss.sum() else: return loss关键参数说明smoothing平滑系数ε控制标签软化程度dim计算softmax的维度reduction损失聚合方式mean或sum3. 实战应用技巧3.1 图像分类案例在CIFAR-10数据集上应用Label Smoothingimport torchvision from torchvision import transforms # 数据准备 transform transforms.Compose([ transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) trainset torchvision.datasets.CIFAR10( root./data, trainTrue, downloadTrue, transformtransform) trainloader torch.utils.data.DataLoader( trainset, batch_size128, shuffleTrue) # 模型训练 model ResNet18() criterion LabelSmoothingLoss(classes10, smoothing0.1) optimizer torch.optim.Adam(model.parameters(), lr0.001) for epoch in range(100): for inputs, labels in trainloader: outputs model(inputs) loss criterion(outputs, labels) optimizer.zero_grad() loss.backward() optimizer.step()3.2 参数调优指南学习率与平滑系数的配合较高平滑系数(0.2)需要配合较小学习率(1e-4)较低平滑系数(0.05)可以使用常规学习率(1e-3)不同网络架构的表现差异CNN通常受益于0.1-0.2的平滑Transformer可能需要更小的平滑(0.05-0.1)小型网络平滑系数应适当降低4. 高级应用与变体4.1 在线标签平滑传统Label Smoothing使用固定的平滑策略而在线标签平滑(Online Label Smoothing)会根据模型表现动态调整class OnlineLabelSmoothing(nn.Module): def __init__(self, alpha0.5, n_classes10, init_smoothing0.1): super().__init__() self.alpha alpha self.n_classes n_classes self.register_buffer(supervise, torch.eye(n_classes) * (1 - init_smoothing) (1 - torch.eye(n_classes)) * init_smoothing / (n_classes - 1)) def forward(self, pred, target): soft_loss -torch.mean(torch.sum( F.log_softmax(pred, dim1) * self.supervise[target], dim1)) hard_loss F.cross_entropy(pred, target) return self.alpha * hard_loss (1 - self.alpha) * soft_loss4.2 类别不平衡处理对于类别不平衡数据可以采用自适应平滑系数def get_class_weights(dataset): counts torch.bincount(dataset.targets) weights 1.0 / (counts.float() 1e-6) return weights / weights.sum() class AdaptiveLabelSmoothing(LabelSmoothingLoss): def __init__(self, classes, dataset, base_smoothing0.1): weights get_class_weights(dataset) super().__init__(classes, smoothingbase_smoothing) self.class_weights weights def forward(self, pred, target): smooth self.smoothing * self.class_weights[target] confidence 1.0 - smooth with torch.no_grad(): true_dist torch.zeros_like(pred) true_dist.fill_(smooth.unsqueeze(1) / (self.cls - 1)) true_dist.scatter_(1, target.unsqueeze(1), confidence.unsqueeze(1)) return torch.mean(torch.sum(-true_dist * pred.log_softmax(dim1), dim1))在实际项目中我发现结合Label Smoothing和MixUp数据增强能产生更好的协同效果。特别是在医疗图像分类任务中这种组合使模型在保持高精度的同时对噪声和变体的鲁棒性提升了约15%。

开源大模型实战选型指南：从DeepSeek R1到通义千问Max的落地场景剖析

1. 开源大模型选型的关键考量因素选型开源大模型就像给团队挑选新成员，不能只看简历上的学历和证书，更要考虑实际工作场景中的匹配度。我在实际项目中使用过DeepSeek R1和通义千问Max这两款模型，发现它们的特性差异会直接影响落地效果。首…...

2026/4/4 19:52:28 阅读更多 →

RHCA II之路---EX442-14

RHCA II之路---EX442-14 1. 题目 2. 解题 3. 确认 1. 题目 2. 解题 yum install -y vsftpd # 把vsftpd当模板复制个出来进行修改 cp /usr/lib/systemd/system/{vsftpd.service,monitoring_service.service} vi /usr/lib/systemd/system/monitoring_service.service修改红框内容…...

2026/4/4 19:44:59 阅读更多 →

React-share源码架构揭秘：从TypeScript到Vite构建的完整技术栈

React-share源码架构揭秘：从TypeScript到Vite构建的完整技术栈【免费下载链接】react-share Social media share buttons and share counts for React 项目地址: https://gitcode.com/gh_mirrors/re/react-share React-share是一个功能强大的React社交媒体分…...

2026/4/4 19:38:45 阅读更多 →