【末流211硕士研究生换方向之类增量学习】需要发小论文(有毕业要求)硕士研究生的不要选校外导 ,不要选!!!
类增量学习知识树1.问题定义层1.1.Logits逻辑值1.2.Feature Norms(特征范数)1.3.Classifier Weights分类器权重概念位置影响 logits 的方式增量学习常见问题对应 Rectify 方法Logits输出层直接决定预测概率旧类 logits 偏高Logit Rectify后处理缩放Feature Norm特征层乘性放大/缩小所有 logits范数漂移导致偏差Feature Rectify如特征归一化Classifier Weight分类器参数点积计算模长 方向新类模长小旧类方向不匹配Weight Rectify权重初始化/正则1.4. CIL / TIL / DIL 区别类型任务间类别推理时任务ID输出空间难度CIL(Class-IL)无重叠未知不断扩张最难TIL(Task-IL)独立不同任务类别不共享已知每个任务独立最易DIL(Domain-IL)类别相同领域不同未知固定中等CIL模型需要同时区分所有已见类别典型增量学习。TIL测试时告诉模型当前是哪个任务只需在该任务的分类器内选择。DIL类别不变数据分布变化如白天→黑夜模型需适应新分布。1.5. Catastrophic Forgetting灾难性遗忘定义学习新任务后旧任务性能急剧下降。原因神经网络参数被新数据覆盖旧知识的决策边界被破坏。解决方向回放、正则化、动态架构。1.6. Stability vs Plasticity稳定性 vs 可塑性Stability保持已有知识的能力抵抗遗忘。Plasticity快速学习新知识的能力适应新任务。困境两者互相制约。增量学习的目标是在两者间取得平衡。1.7. Exemplar Set / Memory Budget示例集 / 内存预算Exemplar Set存储的旧样本子集用于回放。Memory Budget存储 exemplar 的总内存上限例如最多 2000 张图。关键固定总内存比固定每类数量更现实选择 exemplar 常用Herding让所选样本的特征均值接近类中心。1.8.Offline Incremental Learning离线增量学习定义数据按任务task分批到达每个任务包含一批样本模型在每个任务上可以多轮迭代训练直到收敛后再进入下一个任务。特点任务边界清晰知道何时一个任务结束、下一个任务开始。每个任务的样本可以反复使用多 epoch 训练。可以维护较大的内存缓冲区存储旧样本。评估时通常在每个任务结束后测试模型在所有已见类别上的性能。1.9.Online Incremental Learning在线增量学习定义数据以流stream的形式逐个或小批量到达模型每个样本只看到一次立即更新后丢弃或决定是否存入很小的缓冲区。特点无明确任务边界或任务边界未知。单次更新不允许多轮遍历同一数据。内存和计算开销严格受限通常只能用极小的 buffer甚至不用。更接近真实世界推荐系统、自动驾驶、金融风控等场景数据实时到达。维度Offline IncrementalOnline Incremental数据到达方式任务分批每批可多轮训练流式到达每个样本只看一次训练次数每个任务可多次迭代单次更新无法重放缓冲区可维护较大的memory buffer通常很小的buffer或不用典型方法iCaRL、DER、LUCIRGDumb、Online-EWC、MIR挑战控制遗忘实时性 遗忘更严重Offline像按学期学习。每个学期任务你有一本教材批量数据可以反复读、做题、复习学期末考试。下一个学期学新教材但要保留旧知识。Online像刷短视频流。每刷到一条新视频样本你看一次立刻根据它调整自己的认知更新模型然后这条视频永远不会再出现。你必须实时适应下一条。1.10.Few-Shot Class-Incremental Learning (FSCIL)项目说明核心设定第一个任务基类样本充足后续每个新类只有极少样本如 1-shot、5-shot主要挑战极少量样本导致严重过拟合新类决策边界不可靠增量更新易破坏旧类典型策略冻结特征提取器用预训练模型元学习基于基类构造伪新类进行预热图神经网络或原型校正代表工作TOPIC (NeurIPS20), CEC (CVPR21), FACT (CVPR22)1.11.Long-Tailed Class-Incremental Learning (LTCIL)项目说明核心设定类别分布呈长尾头部类样本极多尾部类样本极少增量阶段可能引入新的尾部类主要挑战模型强烈偏向头部类尾部类几乎学不到简单回放会加剧不平衡尾部类极易遗忘典型策略重加权损失class-balanced loss边际调整margin penalty解耦训练先学特征再用均衡数据微调分类器动态为尾部类保留更多回放样本代表工作LTCIL (ECCV22), SS-IL (CVPR22), REMIND (NeurIPS20) 的长尾扩展1.12.Blurry Class-Incremental Learning (Blurry CIL)项目说明核心设定任务间类别有重叠同一个类别可能出现在多个连续任务中每个任务可能同时包含旧类和新类主要挑战无法假设类别互斥重叠类在不同任务的分布可能不同分布漂移需要区分“需要复习的旧类”和“真正的新类”典型策略特征对齐跨任务对比学习动态回放策略根据重叠程度调整重放比例利用梯度信息隐式检测任务边界代表工作Blurry CIL (CVPR22, Bang et al.), Rainbow Memory (CVPR23)真实的开放世界场景往往是Blurry Long-Tailed Few-Shot的组合类别可能跨任务重复出现Blurry同时类别分布天然长尾Long-Tailed新类只能获得少量标注Few-Shot再加上Online约束每个样本只看一次就是目前增量学习的前沿挑战设定。2.方法基机制层2.1.Reply回放核心在训练新任务时让模型也“复习”旧任务的数据。真实回放存储少量旧样本exemplar与新样本混合训练。生成回放用生成模型GAN/VAE合成伪旧样本不存真实数据。优点简单有效性能上限高。缺点存储/隐私问题生成模型也会遗忘。代表方法iCaRL DER GDumb ER A‑GEM。2.2. Distillation蒸馏核心用旧模型的输出软标签作为“教师信号”约束新模型的输出不要偏离太多。知识蒸馏对齐新旧模型的 logits。特征蒸馏对齐中间层特征。关系蒸馏保持样本间的相对关系。优点无需存储旧样本仅需保存旧模型。缺点新旧任务差异大时约束过强会阻碍新学习。代表方法LwF iCaRL含蒸馏 LUCIR PODNet。2.3. Bias Correction / Rectification偏差矫正核心纠正模型在增量过程中产生的预测偏差例如倾向于旧类或头部类。Logit 矫正调整分类前的 logits按类别样本数、权重模长等缩放。特征矫正变换特征向量归一化、仿射变换。权重矫正修正分类器权重投影、适配器。优点计算量小可即插即用。缺点通常需要知道类别统计信息不能解决所有遗忘。代表方法BiC WAWeight Aligning LUCIR余弦归一化 SS‑IL。2.4. Dynamic Expansion动态扩展核心模型结构随任务动态增长添加神经元、分支或子网络旧参数冻结或仅部分更新。参数隔离每个任务分配独立子网络。渐进式网络增加新列用横向连接利用旧知识。神经架构搜索自动决定扩展时机和结构。优点理论上可做到零遗忘若旧参数完全固定。缺点模型规模线性增长需任务边界或任务ID测试时需要路由。代表方法Progressive Neural Networks DEN RCL CoPE。2.5. Parameter Regularization参数正则化核心对参数更新施加约束惩罚对旧任务重要的参数的变化。EWC用 Fisher 信息矩阵估计参数重要性加二次惩罚。SI在线估计每个参数对损失的贡献。MAS基于输出对参数的敏感度。优点无需存储旧样本内存开销小。缺点任务多或差异大时约束不足仍会遗忘。代表方法EWC SI MAS。方法存旧样本模型规模遗忘控制额外开销典型代表Replay是或生成器固定强存储/生成iCaRL, DERDistillation否需旧模型固定中额外前向LwF, LUCIRBias Correction通常需要统计量固定中侧重偏差低BiC, WADynamic Expansion否增长极强路由机制Progressive NetsParameter Regularization否固定中弱重要性计算EWC, SI3.实验与评估层3.1.为什么强调 benchmark增量学习的方法五花八门回放、蒸馏、正则化、动态扩展…不同的实验设定数据集、任务划分、内存预算会导致结果截然不同。如果没有统一的 benchmark研究者很容易“挑对自己有利的设定”来报告结果导致不可复现细节缺失别人跑不出同样结果。不可比A 论文在 CIFAR-100 上按“每类 10 个样本”报告B 论文按“每类 50 个样本”报告无法判断谁更好。虚假进步某些技巧只在特定任务顺序或内存大小下有效换个设定就失效。因此领域内逐渐形成了一套标准化的实验协议如使用的数据集、基类/增量类的划分方式、内存预算、评估指标等以便公平比较。3.2.常用数据集与划分数据集特点用途CIFAR-100100 类每类 600 张 32×32 彩图快速迭代、消融实验学术界最常用ImageNet-100ImageNet 的子集100 类中等规模更接近真实复杂度ImageNet-1000完整 ImageNet1000 类大规模 benchmark检验方法可扩展性不同 base / increment splits指如何将总类别划分为基类第一任务和增量任务。例如CIFAR-100常见 split 为 50 基类 5 个增量任务 × 10 类5050或者 50 10×5 等。有些论文会尝试不同难度的 splits基类少而增量类多更难或基类多而增量类少较易。为什么要变化 splits检验方法对不同任务长度、类别顺序的鲁棒性。一个好的方法不应该只在某一种 split 上有效。3.3.核心评估指标3.3.1.平均准确率Average Accuracy和最后准确率Last / Final Accuracy所有增量任务结束后每个任务结束时在所有已见类别上的平均测试准确率_反映整个增量学习过程的整体表现平衡了早期和后期任务。最后一个增量任务结束后在所有类别上的准确率_最终模型的绝对性能实际部署最关心的指标。3.3.2.遗忘率Forgetting对于每个旧任务计算其在刚学完时的最高准确率与当前准确率之间的下降幅度再对所有任务取平均_直接量化灾难性遗忘的程度。遗忘率越低稳定性越好。3.3.3.Intransigence顽固性 / 不适应性模型在学习新任务时所能达到的最佳性能与联合训练upper bound之间的差距_衡量模型学习新知识的能力上限。低 intransigence 表示方法能够接近联合训练的性能可塑性好。3.4.资源消耗指标3.4.1.参数量Number of Parameters模型有多少可训练参数。动态扩展方法参数会随任务增长需要报告最终参数量或平均每任务增量。意义衡量模型的存储开销对边缘设备重要。.3.4.2.Memory 使用Memory Usage主要指exemplar buffer占用的存储通常以存储的样本数或 MB 为单位。有时也包含额外模型如生成器、旧模型副本的显存占用。公平预算不同方法应当使用相同的内存预算进行比较例如都允许存储 2000 个 exemplar而不是 A 用 5000、B 用 200。3.4.3.公平预算Fair Budget这是综述反复强调的核心原则比较两种增量学习方法时必须让它们使用等量的总存储资源memory budget。例如经验回放ER用 2000 个原始图像。生成回放GAN不存图像但存一个生成器模型假设模型大小相当于 500 张图像。为了让比较公平可以设定总预算 2000 图像当量那么生成回放除了生成器外还可以额外存 1500 张真实图像。如果不设公平预算某方法可能只是因为用了更大的缓冲区而表现更好而非算法本身优越。