阿里:时序课程解决多轮蒸馏不稳定
标题TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents来源arXiv, 2604.24005v3️文章简介研究问题如何在多轮自主智能体场景中解决因误差累积导致的传统策略蒸馏训练不稳定及性能崩溃问题主要贡献论文提出了 TCOD 框架通过由浅入深的时序课程学习控制轨迹深度显著提升了多轮智能体的训练稳定性与最终性能。重点思路发现并定义了“轨迹级 KL 不稳定性”现象指出在多轮交互中学生模型的早期错误会随回合数增加而累积导致其状态分布偏离教师模型的有效支持范围引发 KL 散度激增和成功率崩塌。提出前向至后向F2B变体在训练初期限制学生仅执行轨迹的前几步随后按线性节奏逐步增加交互步数让学生先掌握短期决策再过渡到长程规划。提出后向至前向B2F变体利用教师模型执行成功轨迹的前缀部分将环境状态引导至接近终点的中间态让学生从该状态开始学习并完成剩余步骤随着训练进行逐渐回溯起始点直至覆盖全程。设计异步训练架构与陈旧感知子轨迹回放机制将完整轨迹分解为递归子序列存储并通过过滤过时数据平衡采样效率与策略约束进一步提升训练效率。分析总结实验表明 TCOD 有效抑制了 KL 散度的异常 escalation避免了小模型在 vanilla OPD 训练中成功率归零的崩溃现象使训练过程更加平稳。在 ALFWorld、WebShop 等多个基准测试中TCOD 不仅恢复了小模型的性能还将大模型的成功率提升了最高 18 个百分点同时减少了平均行动步数。TCOD 展现出超越教师模型的能力在教师本身无法解决的困难任务分割集上学生模型的成功率可超出教师达 14 个点证明了其泛化能力突破了教师的能力边界。该方法对课程增长速率参数不敏感且相比传统方法能减少约 32% 的总训练时间因为早期较短的轨迹加速了数据采集与迭代过程。个人观点论文捕捉到了多轮交互中特有的误差复合效应将课程学习思想从“样本难度”转化为“时间维度上的轨迹深度”将长程依赖问题拆解为渐进式短程学习。