阿里：时序课程解决多轮蒸馏不稳定

张

张建站

2026/5/12 4:11:31

10分钟阅读

标题TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents来源arXiv, 2604.24005v3️文章简介研究问题如何在多轮自主智能体场景中解决因误差累积导致的传统策略蒸馏训练不稳定及性能崩溃问题主要贡献论文提出了 TCOD 框架通过由浅入深的时序课程学习控制轨迹深度显著提升了多轮智能体的训练稳定性与最终性能。重点思路发现并定义了“轨迹级 KL 不稳定性”现象指出在多轮交互中学生模型的早期错误会随回合数增加而累积导致其状态分布偏离教师模型的有效支持范围引发 KL 散度激增和成功率崩塌。提出前向至后向F2B变体在训练初期限制学生仅执行轨迹的前几步随后按线性节奏逐步增加交互步数让学生先掌握短期决策再过渡到长程规划。提出后向至前向B2F变体利用教师模型执行成功轨迹的前缀部分将环境状态引导至接近终点的中间态让学生从该状态开始学习并完成剩余步骤随着训练进行逐渐回溯起始点直至覆盖全程。设计异步训练架构与陈旧感知子轨迹回放机制将完整轨迹分解为递归子序列存储并通过过滤过时数据平衡采样效率与策略约束进一步提升训练效率。分析总结实验表明 TCOD 有效抑制了 KL 散度的异常 escalation避免了小模型在 vanilla OPD 训练中成功率归零的崩溃现象使训练过程更加平稳。在 ALFWorld、WebShop 等多个基准测试中TCOD 不仅恢复了小模型的性能还将大模型的成功率提升了最高 18 个百分点同时减少了平均行动步数。TCOD 展现出超越教师模型的能力在教师本身无法解决的困难任务分割集上学生模型的成功率可超出教师达 14 个点证明了其泛化能力突破了教师的能力边界。该方法对课程增长速率参数不敏感且相比传统方法能减少约 32% 的总训练时间因为早期较短的轨迹加速了数据采集与迭代过程。个人观点论文捕捉到了多轮交互中特有的误差复合效应将课程学习思想从“样本难度”转化为“时间维度上的轨迹深度”将长程依赖问题拆解为渐进式短程学习。

商业航天崛起：从SpaceX看工程创新与政策博弈的融合

1. 商业航天崛起的时代背景与技术逻辑2012年5月，当SpaceX的“龙”飞船与国际空间站成功对接时，我正和几位航天领域的同行在会议室里盯着直播画面。那一刻的安静与随后爆发的掌声，不仅仅是为一次技术成功，更是为一个新时代的开启感…...

2026/5/12 4:09:37 阅读更多 →

Driver Store Explorer深度解析：Windows驱动存储管理的终极解决方案

Driver Store Explorer深度解析：Windows驱动存储管理的终极解决方案【免费下载链接】DriverStoreExplorer Driver Store Explorer 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer Windows驱动存储管理一直是系统维护中容易被忽视但又至关…...

2026/5/12 4:09:33 阅读更多 →

Markplane：为静态Markdown注入动态交互能力的增强引擎

1. 项目概述：一个为Markdown注入活力的“飞行器”如果你和我一样，日常工作中重度依赖Markdown来撰写文档、技术笔记，甚至是项目规划，那你一定遇到过这样的痛点：Markdown的静态性。它简洁、高效，但有时也显得…...

2026/5/12 4:05:33 阅读更多 →

【阳师范学院主办，多高校承协办 | IET出版，往届连续4届EI稳定检索，平均刊后2个月EI检索，EI检索稳定 | 择优至EI期刊】第五届电力工程与电气技术学术会议（ICPEET 2026）

ICPEET 2026 已申请IET (CA) EAI (JA) 出版会议论文（CA）： 会议已申请IET Conference Proceedings (ISSN: 2732-4494) 出版，收录于IET数字图书馆，并提交EI Compendex、Scopus、IEEE Xplore等数据库进行检索。期刊论文…...

2026/5/12 3:35:40 阅读更多 →