快速了解部分基础信息英文1.题目: A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning2.时间: 2011.033.机构: Carnegie Mellon University4.3个英文关键词: Imitation Learning, No-Regret Online Learning, Dataset Aggregation1句话通俗总结本文干了什么事情本文提出了一种叫DAGGER的算法通过让专家在“机器自己跑出来的状态”下不断补充教学数据解决了机器“一步错步步错”的累积误差问题。研究痛点现有研究不足 / 要解决的具体问题传统的Imitation Learning如Behavioral Cloning假设数据是独立同分布的但实际执行时机器一旦犯错就会进入专家从未演示过的状态导致错误像滚雪球一样累积性能随时间呈二次方下降。核心方法关键技术、模型或研究设计简要DAGGER算法一种迭代式的数据聚合方法。在每一轮迭代中用当前策略去跑收集遇到的状态让专家在这些状态下提供标签将这些新数据加入训练集重新训练。深入了解部分作者想要表达什么作者想证明通过简单的Dataset Aggregation数据集聚合可以将Imitation Learning转化为一个No-Regret Online Learning无悔在线学习问题从而获得理论上的性能保证线性误差增长而非二次方。相比前人创新在哪里理论保证相比传统的监督学习DAGGER能保证误差随时间线性增长而非二次方增长。策略形式相比SEARN或SMILe等方法训练出的随机或时变策略DAGGER训练出的是Stationary Deterministic Policy静态确定性策略更实用且稳定。简单高效算法逻辑简单不需要复杂的参数调整且能直接复用现有的监督学习算法。解决方法/算法的通俗解释想象教人开车传统方法教练只在自己开的时候录像学员回家看录像学。结果学员一上路遇到教练没开过的路况比如开沟里了就懵了。DAGGER方法学员先试着开不管开成什么样教练坐在旁边。只要学员开到了某个位置教练就告诉学员“在这个位置你应该怎么打方向盘”。把这些“学员视角的错题”记下来回去重新学。这样学员见过的“坑”越来越多以后就不容易掉坑里了。解决方法的具体做法初始化数据集DDD为空或包含专家的演示数据。循环迭代基于当前数据集DDD训练一个策略π^i\hat{\pi}_iπ^i​。使用策略π^i\hat{\pi}_iπ^i​在环境中运行收集它访问到的状态序列。在这些状态下查询专家π∗\pi^*π∗获得正确的动作标签。将这些新的状态专家动作对加入到数据集DDD中即Dataset Aggregation。最终返回在验证集上表现最好的策略。基于前人的哪些方法基于No-Regret Online Learning无悔在线学习框架特别是Follow-The-Leader算法的思想。同时也借鉴了SEARN和SMILe等迭代式学习方法的思路。实验设置、数据、评估方式、结论实验1 (Super Tux Kart)3D赛车游戏。输入图像特征输出方向盘角度。结论DAGGER在15次迭代后实现了0次冲出赛道显著优于SMILe和监督学习。实验2 (Super Mario Bros.)超级马里奥。输入图像输出按键。结论DAGGER在行进距离上优于SMILe和SEARN且收敛更快。实验3 (OCR)手写字符识别结构化预测任务。结论DAGGER达到了85.5%的准确率优于SEARN和SMILe且计算效率更高。提到的同类工作Behavioral Cloning传统的监督学习方法。SEARNSearch-based Structured Prediction一种迭代混合策略的方法。SMILeStochastic Mixing Iterative Learning作者之前的工作训练随机策略。和本文相关性最高的3个文献Ross and Bagnell (2010):Efficient reductions for imitation learning.(本文作者之前的工作提出了SMILe和Forward Training是本文的直接基础)。Daumé III et al. (2009):Search-based structured prediction (SEARN).(SEARN算法DAGGER的主要对比对象和灵感来源之一)。Kakade and Tewari (2009):On the generalization ability of online strongly convex programming algorithms.(提供了在线学习和强凸损失的理论支持)。