【论文阅读】Learning from Long-Term Engagement: Adaptive Tutoring Dialogue Planning for Personalized Education摘要scaffold支架式教学 或 教学支架例The teacher provided scaffolds for the students. →老师为学生提供了学习支架教学辅助局限性1.LLM缺乏对学生长期学习过程的关注难以提供符合学生个性化需求的教学支架2.合适的教学支架需要复杂的推理计算成本高LEAP长期教育适应规划系统1.通过认知状态cognitive state捕捉学生长期学习进度2.collaboration of direct planning直接规划 and thoughtful reasoning深思熟虑的推理提高效率3.提出长期教育档案数据集 LEAD引言contributions1.提出LEAP框架包括认知状态提取和支架式教学模块2.提出LEAD数据集基于真实世界不同问题和课程的学生反映的教育对话数据集3.不同数据集下框架的有效性LLM先根据历史对话总结摘要了解当前学生对不同知识点的掌握情况并将记录保存在Cognitive Status Memory作为长久保存。在解决确定的知识点时候采用Enlighten Scaffold快速直接帮助学生解决不确定的知识点时LLM先思考找到能给学生最大启发效果最好的scaffold相关工作Dialogue Tutoring Datasets手动创建—标注成本高伸缩困难LLM驱动的合成数据生成LLM模拟生成教学对话解决扩展问题但是现有方法都很少关注学生长期学习过程表现尤其是同一学生不同问题的表现LLM-enhanced Tutoring Systems通过prompt和微调大模型具备老师能力但是容易直接给出答案不符合启发式教学法即使懂得教学AI老师存在健忘问题只看当前对话忽略长期辅导对话难以提供个性化辅导数据集的建立数据收集在线教育平台PTA真实的多轮提交的数据集“同一道编程题目的多次提交”“不同编程题目的提交”通过分析多轮代码提交之间的差异判断学生的学习状态变化分析代码修改过程模拟教师如何指导学生对话从而构建LEAD长期辅导对话数据集哈哈感觉很奇妙因为我也用了这个平台完成编程任务数据集构建过程把真实学生代码转成教学对话数据题目内容 学生多轮代码提交 → 分析学生哪里错、怎么改 → 模拟教师如何指导 → 生成教师-学生对话Dean-Teacher-Student多智能体框架Teacher Agent根据题目内容学生代码判断学生疑难点给出合适的指导Student-Agent负责模拟针对指导的学生回应Dean Agent监督对话1.problem content题目内容multi-round submission学生多轮提交2.生成problem analysis问题分析3.code diff捕捉代码差异反映学生对问题理解和学习状态的变化4.模拟师生对话教学支架策略scaffolding strategyinspireintroduceenlightensummarize弊端模型可能学到的是“GPT 风格的教学对话分布”而不是真人教师真实教学策略泛化能力有限开放性问题无固定答案跨学科学习状态建模方法问题定义每轮对话d由学生response和教师guidance组成截止当前的所有轮对话构成上下文C不同的历史对话C集合成历史对话集合H教学过程满足马尔可夫过程目标函数找到一条路径πθ使得不同状态和动作下的奖励最大序列累计奖励不是单步奖励研究框架1.cognitive state extraction 认知状态提取Memory Storage Update对于历史对话由大模型生成核心摘要将摘要编码存入Memory Bank超过一定天数的记忆会被删除来维护时效性降低存储空间提高查找效率Memory Retrieval检索相关对话时要考虑相似度和信息有效性语义相似度Xsem衡量对话上下文与历史摘要的接近程度概念覆盖度Xover检查当前对话涉及的名词与历史的重叠情况根据多少判断参考价值最终检索评分xλ(xover​xsem​)把语义相似度和概念覆盖度加权同时考虑时间衰减算出每条历史摘要的总分。选择得分最高的前k条记忆作为参考2.scaffolding instruction planning支架指导规划direct plannerMCTS planners根据学生认知状态和上下文推荐合适的指导指令支架Direct Planner大语言模型使用策略网络策略梯度法优化和价值网络强化学习法用于动作预测和状态评估根据当前对话和学生认知状态快速生成教学指令同时训练优化策略网络和价值网络MCTS Planner模型对学生认知状态不确定时调用MCTSPlanner模拟多个教学策略的结果推测出最有效的教学指导不直接训练策略网络主要用于深度推理多轮对话选择-----扩展----评估----回传所以整个流程就是学生当前会话输入到记忆存储与更新库中通过重要内容提取之后存放在memory bank里面再去检索memory bank里面过去的内容与当前对话语义相似的内容重叠的部分进行总结得到学生对这个知识点的掌握状态把状态和当前对话一并送入direct planner 如果置信度高就快速生成dg如果置信度低就送到mcts中进行深度推理得到dgLLM模型起到什么作用在认知状态提取模块LLM生成核心摘要信息用作memory bank存储将相关历史对话整合成认知状态向量m非结构化文本–结构化在直接规划器中LLM模拟学生反馈用于离线强化学习训练在MCTS规划器中模拟教师学生互动预测支架效果不足之处跨学科泛化能力LLM依赖多出现幻觉单支架策略评估指标差距不大