1. 大语言模型推理优化的核心挑战在当今大语言模型LLM的发展浪潮中数学推理能力已成为衡量模型智能水平的重要标尺。然而当我们使用强化学习与验证器RLVR这一主流范式来提升模型推理能力时往往会遇到一个令人头疼的现象模型在训练过程中过早地收敛到少数几种固定的推理模式上就像学生在考试时只会用单一方法解题一样。这种现象背后的本质原因是探索不足limited exploration。想象一下如果一个学生在解决数学问题时只尝试一种解题思路就停止探索即使这道题可能有多种解法他也无法发现。类似地LLM在RLVR训练中也会陷入这种思维定式——模型找到一种能得到正确答案的推理路径后就停止探索其他可能的正确解法。1.1 现有方法的局限性传统解决探索不足问题的方法主要有两类熵正则化Entropy Regularization这种方法通过在token级别增加随机性来促进探索。就像让学生在解题时偶尔随机选择一些计算步骤虽然能增加变化但这些变化往往是局部的、无目的的难以形成全新的解题思路。多样性驱动方法这类方法鼓励生成多样化的解决方案。好比要求学生必须用不同方法解题但缺乏对解题方法质量的把控可能导致学生为了多样性而牺牲正确性。这两种方法都存在明显缺陷要么只能在局部产生微小变化要么无法保证多样性与正确性的平衡。这就引出了我们需要解决的核心问题如何在保持正确性的前提下系统性地探索多样化的推理路径2. DSDR方法的核心设计2.1 双尺度多样性框架DSDRDual-Scale Diversity Regularization的创新之处在于将推理多样性明确分解为两个互补的尺度全局多样性Global Diversity关注不同推理模式之间的差异。就像鼓励学生掌握多种解题思路如代数法、几何法等确保解决方案在整体思路上具有差异性。局部多样性Local Diversity保持每种推理模式内部的灵活性。如同学生在使用代数法解题时能够在具体步骤上有所变化而不是死记硬背固定的解题模板。这种分解基于一个关键观察好的探索需要同时满足两个条件(1)覆盖多种不同的解决思路(2)每种思路内部保持一定的灵活性避免过度僵化。2.2 全局多样性促进机制DSDR通过以下方式实现全局多样性语义级差异度量使用预训练的语言模型编码器如all-MiniLM-L6-v2计算不同解决方案在语义空间中的距离。两个解决方案如果在语义上差异较大则认为它们采用了不同的推理模式。公式级独特性检测特别针对数学推理任务提取解决方案中的数学表达式检查是否存在独特的公式使用。这能捕捉到语义相似但数学方法不同的情况。正确性约束的奖励塑造只对正确的解决方案应用多样性奖励避免为了多样性而牺牲正确性。这就像只对正确的解题方法给予额外表扬确保探索始终在正确的方向上进行。2.3 局部熵控制机制在局部层面DSDR采用了几项精心设计长度不变的正则化将熵奖励按token数量平均避免模型通过增加输出长度来刷分。这确保了奖励反映的是真正的推理多样性而非简单的长度增加。正样本专注只对正确的推理路径应用熵正则化。错误的解决方案不需要保持多样性因为它们本身就不是我们想要的。全局到局部的耦合根据解决方案的全局独特性动态调整局部熵奖励的强度。越是独特的正确解决方案其内部的token级探索就越受鼓励。3. 理论保证与算法细节3.1 正确性保持证明DSDR的一个关键理论贡献是证明了只要局部正则化的强度λℓ控制在合理范围内具体来说小于最优解与次优解之间的正确性差距∆除以最大熵H_max就不会影响模型最终找到最优解决方案的能力。用数学表达就是 λℓ ∆/H_max ⇒ JR(π*) J*_R这意味着DSDR可以在不牺牲最终正确率的前提下显著提升模型的探索能力。这就像保证学生不会因为尝试多种解题方法而降低最终考试分数。3.2 信号保持机制在基于组的策略优化如GRPO中当组内多个解决方案都正确时传统的验证器奖励会变得相同导致训练信号消失。DSDR通过多样性奖励在正确解决方案之间引入可控的差异保持了有意义的训练信号。具体实现上DSDR的增强奖励计算为 r̃_i r_i λ_d·d̄_i·1(r_i1)其中d̄_i是裁剪后的多样性分数。这种设计确保了(1)只有正确解决方案获得额外奖励(2)多样性奖励不会主导原始正确性信号(3)组内始终存在有意义的差异供策略优化使用。3.3 全局-局部耦合的优化解释DSDR使用softmax加权来分配局部熵奖励 w_i exp(τd̄_i)/Σ_j exp(τd̄_j) for correct solutions这一设计可以通过熵正则化的资源分配问题得到合理解释在给定有限的探索资源下如何分配这些资源才能最大化整体探索效果理论证明softmax分配正是这个优化问题的最优解。温度参数τ控制着探索的集中程度τ越大探索资源越集中在最独特的解决方案上τ越小资源分配越均匀。这为超参数选择提供了理论指导。4. 实验验证与结果分析4.1 实验设置研究团队在多个数学推理基准上验证了DSDR的有效性包括AIME2024/2025美国数学邀请赛试题MATH500包含500道数学题Minerva Math专门测试数学推理的数据集Olympiad-level奥数级别难题评估指标包括Pass1单次尝试的准确率Avg1616次尝试的平均正确率Passkk次尝试中至少一次正确的概率对比基线包括原始模型BackboneGRPOGroup Relative Policy OptimizationDAPODiversity-Aware Policy Optimization4.2 主要结果在Qwen系列模型上的实验显示DSDR带来了全面的性能提升Qwen2.5-Math-1.5B平均性能从GRPO的23.2/24.0提升到25.4/25.6Pass1/Avg16在AIME24上Pass1从16.7%提升到20.0%Qwen3-1.7B平均性能从28.4/29.7提升到36.8/36.8AIME24上Pass1从20.0%大幅提升到36.7%Qwen3-4B平均性能从39.31/39.57提升到48.01/46.80AIME24上Pass1从36.67%提升到56.67%这些提升在更大模型上更为显著表明DSDR具有良好的可扩展性。4.3 Passk分析Passk曲线显示随着k的增加DSDR相对于基线的优势持续扩大。例如在AIME2024上当k2时DSDR比DAPO高约5%当k64时差距扩大到15%以上这表明DSDR不是简单地提升了单次尝试的质量而是真正扩大了正确解决方案的覆盖范围使模型能够提供更多样化的正确解法。4.4 消融研究移除全局多样性w/o GD或全局-局部耦合w/o GC都会导致性能下降移除GDQwen3-4B平均性能从48.01降至44.14移除GC性能从48.01骤降至32.04这验证了DSDR两个核心组件的必要性及其协同作用。4.5 训练动态分析训练过程中DSDR展现出理想的探索-利用平衡熵值保持稳定增长既不过早衰减也不过度膨胀语义和公式相似度持续低于基线表明更好的模式覆盖策略梯度信号保持稳定没有出现剧烈波动相比之下缺乏全局多样性引导的变体w/o GD表现出熵值剧烈波动而缺乏局部熵控制的变体w/o GC则过早收敛。5. 实际应用建议基于DSDR的研究成果我们在实际应用LLM进行复杂推理任务时可以遵循以下最佳实践多样性度量选择对于数学推理任务建议结合语义级和公式级多样性度量其他领域可根据任务特点设计适当的多样性指标如代码推理可考虑AST结构差异超参数设置全局多样性权重λ_d建议从0.001开始尝试局部熵权重λℓ保持在0.001左右耦合温度τ通常设置在1-10之间训练技巧使用适度的组大小通常8-16对多样性分数进行裁剪如σ_d0.1防止奖励失控监控训练过程中的熵值和相似度变化评估策略除了Pass1务必关注Passk曲线定期进行人工检查确保多样性是质量而不仅是形式上的6. 未来扩展方向DSDR框架具有很好的通用性可在多个方向进行扩展跨任务迁移将双尺度多样性应用于代码生成、逻辑推理等需要探索的任务适配不同的验证器类型如测试用例、形式化验证多模态推理在视觉-语言联合推理任务中应用类似原则设计跨模态的多样性度量标准训练效率优化研究更高效的多样性计算方式探索分层抽样策略来平衡探索开销理论深化进一步研究多样性正则化与泛化能力的关系探索自动调整双尺度权重的机制