小白程序员必看：通俗易懂的强化学习核心概念解析（含收藏）

张

张建站

2026/4/13 15:37:49

10分钟阅读

本文用通俗语言深入浅出地讲解了强化学习的21个核心概念从智能体、环境到状态、行动、奖励再到策略、轨迹、回报等并介绍了折扣奖励、值函数、贝尔曼方程、马尔可夫性质、MDP等关键知识点最后还重点解析了PPO、RLHF、GRPO、RLVR等与大语言模型相关的强化学习算法。无论你是编程小白还是有一定基础的程序员都能通过本文轻松入门并理解强化学习在当今大语言模型背景下的重要性。1. 什么是强化学习让我们从强化学习的定义开始。强化学习是机器学习的三种类型之一另外两种是监督学习和无监督学习。它研究的是一种叫做「智能体」的实体如何通过试错的方式在其所处的「环境」中学会更好地完成一项任务。举个例子一只鹿智能体在森林环境中觅食求生同时要躲避捕食者。我们很快会讲到更多与 AI 相关的例子但我保证先让我们把「智能体」和「环境」这两个概念理解透彻。2. 智能体智能体是强化学习中的核心实体。它研究与周围环境互动做出决策采取行动并从结果中学习。在前面的例子中我们用鹿作为智能体。但从现在开始我们也会讨论以大语言模型作为智能体的概念。3. 环境环境是智能体之外的一切事物是智能体与之互动的对象。环境的功能包括• 受到智能体行为的影响• 根据智能体的行为改变自身状态或者保持状态不变• 根据智能体的行为给予奖励或惩罚帮助智能体在下一次行动时调整意图在第一个例子中鹿在森林这个环境中活动。根据鹿的行为向不同方向移动森林环境要么让它找到食物奖励要么让它暴露在猎豹面前惩罚。如果以大语言模型作为智能体那么它之外的一切都是环境的一部分包括• 用户输入• 系统提示词• 可以调用的工具 / API• 系统响应工具结果、API 输出、错误信息• 上下文文档、对话历史、文件4. 状态状态是环境在某一时刻的快照。它是智能体在某一刻所能看到的一切这些信息可以被用来做出下一个决策。对于鹿这个智能体状态可能包括它目前在森林中的位置、附近的捕食者、以及当前的时间。对于大语言模型智能体状态就是它在某一刻所能访问的全部上下文这些上下文决定了它下一步的行动。但什么是行动呢5. 行动行动是智能体在特定环境状态下做出的选择。对于鹿行动可能是走向觅食区域或者在发现捕食者时逃跑。对于大语言模型智能体行动可能是生成文本、创建图片或者调用工具。一个重要的考量是当你聚焦到具体场景时行动会变得非常细致。例如对于鹿来说当它在环境中发现捕食者时行动可以是更快地移动腿部肌肉和关节。同样生成一个单独的 token 对于大语言模型来说就是一个行动基于它之前生成的所有 token环境。6. 行动空间行动空间是智能体在给定状态下可以采取的所有可能行动的集合。鹿的行动空间可能包括向四个方向移动、跳跃、进食或者静止不动。大语言模型的行动空间包括生成不同的响应以及使用可用的工具。当我们聚焦到 token 层面把每个 token 的生成视为大语言模型的一个行动时行动空间就变成了模型的词表模型在给定步骤可以输出的所有 token 的集合。鹿不会飞大语言模型也不能发出一束光。智能体只能采取行动空间中已有的行动。7. 奖励奖励是智能体从环境中收到的信号用来引导它在未来采取更好的行动。奖励可以是正向的、零的或者负向的。强化学习研究者都是体贴的人他们在文献中通常避免使用「惩罚」这个词。对于鹿智能体• 找到食物和逃脱捕食者会从环境获得正向奖励• 导致受伤或挨饿的行动会从环境获得负向奖励对于通过强化学习从人类反馈中训练的大语言模型RLHF• 生成安全且有帮助的响应会从环境获得正向奖励• 生成有害的响应会获得负向奖励在这种情况下环境包含一个奖励模型。我们将在后续章节中详细讨论 RLHF所以现在不用担心这个。8. 策略智能体在特定状态下采取行动的策略叫做策略。从数学上讲策略是一个映射函数决定了在给定状态下应该采取什么行动。策略可以是•确定性策略智能体在特定状态下总是采取相同的行动•随机性/概率性策略智能体在给定状态下根据概率采取不同的行动就像大语言模型的情况一样其中温度参数控制着它下一步生成什么 token对于鹿智能体它后天习得的生存本能就是它的策略。对于大语言模型它的参数权重和偏置就是它的策略。不过需要注意的是在流行的强化学习文献中大语言模型本身就被认为是策略。9. 轨迹轨迹是智能体在与环境互动过程中经历的全部状态、行动和奖励的完整序列。轨迹可以是•有限的对于有终点的任务比如下棋的智能体•无限的对于持续进行的任务比如股票市场交易智能体对于鹿智能体一个轨迹可能长这样• 早晨的森林状态• 走向河边喝水行动• 收到环境的奖励因为这个行动有助于生存正向奖励• 发现捕食者状态• 逃跑行动• 被捕食者抓住并死亡轨迹结束收到环境的负向奖励对于正在被训练调用工具和有帮助地回应的大语言模型智能体一个轨迹可能长这样• 大语言模型收到一个查询状态• 它调用搜索网络的工具行动• 它因为调用了正确的工具而获得奖励正向奖励• 搜索结果出现新状态• 大语言模型使用搜索结果生成最终答案行动• 答案是正确的大语言模型获得正向奖励10. 回合回合是有一个明确终点的轨迹。它是智能体与环境之间从开始到终止状态的有限互动序列。例如一只鹿智能体开始在安静的森林里最后被捕食者吃掉这标记了一个回合很不幸一个非常糟糕的回合。同样大语言模型智能体成功完成用户在线订购最喜欢的餐食的请求也代表一个回合因为它有明确的开始和结束。11. 回报回报是智能体在一个回合甚至无限轨迹中所积累的总奖励。对于鹿智能体在一个白天从醒来的初始状态到睡觉的终止状态的回合中回报是所有以下奖励的总和•正向奖励进食、喝水、逃脱捕食者•负向奖励受伤、离群对于正在被训练推理能力的大语言模型回合从收到提示词开始持续到达到终止状态此时它返回最终输出。这期间的回报是所有以下奖励的总和•正向奖励清晰的推理步骤、使用合适的工具、返回有帮助且安全的最终答案•负向奖励推理链中出现逻辑错误、重复推理、过早放弃、使用错误的工具、返回错误的最终答案强化学习智能体的目标是在环境中最大化其回报这意味着学会采取能获得更多正向奖励、更少负向奖励的行动。12. 折扣奖励智能体必须花时间探索环境以最大化回报因为贪恋微小的短期奖励可能导致错失巨大的长期奖励。例如一只鹿可能专注于在开阔草地觅食专注于即时奖励但随后被猎豹发现并吃掉糟糕的长期结果。但同样智能体也不应该在探索环境上花太多时间它也必须利用现有资源。例如如果有草可以吃吃草可能帮助鹿恢复体力在被发现时逃跑。这就是强化学习以及我们生活中经典的探索-利用权衡。为了控制智能体在环境中的行为方式在计算回报时会使用折扣因子。折扣因子γ是一个介于 0 和 1 之间的值控制着智能体对未来奖励相对于即时奖励的重视程度。• 较低的 γ0.25会增加即时奖励的价值使智能体变得贪婪。• 较高的 γ0.99使未来奖励几乎与即时奖励同等重要促使智能体做长期规划。以训练中的推理大语言模型为例。较低的折扣因子会推动模型用更短、更集中的推理链进行推理因为这些步骤获得的奖励更多而对未来奖励的折扣更大。但同样我们也不能把折扣因子设得太低因为这会导致大语言模型为了快速获得奖励而跳过更长的关键推理步骤。这就是为什么找到折扣奖励的「甜蜜点」如此重要。13. 值函数值函数是智能体在尝试最大化回报时所依赖的数学函数。这些函数估计智能体处于特定情况下有多好。当我们说「有多好」时指的是从给定情况开始的预期未来回报。预期未来回报就叫做价值。有三个值函数回答了三个不同的问题术语 ‘s’ 和 ‘a’ 分别指状态和行动。状态值函数 V(s)「智能体处于特定状态有多好」例如对于鹿智能体处于有树木覆盖的河岸状态的价值高于处于开阔地带。行动值函数 Q(s,a)「智能体处于特定状态并从中采取特定行动有多好」例如对于鹿智能体在靠近河岸状态时喝水行动的价值高于走开另一个行动。优势函数 A(s,a)「智能体在特定状态下采取特定行动比平均水平好多少」例如假设鹿智能体在森林中状态所有可能行动的平均价值是V 5。当它走向河边时这个行动在当前状态下的行动值是Q 8但当它在开阔地带睡觉时行动值是Q 1。这意味着• 走向河边的优势是Q - V 8 - 5 3• 在开阔地带睡觉的优势是Q - V 1 - 5 -4但我们实际上如何求解这些值函数呢14. 贝尔曼方程贝尔曼方程递归地定义值函数使它们易于计算。它将值函数定义为预期即时奖励加上下一状态的折扣值之和。虽然下图展示的是状态值函数的贝尔曼方程但状态值函数和行动值函数都有各自的贝尔曼方程。15. 马尔可夫性质我们上面描述的一切都遵循马尔可夫性质。这意味着未来状态只取决于当前状态和从中采取的行动而不是取决于智能体和环境的整个历史。换句话说知道智能体现在在哪里就提供了预测其未来所需的全部信息而不是知道它是如何到达这里的。16. 马尔可夫决策过程MDP马尔可夫决策过程是强化学习中决策制定的基础数学框架它基于马尔可夫性质用于寻找最大化预期累积折扣奖励的最优策略。它包括• 智能体可能处于的状态• 智能体在每个状态下可以采取的行动•转移概率当采取某个行动时从一个状态转移到另一个状态的概率• 智能体在从一个状态转移到另一个状态后获得的奖励• 优先考虑短期奖励而非长期奖励的折扣因子所有经典强化学习算法都假设环境是马尔可夫决策过程。17. 强化学习算法到目前为止我们已经了解到环境中的智能体• 希望最大化其回报• 可以使用值函数和贝尔曼方程来评估不同情况但智能体实际上如何学会以最优方式行动以最大化回报呢它可以在两种设定中学习基于模型的强化学习智能体被给予或自己构建一个环境内部模型。这个模型帮助智能体在环境中行动前进行规划。谷歌 DeepMind 的 AlphaGo 就是这种方法的例子强化学习智能体被给予了一个围棋游戏模型可以用它来规划未来的移动。无模型强化学习智能体没有环境模型或者不理解其环境如何运作。智能体通过与环境互动从经验中学习。无模型强化学习应用更广泛有两种类型或者两者的组合基于价值的方法这些方法涉及智能体学习最优值函数知道每个状态或状态-行动对有多好然后基于这些选择价值最高的行动。这些方法的一些例子包括• Q-learning / 深度 Q 网络DQN• SARSA基于策略的方法这些方法涉及智能体直接学习能最大化回报的策略。这样的策略叫做最优策略。这些方法的一些例子包括• REINFORCE• TRPO• PPO现代强化学习算法的非穷尽分类来源由于我们关注的是与大语言模型相关的强化学习我们将专门关注无模型方法特别是基于策略的方法。其中我们特别感兴趣的是 PPO 和 GRPO。18. PPO近端策略优化PPO来源于一类叫做策略梯度的基于策略强化学习算法家族。以下是策略梯度算法的工作原理• 智能体我们这里的大语言模型首先与环境互动在轨迹中收集样本一组状态、行动和奖励。这些用于估计每个所采取行动的回报。• 接下来计算策略参数的预期回报梯度。• 最后策略参数沿着增加回报的方向更新。这些步骤在多个轨迹上重复迭代地改进策略使其趋向于选择能带来更高奖励的行动。不过这个算法有一个小问题。假设其中一个行动带来了巨大奖励。这可能会在单次更新中剧烈改变策略有时会崩溃智能体已经学到的东西。例如如果一只鹿曾在开阔地带找到大量食物单次大奖励可能导致它改变行为总是去开阔地带寻找食物。这对鹿来说是灾难性的因为它增加了被捕食者发现的机会。相反它必须缓慢而渐进地更新本能而不是基于单次大奖励就做太大改变。这就是 PPO 产生的原因。PPO 谨慎地更新智能体的策略使更新后的策略不会偏离前一个策略太远。因此名字里有「近端」这个词。PPO 将每次策略更新限制在一个范围内设定策略在一次更新中最多能改变多少无论该行动及其产生的奖励有多好或多坏。下图展示了 PPO 在 RLHF 中的应用我们接下来会讨论。19. RLHF现代大语言模型的目的不仅仅是生成下一个 token还要有帮助地遵循用户指令并返回安全响应。强化学习从人类反馈RLHF是 OpenAI 引入的一种技术使这一切成为可能。RLHF 对大语言模型进行微调使其响应方式与人类偏好对齐。因此这种微调技术也叫做对齐微调。它的工作原理如下RLHF 过程从一个已经过监督微调的大语言模型开始使其能够以对话风格生成对用户查询的响应。这与只能生成文本但无法与用户聊天的大型语言模型预训练模型不同。收集对不同提示词的多个响应人类从最喜欢到最不喜欢对它们进行标注。基于这些偏好数据训练一个独立的奖励模型大语言模型来预测对于给定提示词人类会更喜欢哪个响应。这个奖励模型对更受欢迎的响应返回更高的奖励反之亦然在过程中充当人类评判的代理。训练中的大语言模型为一个给定提示词生成响应。这个响应由奖励模型评估奖励模型返回一个奖励。基于奖励使用 PPO 来更新训练中的大语言模型使其产生更高奖励的响应。RLHF 的过程在这里简要描述。它比这稍微复杂一些但当我们回顾之前看到的 PPO 图片时会变得更清晰。过程是这样的给定一个提示词或查询Q策略模型训练中的大语言模型生成一个响应或输出O。这个输出发送给奖励模型返回基于响应与人类偏好对齐程度的奖励R。输出也发送给参考模型原始策略模型的冻结副本与其输出进行比较并根据它们的差异计算 KL 散度惩罚。这个惩罚从奖励模型的分数/奖励中减去以确保奖励模型高度奖励的响应保持在参考模型所代理的自然类人输出附近。价值模型也查看提示词和响应预测每一步的最终奖励应该是什么。这个预测的奖励或价值用V表示。奖励R和价值V用于使用一种叫做 GAE广义优势估计的方法计算优势A。优势用于更新策略模型每次策略更新都被限制在一个范围内以避免大的变化。价值模型也使用单独的损失函数更新以更准确地预测未来步骤中的奖励。使用 PPO 的 RLHF 需要 4 个不同的模型策略、参考、奖励、价值其中奖励和参考模型的权重是冻结的而策略和价值模型是被训练的。这使得优化困难且内存密集。这就是为什么现代大语言模型流水线跳过 PPO转而使用•群体相对策略优化GRPOPPO 的更简单、内存效率更高的版本完全移除了价值模型•直接偏好优化DPO移除了 RLHF 的 RL 部分转而使用监督目标直接在偏好对上训练大语言模型20. GRPO群体相对策略优化GRPO由 DeepSeek 引入通过完全移除价值模型来简化 PPO。还记得价值模型是如何用来预测响应是否比预期更好吗GRPO 通过简单地检查一个响应是否比生成响应组中的其他响应更好来实现这一点。这使得它比 PPO 更内存高效且更容易实现。它的工作原理如下对于给定的提示词或查询Q策略模型首先一次生成一组响应或输出O(1)到O(g)。每个响应由奖励模型评分产生奖励(R(1)到R(g))。参考模型用于计算 KL 惩罚使策略模型不会偏离其起点太远。计算响应组所有奖励的平均值和标准差。这些用于计算每个响应的优势值A(1)到A(g)表示相对于组平均值它有多好或多差。然后策略模型被更新使用裁剪更新以增加生成高优势响应的概率降低生成低优势响应的概率。21. RLVR现在是理解这篇文章最后一个概念的时候了叫做 RLVR。可验证奖励强化学习RLVR在 Tulu 3 论文中引入是一种训练大语言模型在可以客观验证的任务上表现出色的方法。这包括数学或编程等任务在这些任务中更简单的基于规则的验证器而非大语言模型可以检查答案是否正确。相比之下将大语言模型与人类偏好对齐等任务是高度主观的无法用 RLVR 处理。它的工作原理如下对于解决数学/编程任务的给定提示词策略模型生成对它的响应。基于规则的验证器检查答案是否正确。正确的响应获得 1 的奖励错误的获得 0。使用 PPO 或 GRPO 更新策略模型使正确的推理路径更可能发生。为了更清楚如果 RLVR 与 PPO 一起使用• 策略模型生成单个响应。• 使用简单的验证器而非奖励模型验证其正确性返回奖励。• 在策略和参考模型之间应用 KL 惩罚来正则化更新。• 价值模型估计预期奖励并计算优势。• 策略模型使用裁剪更新。但如果 RLVR 与 GRPO 一起使用• 策略模型为一个给定提示词生成一组响应。• 使用简单的验证器验证它们的正确性返回奖励。• 在策略和参考模型之间应用 KL 惩罚来正则化更新。• 计算组奖励的均值和标准差。• 相对于组均值和标准差计算每个响应的优势。• 策略模型使用裁剪更新。一句话总结如果你时间紧迫这里是所有术语的一句话定义。强化学习机器学习的三种子类型之一智能体通过试错学会更好地完成任务智能体强化学习中的核心实体和决策者环境智能体之外与之互动并从中获得反馈的一切状态环境在给定时刻的快照行动智能体在给定环境状态下做出的选择行动空间智能体在给定状态下可以采取的所有可能行动的集合奖励智能体从环境中收到的信号正向、零或负向引导它在未来采取更好的行动策略智能体在特定状态下采取行动的策略轨迹智能体在与环境互动过程中经历的状态、行动和奖励的完整序列回合有明确终点的轨迹回报智能体在其轨迹中积累的总奖励折扣奖励加权奖励的方法使智能体学会平衡短期收益和长期规划值函数数学函数估计智能体处于某种情况或采取某种行动有多好以最大化其回报贝尔曼方程递归公式将值函数定义为预期即时奖励加上下一状态的折扣值之和便于计算马尔可夫性质智能体的未来状态只取决于当前状态和从中采取的行动而不是取决于智能体和环境的整个历史MDP强化学习中决策制定的基础数学框架基于马尔可夫性质用于寻找最大化预期累积折扣奖励的最优策略强化学习算法智能体用来学会以最优方式行动以最大化回报的方法PPO策略梯度算法谨慎地更新智能体的策略使更新后的策略不会偏离前一个策略太远RLHF微调大语言模型以无害且有帮助的方式响应、与人类偏好对齐的技术GRPOPPO 的更简单、内存效率更高的版本移除价值模型并检查响应是否比生成响应组中的其他响应更好RLVR在数学和编程等可客观验证的任务上训练大语言模型的方法用基于规则的验证器替代奖励模型强化学习是一个广阔的领域这篇文章希望能帮助你入门并理解在当今大语言模型背景下强化学习中重要的是什么。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

MoChat多租户SaaS架构：如何支持多企业同时运营

MoChat多租户SaaS架构：如何支持多企业同时运营【免费下载链接】mochat 基于企业微信的开源SCRM应用开发框架&引擎，也是一套通用的企业私域流量管理系统! 项目地址: https://gitcode.com/gh_mirrors/mo/mochat MoChat是基于企业微信的开源SCR…...

2026/4/13 15:37:47 阅读更多 →