RLHFChatGPT 是怎么学会听话的同样的语言模型为什么 GPT-2 会输出有害内容而 ChatGPT 却温和友好、拒绝违规请求这背后的关键技术叫做 RLHF。一句话定义RLHFReinforcement Learning from Human Feedback人类反馈强化学习是一种通过人类评分来训练 AI 按照人类偏好行事的技术让模型不只是预测下一个词还能学会什么样的回答更受人类认可。为什么需要 RLHF早期语言模型如 GPT-2、GPT-3有个根本问题它们只学会了预测下一个词没学会什么是好的回答。这导致会生成有害、歧视性内容因为这类内容在互联网上大量存在对指令的理解差帮我写一首诗可能给出偏题的内容会生成似是而非的错误信息幻觉严重冗长啰嗦不直接回答问题OpenAI 研究员意识到光靠预测词模型永远不会主动变得对人有帮助。2022 年 1 月OpenAI 发表论文《Training language models to follow instructions with human feedback》提出了 RLHF 的完整框架并应用于 InstructGPT。几个月后ChatGPT 上线RLHF 被全世界认识。通俗类比训狗 vs 给规则手册传统预训练模型 给狗一本《狗的行为指南》手册狗不会看手册也不明白规则的意义依然我行我素。RLHF 用零食奖励和轻推惩罚来训练狗做了好行为坐下、握手→ 给零食 → 狗学会这样做有好处做了坏行为乱叫、咬人→ 轻声制止 → 狗学会这样做有坏处反复训练 → 狗的行为越来越符合人类期望人类评分者的反馈就是 AI 的零食。技术层面RLHF 三步走第一步监督微调SFTSupervised Fine-Tuning收集高质量的问题-答案对由人类撰写或筛选对模型进行初步微调。输入帮我写一首关于秋天的诗 理想输出[人工撰写的优质诗歌] → 用这些数据微调模型让它大致知道好回答是什么样的第二步训练奖励模型Reward ModelRM让人类评分员对同一问题的多个 AI 回答进行排名问题如何做意大利面 回答 A详细步骤清晰易懂 → 人类打分最好 回答 B有步骤但不完整 → 人类打分一般 回答 C只说去查菜谱 → 人类打分最差 → 用这些排名数据训练一个评委 AI奖励模型 → 奖励模型学会什么样的回答会获得人类高分第三步强化学习优化PPOProximal Policy Optimization用奖励模型作为评委通过强化学习不断优化语言模型语言模型生成回答 ↓ 奖励模型打分模拟人类评分 ↓ 高分回答 → 增加这类回答的概率 低分回答 → 降低这类回答的概率 ↓ 反复迭代 → 模型越来越讨人喜欢RLHF 的效果有多显著OpenAI 的实验数据InstructGPT 论文对比结果InstructGPTRLHF版1.3B参数vs GPT-3原版175B参数人类更喜欢 InstructGPT 的比例85%有害内容生成率下降约25%真实性提升幻觉率下降约20%结论参数少 100 倍的模型靠 RLHF 训练后反而比更大的未对齐模型更受人类喜欢。RLHF 的局限性问题描述人类偏见评分员自身有偏见会被传递到模型中讨好倾向模型学会说人类想听的话而不是说真实的话过度安全有时拒绝完全合理的请求过于保守成本高需要大量人工标注代价昂贵评分不一致不同评分员对好回答的标准不同RLHF 的升级版DPO、GRPORLHF 很有效但训练流程复杂、成本高。研究者们开发了简化版本DPODirect Preference Optimization直接偏好优化2023 年提出跳过了训练奖励模型这一步直接用人类偏好数据优化模型更简单、更稳定被 Llama 2、Mistral 等模型广泛使用GRPOGroup Relative Policy OptimizationDeepSeek-R1 使用的核心技术不需要人类反馈用模型自己生成的多个答案互相比较大幅降低对人工标注的依赖让 DeepSeek 实现了低成本高性能的突破在哪些产品中见到了 RLHF 的影子ChatGPT / GPT-4OpenAI 最早的大规模 RLHF 应用竖起大拇指/朝下按钮的评分就是在收集反馈ClaudeAnthropic 的 Constitutional AI RLHF AI 自我批评更进一步GeminiGoogle 的对话 AI也使用了人类反馈对齐DeepSeek-R1用 GRPO 代替传统 RLHF无需大量人工标注常见误区误区真相“RLHF 让 AI 变得更聪明了”❌ RLHF 让 AI 变得更听话不是更聪明知识量没有增加“RLHF 训练 AI 服从命令”⚠️ 更准确地说是让 AI 学会对人类有帮助、无害、诚实“有了 RLHF 就没有幻觉了”❌ RLHF 减少了无益回答对幻觉有改善但无法根除“评分越多模型越好”⚠️ 评分质量比数量更重要差的反馈数据反而有害易混淆词辨析RLHF vs 强化学习RLRL 是一大类技术RLHF 是其中一种专门用人类反馈作为奖励信号RLHF vs 监督学习SLSL 有明确的正确答案RLHF 的反馈是相对偏好A比B好更难量化RLHF vs Constitutional AIConstitutional AIAnthropic是 RLHF 的改进版用 AI 自我检查代替部分人工反馈一句话总结RLHF 是让 AI 从文字预测机器变成有礼貌的助手的关键——它不改变模型的知识而是改变模型的价值观让它知道什么样的回答才算好。下一篇《微调 vs 预训练傻傻分不清楚》标签#AI术语#RLHF#强化学习#ChatGPT#AI对齐#InstructGPT