SFT到RLHF实战指南（非常详细），大模型训练从入门到精通，看这篇就够了！

张

张建站

2026/4/11 17:33:07

10分钟阅读

腾讯 AI Agent 开发工程师二面太难了最近金三银四后台不少读者留言让我聊聊大模型方向的面试经验。恰好上个月我完整经历了某猪场的大模型用算法岗面试一路从一面到Offer被问到头皮发麻。但不得不说这场面试让我对自己过去两年的技术积累有了全新的梳理。今天我就把面试中被拷问到的问题整理出来不是简单的题目罗列而是我当时真实思考的过程、卡壳的地方以及事后复盘时想明白的点。如果你正在准备类似岗位或者想系统构建RAG方向的知识体系这篇文章值得你静下心来看完。1. 在你的项目中大模型最关键的性能指标是什么如何评估标准答案关键指标通常是RAG检索增强生成的整体效能。具体来说我会关注上下文检索准确率RecallN、生成答案的准确性Exact Match、响应时延Latency和用户满意度Satisfaction Score。评估方法采用自动化评测人工打分的混合模式。自动化评测用BLEU/ROUGE/EM来筛选人工评测则通过随机抽样和灰度测试来验证。难点分析陷阱很多候选人只会说“准确率高”或“召回率高”。但面试官更想看你是否懂得全链路思考。比如在搜索增强生成RAG场景下只看生成模型的BLEU是没有意义的因为召回的质量直接决定了上游瓶颈。2. 如果模型效果不达标你通常优先优化哪一部分标准答案第一步分析日志找瓶颈是检索问题还是生成问题。大模型性能大多受召回质量影响。如果检索召回差模型再强也生成不了好答案。第二步如果是生成问题优先检查Prompt和解码策略如top-p、temperature而不是急着改模型结构。难点分析面试官在考察你的debug思维。直接说“调大模型参数”通常是万万不可取的因为工程成本高且优化空间有限。3. 大模型生成任务常用自动评测指标有哪些为什么BLEU / ROUGE不适合评估部分生成任务标准答案常用指标BLEU、ROUGE针对摘要、EMExact Match、RecallN针对检索、LLM-as-Judge基于LLM的评判。局限性BLEU/ROUGE过于依赖字面匹配。对于创意写作、代码生成或长答案如搜索增强生成只要语义对词序不对就会被判低分。难点分析需要体现你对评价指标本质的理解不能仅仅背概念。4. 如何设计人工评测流程评估模型回答质量标准答案分层抽样先用自动指标筛选出“中等”水平的样本再进行人工评测避免“天花板效应”好样本直接给满分。细粒度打分从准确性、完整性、语言表达、参考价值等维度打分而不是简单的好坏判断。5. 在训练大模型时遇到过什么问题嘛如何解决的啊标准答案常见问题显存溢出OOM、梯度爆炸、训练不收敛。解决方案采用梯度累计、混合精度训练FP16、梯度裁剪GradClip以及动态学习率调度。6. 为什么长文本推理时Attention计算会成为瓶颈如何解决标准答案瓶颈原因Attention是二次复杂度的算法文本越长显存占用越大速度越慢。解决方案使用稀疏Attention如Longformer、分块推理Chunked Inference或检索增强RAG来缩短上下文长度。7. 如果模型回答过于冗长如何通过 Prompt 优化标准答案技巧在Prompt中加入约束性语言如“请用三句话以内回答”或“请简洁回答”。也可以调整temperature参数降低温度会让输出更保守、更短。8. DPO 与 RLHF 的核心区别是什么为什么 DPO 可以不需要 Reward Model标准答案核心区别RLHF通过奖励模型Reward Model来间接优化策略而DPODirect Preference Optimization直接利用对比偏好Preference Pairs进行优化省去了Reward Model的训练步骤。9. 在 RLHF 中为什么需要 KL penalty标准答案作用KL惩罚项KL Penalty是为了防止模型在追求奖励时偏离原始模型Base Model太远导致“离谱”或不安全的回答。它起到了一种正则化作用。10. 为什么 PPO 在 LLM 训练中比传统 Policy Gradient 更稳定标准答案原因PPO通过**截断策略Clipping**限制每一步更新的幅度避免了Policy Gradient中可能出现的剧烈震荡和崩溃。11. 在什么情况下 DPO 效果可能不如 RLHF标准答案场景当偏好数据Human Preference非常稀缺或质量不高时RLHF通过奖励模型的平滑能力可能会比直接用噪声数据进行DPO更好。12. 大语言模型预训练数据一般由哪些类型构成预训练语料如何进行清洗与去重标准答案去重使用MinHash或SimHash算法对文档指纹进行比对过滤掉相似度过高的内容。过滤剔除低质量如乱码、广告、敏感如个人隐私和版权风险内容。格式化统一编码、去除 HTML 标签分段切分。数据类型清洗与去重网络文本Common Crawl、新闻站点、社区论坛如知乎。结构化数据百科维基百科、问答库StackExchange。专业领域医学论文、法律文献、代码仓库GitHub。多语言平行语料用于翻译能力。难点分析面试官在看你是否理解数据是模型的“根”。如果你只能说“爬网页”而不提去重和过滤那么你的模型很可能在实际上线后出现“幻觉”或“泄漏”风险。13. 如何减少推理延迟latency为什么 batch 推理可以提升吞吐量标准答案Temperature控制输出的随机性。温度低如 0.2时模型更确定性输出更单一温度高如 1.0时更随机创造力更强。**Top-p (Nucleus Sampling)**模型只从累计概率达到 p 的词汇中采样确保高概率词不被遗漏。批处理利用了 GPU 的并行计算能力。单条推理往往无法填满显存而 batch 推理可以一次性计算多个请求显著提升吞吐量TPS。降低延迟Batch 推理原理Temperature / Top-p模型蒸馏使用轻量模型Student替代大模型Teacher。FlashAttention优化显存访问降低内存带宽瓶颈。模型裁剪通过 LoRA 或 Adapter 方式仅加载核心权重。难点分析这里的关键是Trade-off。比如蒸馏虽然快但可能牺牲知识深度面试官喜欢问你在实际项目中是如何权衡“准确率 vs 延迟”的。14. 是否有智能体相关项目Agent 如何进行 Tool Selection如果 Agent 经常循环调用工具无法停止如何解决标准答案基于意图识别Agent 首先判断用户是要搜索信息、绘制图表还是执行代码。基于成本评估如果搜索结果已经满足需求则不会调用冗余的图像生成工具以节约算力。Tool Selection 机制循环调用解决方案深度限制设定一个最大调用深度如 3 次。状态缓存记录每一步的 Tool 输入输出若发现循环输入输出不变立即打断。工具冗余检查如果已经调用了搜索工具且搜索结果中已经包含答案则不再调用搜索工具。难点分析面试官想看你是否了解Agent 的“规划层”。一个好的 Agent 不能像“回声室”一样自说自话需要有全局视野。15. 如何设计 Agent 的长期记忆Memory大模型在线服务如何实现高并发推理标准答案服务拆分将模型服务化Serving前端负责负载均衡后端负责推理。异步队列使用 Kafka 或 RabbitMQ 将请求排队配合 GPU 集群进行调度。缓存策略对于热点问题直接返回缓存的答案避开模型调用。短期记忆保存在 Prompt 中如最近的 5 轮对话。长期记忆存储在外部数据库如向量库中定期进行摘要压缩只保留关键事件。长期记忆设计高并发推理难点分析这里面试官考察的是系统设计能力。不是单纯的写几行代码而是要能描述清楚一个大规模服务是如何搭建的。16. 如果模型响应时间超过 3 秒有哪些优化手段标准答案硬件层面使用更高带宽的 HBM2e 显存。软件层面层级并行使用 ZeRO 优化器将模型参数切分到多个 GPU。动态推理根据输入长度动态裁剪 Transformer 层数Early Exit。混合模式关键任务走大模型普通问答走小模型。代码题无重复字符的最长子串采用滑动窗口哈希表的方式。核心思路维护一个窗口[left, right]记录每个字符最后出现的位置。如果右指针遇到重复字符将左指针移动到重复字符上一次出现位置的右侧。实现def length_of_longest_substring(s): char_index {} left max_len 0 for right, char in enumerate(s): if char in char_index and char_index[char] left: left char_index[char] 1 char_index[char] right max_len max(max_len, right - left 1) return max_len难点很多候选人会使用两层循环O(n^2)面试官更看重你是否掌握了线性时间 O(n)的解法。面试总结与复盘建议核心考点归纳全链路思维面试官关注的是你是否能从“数据采集 → 训练 → 推理 → 在线服务”完整闭环思考。系统设计能力特别是 Agent 的 Tool Selection、Memory 设计以及高并发推理都是考察你能否胜任大模型工程化落地。算法深度RLHF、Attention 优化、无重复字符的线性解法这些是必须掌握的硬核基础。如何打动面试官结合项目在回答时尽量引用你之前的项目经验如“我在某某项目中使用了 LoRA 微调”而不是空泛的背书。展现 Trade-off技术选型没有绝对的对错展示你能平衡性能、成本与风险的能力。关注安全适当提到 LLM 的安全防护如过滤敏感词、隐私保护这是现在大模型工程化的必备意识。祝你面试顺利这些知识点掌握好了不仅能过面试还能在工作中游刃有余学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】