SFT LoRA 微调时训练 embed_tokens + lm_head 对速度的影响 embedding 对 ChatGLM / Qwen / Baichuan 对生成质量影响巨大

张

张建站

2026/5/11 6:08:09

10分钟阅读

SFT LoRA 微调时训练 embed_tokens + lm_head 对速度的影响 embedding 对 ChatGLM / Qwen / Baichuan 对生成质量影响巨大

SFT LoRA 微调时训练 embed_tokens lm_head 对速度的影响结论会影响速度会变慢但幅度通常可控不是断崖式下跌我给你用最直白、最落地的方式讲清楚为什么变慢、慢多少、怎么影响、要不要开。1. 先搞清楚这两个层是什么LoRA 原本只训练transformer 块里的 Q/K/V/O 投影层不碰模型头尾embed_tokens词嵌入层把 token ID 转成向量lm_head语言模型头把向量转回 token 概率和 embedding 层权重通常共享这两个层不在 LoRA 默认训练范围里属于全量参数训练不是 LoRA 小矩阵。2. 为什么会变慢核心原因开启additional_target: embed_tokens,lm_head后① 参与训练的参数量突然变多LoRA 通常只训练0.1%~1%参数加上这两层后训练参数会变成LoRA 参数词表大小 × 隐藏层维度几十万~几亿参数比如 7B 模型vocab_size 32000hidden_size 4096embed_tokens lm_head ≈2.5 亿参数比 LoRA 本身大几十~几百倍。② 计算量显存占用上升前向传播多算 embedding lm_head反向传播全量梯度回传不是 LoRA 低秩优化器状态AdamW也要存这两层的参数 →显存变高显存紧张 → batch size 被迫减小 →速度进一步下降3. 实际速度下降多少真实场景我给你一个工业界实测区间7B/13B 模型单卡/多卡 Lora 训练只训练 LoRA默认速度100%显存低LoRA embed_tokens lm_head速度通常下降15% ~ 40%显存上升20%~60%影响大小取决于词表大小越大越慢显卡显存大小显存越小越容易爆越慢batch size / sequence length典型表现原本每秒 3-5 iter → 变成 2-3.5 iter4. 为什么大家还是会打开它非常重要虽然变慢但必须打开的场景✅ 你新增了词表 / 中文词表扩充embed_tokens 维度变了不训练就完全不生效✅ 你做领域微调医学/法律/代码lm_head 是输出层不训练会导致生成效果差✅ 你用的是 ChatGLM / Qwen / Baichuan 这类中文模型这些模型 embedding 和 lm_head 对生成质量影响巨大5. 能不能只开一个可以而且推荐这样做能提速很多方案 A最常用、速度最快additional_target: lm_head只训练输出层不训练 embedding速度下降15%效果几乎一样方案 B必须扩充词表才用additional_target: embed_tokens,lm_head6. 如何减少速度影响实用优化如果你必须训练这两层可以这样提速不要用太高的学习率这两层收敛很快LoRA rank 不要太大8/16 足够使用bf16 / fp16使用gradient checkpointing不要开太高 batch size最终总结最关键训练 embed_tokens lm_head 一定会变慢幅度 15%~40%慢的原因是参数量暴增、显存变高大多数场景只需要训练 lm_head 就够了速度影响很小只有扩充词表时才需要同时开两个需要我帮你根据你的模型7B/13B/34B 显卡4090/A10/A100给出最优配置吗我可以直接给你能复制的 LoRA 最佳参数。

2026廊坊硅酸铝柔性包裹，防火专业厂家这样选

最近在跑几个建筑机电工程，跟不少项目经理、施工队负责人聊了聊，发现大家不约而同遇到了同一个坎儿——管道防火验收。尤其是湿式报警阀间、排烟管道这些“硬骨头”，防火包裹的材质、阻燃等级、贴合度，直接决定了消防验收能不能一…...

2026/5/11 5:56:31 阅读更多 →

基于Vagrant的Claude本地部署：自动化AI开发环境搭建指南

1. 项目概述：一个让Claude在本地“安家”的Vagrant包装器如果你和我一样，是个喜欢在本地环境折腾各种AI工具的开发人员，那你肯定对Claude这个强大的语言模型不陌生。但官方提供的使用方式往往受限于网络环境、API调用成本或者隐私顾虑&…...

2026/5/11 5:48:10 阅读更多 →

IAR嵌入式开发踩坑记：从C切换到C++遇到的三个‘诡异’报错及解决

IAR嵌入式开发踩坑记：从C切换到C遇到的三个‘诡异’报错及解决当嵌入式开发者决定从C语言迁移到C时，往往期待能获得面向对象编程、模板和标准库等现代语言特性带来的便利。然而在实际操作中，特别是在IAR Embedded Workbench这样的专业嵌入式…...

2026/5/11 5:46:07 阅读更多 →

【阳师范学院主办，多高校承协办 | IET出版，往届连续4届EI稳定检索，平均刊后2个月EI检索，EI检索稳定 | 择优至EI期刊】第五届电力工程与电气技术学术会议（ICPEET 2026）

ICPEET 2026 已申请IET (CA) EAI (JA) 出版会议论文（CA）： 会议已申请IET Conference Proceedings (ISSN: 2732-4494) 出版，收录于IET数字图书馆，并提交EI Compendex、Scopus、IEEE Xplore等数据库进行检索。期刊论文…...

2026/5/10 0:00:32 阅读更多 →