第五章规模法则——Scaling Laws之玄机规模法则定乾坤三要素间有玄门。【本章导读】武学修炼讲究循序渐进。但如何确定修炼的投入与产出规模法则揭示了其中的奥秘——模型性能与参数量、数据量、计算量之间存在幂律关系。一、规模法则的发现【历史背景】2020年OpenAI发表论文《Scaling Laws for Neural Language Models》发现了惊人的规律模型性能与参数量、数据量、计算量之间存在幂律关系。这意味着只要持续增加投入性能就会可预测地提升。【规模法则的核心发现】性能 ∝ 参数量^α × 数据量^β × 计算量^γ二、三大要素的平衡【三要素】大模型修炼的三大要素要素符号单位影响参数量N个模型容量数据量DTokens训练素材计算量CFLOPs修炼时间【关键洞察】参数量影响最大增加参数带来的收益最显著数据量次之数据不足会限制参数发挥计算量是约束总计算量决定了N和D的上限三、Chinchilla最优修炼效率之极【问题提出】给定固定的计算预算如何分配参数量和数据量使性能最优【Chinchilla论文】2022年DeepMind发表《Training Compute-Optimal Large Language Models》提出了Chinchilla最优最优参数量 N_opt ∝ C^0.5 最优数据量 D_opt ∝ C^0.5【关键结论】参数量和数据量应该同步增长计算量最优参数量最优数据量10^20 FLOPs400M8B tokens10^21 FLOPs1.3B26B tokens10^22 FLOPs4B84B tokens10^23 FLOPs13B267B tokens10^24 FLOPs41B845B tokens【对GPT-3的反思】GPT-3的配置参数量175B训练数据300B tokens根据Chinchilla最优175B参数应该配最优数据量约3.7万亿 tokensGPT-3严重训练不足【Chinchilla模型】DeepMind训练了Chinchilla模型参数量70B比GPT-3小训练数据1.4万亿 tokens比GPT-3多性能超越GPT-3【启示】与其追求更大的模型不如用更多的数据训练更小的模型。四、涌现能力量变到质变【涌现心法】规模法则揭示了性能的渐进提升但更神奇的是涌现能力——当规模突破临界点模型突然展现出全新的能力。【涌现现象】性能 │ │ ┌─────────── │ / │ / │ / │ / │ / │──────────────┴───────────────── 规模 临界点【涌现能力举例】能力涌现阈值描述上下文学习~10B从少量示例中学习新任务思维链推理~10B分步骤解决复杂问题指令遵循~10B理解并执行复杂指令代码生成~10B编写可运行的程序数学推理~100B解决复杂数学问题五、打破Chinchilla新趋势【Llama 3的突破】Meta在训练Llama 3时采用了超越Chinchilla最优的策略模型参数量训练数据Chinchilla最优数据Llama 3 8B8B15T tokens~200B tokensLlama 3 70B70B15T tokens~1.5T tokensLlama 3的训练数据远超Chinchilla最优【原因分析】推理效率小模型推理更快、成本更低持续训练数据可以持续增加参数难以改变能力涌现更多数据可能带来新能力【新趋势】过训练Over-training用远超最优的数据量训练模型以获得更好的推理效率。六、计算量估算【FLOPs计算】训练一个模型需要的计算量C ≈ 6 × N × D 其中: - C: 计算量FLOPs - N: 参数量 - D: 训练数据量tokens【实例计算】以GPT-3为例参数量 N 175B 1.75 × 10^11数据量 D 300B 3 × 10^11计算量 C 6 × 1.75 × 10^11 × 3 × 10^11 3.15 × 10^23 FLOPs【GPU训练时间】以A100 GPU为例理论算力312 TFLOPS 3.12 × 10^14 FLOPs/s实际利用率约40%有效算力1.25 × 10^14 FLOPs/s训练GPT-3所需时间时间 C / 有效算力 3.15 × 10^23 / 1.25 × 10^14 2.52 × 10^9 秒 ≈ 80 年单卡 ≈ 29 天1000卡【主流模型训练成本】模型参数量数据量计算量GPU数量训练时间GPT-3175B300B3.15×10^2310000 A100~1个月LLaMA-65B65B1.4T5.5×10^232048 A100~21天GPT-4~1.8T~13T~1.4×10^26~25000 A100~3个月DeepSeek-V3671B14.8T~6×10^242048 H800~2个月七、规模法则的局限【局限一数据瓶颈】高质量数据是有限的互联网高质量文本估计约300万亿tokens但真正高质量的只有数十万亿【局限二计算瓶颈】训练成本极高GPT-4训练成本估计超过1亿美元能源消耗巨大【局限三架构瓶颈】单纯增加规模可能遇到瓶颈长序列处理困难推理成本过高【突破方向】混合专家模型MoE如DeepSeek激活部分参数高效架构如线性注意力、状态空间模型数据质量提升用更少数据达到更好效果八、本章心法总结【口诀】规模法则定乾坤三要素间有玄门。Chinchilla最优解参数数据同步增。涌现能力临界点量变质变悟真经。【要点回顾】要点说明幂律关系性能与N、D、C呈幂律关系Chinchilla最优参数和数据应同步增长涌现能力规模突破临界点后出现新能力新趋势过训练用更多数据训练更小模型计算估算C ≈ 6ND【下一章预告】了解了规模法则后下一章我们将进入预训练实战学习分布式训练、混合精度、梯度累积等具体技术。