上周调试一个老项目,客户要求把 TTS 从云端迁移到嵌入式板子上。我对着那套五年前的拼接式合成引擎,改了三天 prosody 预测模块,结果生成的“明天”两个字还是像机器人卡了痰。就在那一刻,我意识到——我们还在用乐高积木拼声音,而隔壁实验室的端到端模型已经能唱 RAP 了。从流水线到端到端:别再手动调韵律了传统 TTS 像条工厂流水线:文本分析 → 音素转换 → 声学特征预测 → 声码器合成。每个环节都得调参,韵律预测那块尤其折磨人。我见过有团队专门雇语音学家标注几千句话的停顿等级,就为了让“啊,这个嘛……”听起来自然点。端到端模型直接把文本扔进去,音频波形吐出来。中间那些手工设计的模块?全被神经网络自己学掉了。最早听到 Tacotron 2 生成的声音时,我们团队沉默了半分钟——没人相信那个带气声的“hello”是纯合成产物。但端到端在嵌入式端部署是个噩梦。模型动不动几百兆,实时率不达标。去年优化一个 VITS 变体,我不得不把流式推理拆成七段 pipeline,中间还加了缓存策略:# 别直接加载完整模型,内存会炸model=load_model_partial('tts_model.pth',