音频生成技术的范式迁移与美团的破局之举音频生成技术正从传统级联架构向端到端生成范式演进。长期以来主流做法是先将音频压缩成中间表征再依赖神经声码器转换回波形这会导致信息损失与误差累积丢失细腻音色与个性化细节。那么能不能让 AI 直接学会声音本身的规律跳过中间环节呢为破解这一技术瓶颈美团 LongCat 团队正式发布 LongCat - AudioDiT。该模型抛弃梅尔谱等中间表示直接在波形潜空间进行基于扩散模型的文本转语音从根源阻断数据转换的级联误差。此外还做了两个关键改进一是识别并纠正了“训练 - 推理不匹配”问题二是用自适应投影引导APG取代传统的无分类器引导CFG大幅提升了最终的语音生成质量。结果显示LongCat - AudioDiT 在 Seed 基准测试中取得当前最优SOTA的零样本语音克隆性能同时保持了具有竞争力的可懂度。其中 LongCat - AudioDiT - 3.5B 模型在 Seed - ZH 测试集的说话人相似度SIM指标提升至 0.818Seed - Hard 测试集达到 0.797超过了 Seed - TTS、CosyVoice3.5、MiniMax - Speech 等知名模型验证了波形空间直接生成范式的有效性。LongCat - AudioDiT 的核心技术创新拆解波形潜在空间直接生成架构规避中间表征的信息衰减瓶颈业界主流 TTS 系统长期受困于“多阶段”复杂流程“预测 翻译”范式会累积误差导致合成声音丢失高保真、个性化细节。为此美团构建了全新的 LongCat - AudioDiT 架构只用一个波形变分自编码器Wav - VAE和一个扩散 TransformerDiT在波形隐空间里完成声音的压缩、建模与重建。Wav - VAE为波形量身定制的压缩器Wav - VAE 作为全卷积音频自编码器将原始波形压缩为紧凑的连续隐向量其设计有多项关键创新高效的下采样与多尺度建模编码器通过多级 Oobleck 块实现层级下采样能捕获从局部到全局的时序依赖将 24kHz 的波形压缩到约 11.7Hz 的帧率压缩比超过 2000 倍非参数捷径稳定训练每个编码器/解码器块引入非参数捷径分支提升收敛稳定性对抗式多目标训练优化目标融合多种损失确保重建波形既保持精确的时频结构又具备自然听感。扩散 Transformer在隐空间中学习从文本到声音的映射有了高质量的隐空间DiT 模型在这个空间里学习条件流匹配CFM。文本编码方面选择支持 107 种语言的 UMT5 作为文本编码器创新性地将原始词嵌入第一层与最后一层隐藏状态相加经过 LayerNorm 平衡 scale 后送入后续模块提升了生成语音的可懂度。还引入轻量的 ConvNeXt V2 序列模块对文本表征进行细化处理加速文本 - 语音对齐的收敛。DiT 的骨干网络基于 Transformer并集成了多项结构优化如全局自适应层归一化Global AdaLN、QK - Norm RoPE、长跳跃连接、表征对齐REPA等。推理机制的双重关键突破从精准对齐到生成净化如果说波形潜在空间架构解决了声学建模的“空间选择”问题那么对推理过程的两项关键改进则从根本上优化了生成过程的“路径精度”与“质量纯度”。修复流匹配 TTS 的「训练 - 推理」不匹配问题首次发现并解决了流匹配 TTS 中长期存在的训练 - 推理不匹配问题。在标准 CFM 训练框架中音频提示区域在推理阶段会偏离训练时的约束条件导致生成语音的说话人音色漂移与稳定性下降。为此提出双重约束机制提示区域隐变量强制重置确保提示区域的演化轨迹与训练分布完全对齐无条件预测净化避免信息泄漏。自适应投影引导APG缓解 CFG「过饱和」问题传统的扩散模型使用无分类器引导CFG会导致频谱“过饱和”音质劣化。自适应投影引导APG将引导信号分解为平行与正交两个分量保留正交分量抑制平行分量在提升自然度的同时避免音质损失。两项推理优化协同作用在保持高说话人相似度的同时显著提升了生成语音的自然度与声学质量。核心洞察VAE 重建越好TTS 生成反而越差在 Wav - VAE 的实验中发现 VAE 重建质量越好并不等于语音生成效果越好。单纯追求高重建分数会导致潜空间维度膨胀使下游的扩散模型难以学习导致综合表现下降。通过系统性对比确定了最优配置64 维潜在维度 11.7Hz 帧率实现了重建保真度与生成质量的最佳平衡。模型性能定义「零样本」下的声音复刻极限在 Seed 基准上测试了 LongCat - AudioDiT 的表现并与业界知名模型对比。结果表明LongCat - AudioDiT 在说话人相似度SIM方面取得了 SOTA 的表现同时具有极具竞争力的可懂度。说话人相似度SIM中文测试集Seed - ZH中LongCat - AudioDiT - 3.5B 取得了 0.818 的相似度分数大于之前 SOTA Seed - DiT 的分数 0.809中文难句测试集Seed - Hard中LongCat - AudioDiT - 3.5B 取得了 0.797 的 SOTA 分数。文本准确率WER/CER中文 CER 方面LongCat - AudioDiT - 1.1B 为 1.18%LongCat - AudioDiT - 3.5B 为 1.09%在 NAR非自回归模型中表现出色英文 WER 方面两个版本分别为 1.78% 和 1.50%其中 LongCat - AudioDiT - 3.5B 的 1.50% 达到所有参评模型中的第二最低的错误率中文难句 CER 方面LongCat - AudioDiT - 3.5B 取得了 6.04% 的成绩相比于同样基于扩散模型的 F5 TTS8.67%错误率大幅降低。模型在准确率指标上保持了第一梯队的水平没有为了追求相似度而牺牲可懂度。值得一提的是LongCat - AudioDiT 仅通过 ASR 转写的预训练数据和单阶段预训练就取得了比多阶段训练的模型更好的表现。开源开放与未来展望LongCat - AudioDiT 以极简的架构、纯粹的波形潜空间建模证明了绕开中间表征的扩散 TTS 路线不仅能走通更能达到业界最佳水平。今天将 LongCat - AudioDiT 模型1B / 3.5B全部开源期待与社区同仁共同推动语音生成技术的边界也期待这套技术能帮助更多开发者和研究者构建出更自然、更富表现力的语音交互体验。