AI写作从“连续流动“中诞生,连续扩散终于能与离散扩散一较高下
这项由美国伊利诺伊大学厄巴纳-香槟分校UIUC研究团队完成的工作以预印本形式发布于2026年4月论文编号为arXiv:2604.11748感兴趣的读者可通过该编号在arXiv平台上查阅完整论文。在人工智能生成文字这件事上过去几年最热门的路线是扩散模型——这个名字听起来像是物理实验室里的概念但它其实是一种非常优雅的生成思路先把内容模糊化成一团噪音然后再一步步把噪音雕刻成清晰的文字或图片。这套方法在图片生成领域已经大放异彩Stable Diffusion、DALL-E等产品正是基于此。然而当研究者试图把同样的逻辑搬到文字生成上时却遭遇了一道令人头疼的墙。文字和图片有一个根本性的区别。图片中的每个像素可以是任意连续的颜色值而文字中的每个词或者说词元只能是词汇表里那几万个单词中的一个——要么是苹果要么是橙子绝对不存在介于两者之间的状态。这种离散性让连续流动的扩散思路在文字上碰壁了。于是研究者们分成了两个阵营。一个阵营选择直接在离散空间里做扩散把文字的跳变规律直接建模这一派被称为离散扩散代表性模型有MDLM、SEDD等另一个阵营坚持在连续空间操作试图把文字先映射到一个连续的数值空间叫做嵌入空间再在那里做扩散这一派被称为连续扩散或嵌入空间扩散。长久以来离散扩散一直领先而连续扩散虽然理论上更灵活却在实际效果上远远落后。这项来自伊利诺伊大学的研究提出了一个名为LangFlow的框架首次让连续扩散真正追上甚至在某些任务上超越了离散扩散的水平。研究团队把问题掰开揉碎找到了三个关键的设计失误并逐一修正最终让这只跛脚的鸭子重新健步如飞。一、嵌入空间扩散一个被低估的赛道要理解这项研究需要先搞清楚嵌入空间是什么。每个单词在模型内部都被表示为一串数字比如猫可能对应着一个768维的向量可以理解成768个坐标轴上各有一个数值。这串数字捕捉了这个词的语义意思相近的词它们的向量在空间中也彼此靠近。这套数字化的表示体系就是嵌入空间。嵌入空间扩散的思路是把一段文字的每个词都转成对应的数字向量然后在这个数字的世界里做扩散——往里加噪音再慢慢去噪最后把恢复出来的向量再转回文字。这个路线有几个天然的优势空间是连续的不像离散的词元那样跳跃可以借用图像生成领域积累的大量技巧也更容易在生成过程中进行干预和编辑。然而前人在这条路上走得磕磕绊绊。一方面训练目标设计得不够严谨要么是拍脑袋想出来的启发式规则要么设计得极其复杂——比如有一个名叫Plaid的模型需要把每个训练批次动态切片对不同部分优化不同的损失函数工程师做到绝望。另一方面更大的麻烦在于没有一个可靠的体检指标语言模型最常用的评估指标叫做困惑度PerplexityPPL数值越低说明模型对语言的理解越好但之前的连续扩散模型只能用一种叫做SDE随机微分方程的随机方法来估算困惑度这种估算既不精确也难以和离散扩散模型做横向比较。没有好用的体检仪器就很难知道哪里出了问题改进就无从下手。正是在这个背景下伊利诺伊大学的团队重新审视了嵌入空间扩散这条路试图从根子上解决这些问题。二、用流匹配和布雷格曼散度重建理论地基研究团队做的第一件事是给嵌入空间扩散建立一套更扎实的数学基础而关键的突破口来自把它和流匹配Flow Matching联系起来。流匹配是一种相对较新的生成建模思路核心想法是学习一个速度场——就像在地图上标注每个位置的风向和风速让粒子从随机噪音出发顺着这个风场流动最终抵达真实数据的分布。这个过程完全是确定性的像一条笔直的管道而不是随机游走的醉汉。研究团队发现嵌入空间扩散在数学上天然地和流匹配是同一回事——只是之前没人明确指出这一点。更进一步他们把模型的训练目标即交叉熵损失通俗地说就是预测正确词的对数概率和一个叫做布雷格曼散度的数学概念联系了起来。布雷格曼散度是一种衡量两个概率分布之间差异的工具交叉熵损失恰好是它的一个特例——选择一个特定的凸函数即负熵函数布雷格曼散度就自然地退化为交叉熵。这个联系意味着什么意味着用交叉熵来训练嵌入空间扩散模型并不是一个随便拍脑袋的选择而是有严格数学保证的最优选择在给定噪音状态的条件下模型的预测会收敛到对真实词分布的最佳后验估计。换句话说之前研究者们或多或少凭直觉用的训练方法这次被证明是理论上最正确的那一条路。这就好比一个厨师多年来凭经验调味结果一位营养学家告诉他你的调味比例恰好符合最优健康配方的数学最优解。有了这个理论基础研究团队还顺水推舟地推导出了一个重要的新工具基于ODE常微分方程的负对数似然上界。这个工具专门用来估算连续扩散模型的困惑度而且用的是确定性的ODE路径而非随机的SDE路径。这意味着每次用同样的模型和同样的测试数据得到的困惑度估计都是一样的、可复现的而不像之前的SDE方法那样每次算出来都略有不同。有了这把精准的测量尺研究者终于能清晰地看到模型训练到底好不好也能和离散扩散模型公平地比较了。三、噪音安排的学问为什么语言不能套用图片的方案理论地基打好了研究团队开始审视第一个关键的工程设计噪音调度noise schedule。扩散模型的工作方式是把数据从干净逐渐变成嘈杂再在生成时反过来从噪音慢慢恢复干净。这个过程中一个重要的问题是噪音是如何一步步被加进去的加得快还是慢在哪个阶段加得多、哪个阶段加得少这套安排就叫噪音调度。在图像生成领域最流行的噪音调度方案比如Stable Diffusion 3采用的是均匀地在时间步上分配噪音。研究团队一开始也照搬了这个做法但他们画出了一张图揭示了一个令人震惊的现象。他们把模型在不同噪音水平下预测文字的损失值画成曲线。结果发现当时间步t处于0.2到1.0这个区间时——也就是噪音相对较小的那大半段时间——模型的损失几乎是零。这意味着什么意味着在这段时间里模型已经能轻而易举地猜出正确的词完全不需要花力气学习。然而均匀的时间分配却把超过一半的训练时间浪费在了这个没有挑战的区域。这就像一个音乐学生练钢琴老师设计了一个训练计划让他花60%的时间练那些已经烂熟于心的简单音阶只有不到20%的时间练真正困难的高难度片段。这个计划显然非常低效。问题的根源在于文字数据的性质和图片根本不同。图片中的像素可以取连续的值即使加了不少噪音还是很难猜到原始颜色。但文字的目的地是离散的词元——词汇表中的那几万个词是有限的孤岛即使在相当嘈杂的状态下模型也常常能根据语义线索猜出正确答案。为了解决这个问题研究团队引入了两个改进。第一个改进是更换时间编码方式从普通的时间步t切换到对数噪信比γgamma。γ定义为噪音方差与信号方差之比取对数它的巧妙之处在于当噪信比在高噪音端呈指数级变化时γ只是线性地移动相当于把原本压缩在一起的困难区域展开拉长让模型和训练计划都能更精细地关注那些真正有挑战的噪音水平。第二个改进更有趣研究团队提出了信息均匀原则。他们的出发点是这样的扩散过程本质上是一个逐渐消除不确定性的过程——从完全随机的噪音什么词都不知道到完全确定的词序列每一步都在获取信息。如果把每个噪音水平下模型的不确定程度用信息熵来度量画出来就会得到一条随噪音减少而下降的曲线。这条曲线的斜率就代表了在这个噪音水平上每改变一点噪音能获得多少新信息。信息均匀原则的意思是让每一步采样无论是训练还是生成获得的信息量尽可能相等。直觉上这就像爬山时应该把步子迈在最陡的地方——在信息增益最集中的区域多花力气在平坦区域快速通过。那么语言数据的信息增益集中在哪里呢研究团队通过大量实验发现γ值的信息导数呈现出一个正偏态的分布而且形状与统计学中的冈贝尔分布Gumbel distribution高度吻合。冈贝尔分布是一种用于描述极值事件的概率分布在这里它意外地成为了语言数据信息结构的最佳描述。更聪明的是研究团队没有把这个分布的参数固定下来而是让模型在训练过程中自己学习这些参数。因为随着训练的进行模型本身也在进步它在不同噪音水平下的困难程度会随之改变噪音调度也应该跟着调整。这套自适应的冈贝尔噪音调度器把LangFlow的生成困惑度从约1000的灾难级别直接降到了154.2效果可谓立竿见影。四、自我条件化一个被误解的技巧第二个关键设计问题是自我条件化self-conditioning。自我条件化是扩散模型中一个流行的小技巧原理很简单在每一步去噪时模型不仅看当前的噪音状态还把上一步自己的预测结果也喂给自己作为参考。这就像一个侦探不仅看当前的案发现场还把自己之前整理的案情笔记放在旁边对照参考帮助做出更准确的判断。在离散扩散模型比如MDLM的研究中自我条件化是个有些奇怪的存在它确实能提升生成质量即生成困惑度 Gen.PPL 有所改善但同时会让模型对测试数据的拟合能力略有下降即PPL略有升高。正因为这个两面性离散扩散的研究者们评估PPL时通常会关掉自我条件化以免影响公平性。然而研究团队发现这个惯例被不加思索地沿用到了连续扩散模型的评估中而这是一个严重的错误。他们做了一组对比实验结果非常能说明问题。在没有自我条件化的情况下LangFlow的PPL是49.0Gen.PPL是154.2。开启自我条件化后PPL直接降到30.0Gen.PPL降到81.5。换句话说自我条件化对连续扩散的PPL改善幅度高达19个点而对离散扩散MDLMPPL反而微微上升了1.7。这个不对称性揭示了一个深刻的差异在离散扩散中自我条件化给模型提供了过多的捷径让它过于依赖之前的预测导致对测试数据的真实概率估计变差而在连续扩散中自我条件化帮助模型在连续的嵌入空间中更好地校准方向既提升了生成质量也提升了概率估计的准确性。研究者用一个有趣的实验进一步揭示了这个现象的机理。他们跟踪了模型在不同噪音水平下对某个目标词run的预测概率变化。在没有自我条件化的情况下随着噪音增大模型的预测会逐渐从正确的run漂移到语义相关的go再到高频的功能词is、and、the——也就是说模型在高噪音下会被高频词磁场所吸引忘记了语义上的正确答案。自我条件化的介入帮助模型在这个漂移过程中保持了更多的语义记忆避免了这种语义遗忘现象。这个发现的实践意义是如果你要公平地评估连续扩散语言模型必须在自我条件化开启的状态下进行否则你看到的只是一个被人为削弱了的版本。五、最终成绩单连续扩散第一次真正进入竞争把所有这些改进整合在一起LangFlow在标准语言模型基准测试上交出了一份让人眼前一亮的成绩单。在LM1B数据集一个包含十亿词的英文新闻语料库上LangFlow的PPL达到30.0跻身离散扩散模型中最好的水平MDLM为31.0同时Gen.PPL为92.2在同类连续扩散方法中排名第二。在OpenWebText一个大规模网络文本数据集文本多样性更高上LangFlow的PPL达到24.6Gen.PPL仅为36.5这个Gen.PPL成绩在所有扩散模型中排名第一甚至比之前最好的连续扩散方法Duo低了整整41个点。更有说服力的是零样本迁移测试。所谓零样本迁移就是把在OpenWebText上训练好的模型直接搬到完全没见过的七个不同类型的测试数据集上评估包括新闻、学术论文、百科全书、对话等。LangFlow在这七个基准中的四个上超越了经典的自回归Transformer即逐词生成的传统语言模型同时在三个基准上超越了离散扩散领域的顶尖模型MDLM。自回归Transformer向来是语言模型领域的默认优胜者连续扩散能在多个任务上打赢它这在历史上是第一次。研究团队还专门对比了另一个连续扩散基线模型Plaid并发现了一个重要的技术警示。Plaid使用均方误差MSE即直接最小化预测嵌入向量和真实嵌入向量的距离作为主要训练目标而非交叉熵。研究团队通过可视化词嵌入的最近邻距离发现Plaid的词嵌入发生了严重的坍缩现象——不同词的向量在空间中挤在一起彼此几乎无法区分Plaid的平均最近邻距离仅为0.058而AR模型是1.211MDLM是1.124LangFlow是0.877。这种坍缩现象会严重限制模型的表达能力解释了为什么Plaid在LM1B上表现尚可但在更大规模的零样本迁移任务上远远落后。在采样效率方面研究团队也做了不同步骤数下的测试。LangFlow在128步时Gen.PPL为92.24在64步时上升到104.8332步时127.3216步时179.60。随着步骤减少性能确实有所下降但这是在没有任何专门的少步训练优化即蒸馏的情况下直接减步的结果说明LangFlow本身已经具备了较好的采样鲁棒性未来通过专门的少步加速训练有望进一步改善。说到底LangFlow这项工作的意义不只是刷新了一个数字。它做了一件更根本的事给嵌入空间连续扩散语言模型重新建立了一套清晰的理论框架和工程规范。过去连续扩散语言模型的研究者们各自为战用着不同的训练目标、不同的评估方式、不同的噪音调度结果难以比较进展也难以积累。LangFlow相当于为这个领域立了一套统一的行业标准用基于布雷格曼散度的交叉熵训练、用ODE路径估算PPL、用冈贝尔分布做噪音调度、开启自我条件化做评估。有了这套标准后来的研究者可以站在更高的起点上继续探索。连续扩散语言模型还有很多可以挖掘的空间——比如它天然支持的轨迹编辑在生成过程中修改中间状态实现可控生成、与流匹配蒸馏技术结合后可能实现的极速生成以及嵌入空间本身带来的更丰富的语义干预能力。这些方向离散扩散由于其离散性质天然地很难实现而连续扩散在LangFlow打好地基之后终于可以认真地去探索这些独有的优势了。研究团队也坦诚地指出了目前的局限LangFlow生成文本的多样性用信息熵衡量略低于一些离散扩散基线说明模型在生成时有一定程度的频率偏向倾向于重复使用某些内容词。有趣的是这种重复不是那种让人读起来很别扭的局部重复同一句话里连续出现而是一个词在整段文本中出现了十来次但分散在各处——从阅读体验来看并没有明显的质量下降。不过这种频率偏向在更大规模的实验中可能会产生更明显的影响这是留给未来研究的一个开放问题。归根结底这项研究想证明的是连续扩散和离散扩散并不是非此即彼的对手关系而是可以并肩作战的两种工具。离散扩散有其简洁和精准连续扩散有其灵活和可塑。LangFlow首次让连续扩散站在了同一条起跑线上接下来这场竞赛才真正开始。---QAQ1LangFlow和现在常见的ChatGPT这类语言模型有什么区别AChatGPT属于自回归语言模型生成文字时是逐词从左到右顺序生成的就像一笔一划写字。LangFlow属于扩散模型是从一团噪音出发同时对整段文字反复雕刻直到得到清晰结果生成过程是并行的、可双向修改的。自回归模型目前在效果上仍有优势但扩散模型在可控性和编辑灵活性上有独特潜力。Q2LangFlow中提到的困惑度PPL到底是什么数值越低越好吗A困惑度是衡量语言模型有多懂语言的一个指标直觉上可以理解为如果让模型猜一句话里下一个词是什么它平均要从多少个候选词里才能猜对——这个数越小说明模型越确定、越准确。所以困惑度数值越低越好。LangFlow在LM1B数据集上达到了30.0和最好的离散扩散模型持平。Q3LangFlow中的冈贝尔分布噪音调度是什么意思为什么选它A冈贝尔分布是一种统计学上常用于描述极端值分布的概率分布形状是正偏态的即右边有长尾。研究团队发现语言数据在不同噪音水平下信息增益的分布曲线恰好和冈贝尔分布吻合——大部分有价值的信息集中在一个特定的噪音区间这个区间左边平坦、右边迅速衰减。用冈贝尔分布来安排训练时的噪音采样就能让模型把更多注意力放在真正困难且有价值的噪音水平上避免浪费训练资源。