当扩散语言模型遇上几何代数:一场关于空间与秩序的联姻
想象你手里有两套完全不同的乐高。一套是扩散语言模型——它像是一位印象派画家,先从一整张模糊的灰布开始,然后一遍一遍地细化,最后变出一幅清晰的画。LLaDA、SEDD、Dream-7B,这些名字背后的核心思想都一样:文本不是从左到右写出来的,而是从一个全是[MASK]的混沌状态,逐渐显影出来的。这个范式的美妙之处在于全局性:每个token在每一步都能看见所有其他token,不受因果掩码的束缚。但代价也很明显——迭代采样慢,而且当词汇表很大时(比如几万甚至几十万),纯连续扩散在离散空间上总是磕磕绊绊,像用油画技法画工笔画,总有些不得劲。另一套是几何代数(Geometric Algebra, GA),或者叫克利福德代数。它不是普通的向量运算,而是一种能把标量、向量、平面、高维体统一起来的几何编程语言。在GA里,一个多向量(multivector)可以同时携带一个点(向量)、一个旋转(双向量/rotor)、一个体积标量。最关键的是,旋转和反射这些几何操作可以被压缩成极少的参数——GCANs的实验证明,用GA做姿态估计,参数量能减少17%,但精度反而提升。为什么?因为GA把物理上合理的变换直接 baked-in 到了网络的数学结构里,模型不需要从零学习什么是旋转,它只需要学习用哪个rotor,转多少度。现在问题来了:这两套乐高,能不能拼在一起?一、为什么这个联姻值得认真考虑?扩散语言模型目前面临几个深层困境:困境1:离散与连续的时空错位(Temporal Dissonance)CANDI这篇论文讲得透彻:当你把高斯噪声直接加到one-hot离散token上时,会出现一个尴尬的现象——在噪声水平还