1. 分子三维结构生成从二维蓝图到三维世界的跨越在药物研发和材料科学的实验室里我们常常面对一个核心矛盾分子的三维结构决定了它的性质与功能但获取这个三维结构却异常昂贵和缓慢。传统的量子化学计算方法如密度泛函理论DFT虽然精度高但计算一个中等大小分子的稳定构象可能需要数小时甚至数天这严重制约了高通量虚拟筛选和理性设计的步伐。这就好比你有一张精确的房屋二维平面图2D分子图但要了解这栋房子的真实居住体验——采光、通风、空间感即分子的生物活性、反应性、溶解度等你必须走进它的三维实体3D分子构象中去感受。分子构象生成与3D分子生成技术正是为了解决这一瓶颈而生的。它们的目标是让计算机学会从分子的“身份证照片”二维拓扑图推理出其可能的“立体全身照”三维空间坐标甚至无中生有地设计出全新的、具有特定功能的“建筑蓝图”3D分子。这不仅仅是坐标的预测更是对分子在真实物理世界中能量分布和运动规律的学习与模拟。我从事计算化学工具开发多年亲眼见证了这项技术从早期的简单距离预测发展到如今能够处理复杂对称性和化学约束的生成式模型。它的价值在于将原本属于量子力学的“计算特权”部分地下放给了基于数据驱动的机器学习模型使得在几分钟内生成成千上万个候选分子的可信3D结构成为可能从而极大地加速了从靶点发现到先导化合物优化的全流程。2. 核心原理与挑战对称性、能量与化学规则的共舞要理解这些方法为何有效以及为何困难我们需要深入三个核心概念SE(3)对称性、玻尔兹曼分布与化学几何约束。这构成了所有3D分子生成任务的底层物理与数学框架。2.1 SE(3)对称性为何旋转平移不应改变分子的“身份”这是3D分子生成中最基础也最关键的约束。SE(3)群描述了三维空间中的刚体运动包括旋转R和平移t。对于一个分子无论我们如何整体旋转或移动它只要原子间的相对位置不变它的化学性质就是完全相同的。这意味着一个理想的生成模型对于同一个分子的不同空间朝向应该给出相同的概率评估。用数学语言描述即生成分布p(C|G)需要满足p(C|G) p(R*C t|G)其中C是坐标矩阵。在实际建模中处理这种对称性主要有两种策略。第一种是不变性Invariant建模模型不直接处理坐标而是处理旋转平移不变的量如原子间距离、角度、二面角。这样无论输入如何旋转这些标量特征都不变模型天然满足对称性。第二种是等变性Equivariant建模模型直接处理坐标向量这类几何张量但其网络层的设计保证当输入坐标发生旋转平移时其内部特征的变换与输入保持一致。例如一个等变层输入一个原子坐标向量三维经过变换后输出的更新向量会随着输入的旋转而同步旋转。最终通过将系统的质心固定为零零质心化可以消除平移自由度再结合等变网络或特殊的先验分布如零质心高斯分布来实现整体的SE(3)不变生成分布。2.2 玻尔兹曼分布与能量景观稳定构象从何而来分子在特定环境如真空、溶剂中并非静止其原子在不断运动构象也在持续变化。但不同构象出现的概率并非均等。根据统计力学分子构象服从玻尔兹曼分布能量越低的构象出现的概率越高。分子的势能面PES就像一片多山多谷的地形能量最低点对应最稳定的基态构象而能量较低的谷地则对应一系列低能、稳定的构象。生成模型的核心任务之一就是学习并复现这个由分子拓扑G所决定的构象概率分布p(C|G)。生成式模型如扩散模型、流模型通过训练去噪过程或可逆变换来逼近这个复杂分布而预测式模型则通常瞄准那个概率最高的点——即能量最低的基态构象C_eq。能否准确捕捉能量景观的细微特征直接决定了生成构象的物理合理性和多样性。2.3 化学几何约束从数学合理到化学有效即使模型生成了数学上有效的3D坐标即原子不重叠距离矩阵是有效的欧几里得距离矩阵它也可能违反基本的化学规则导致结构在化学上无效。这是另一个重大挑战主要包括局部结构约束例如苯环等芳香环体系中的所有原子必须共面肽键的酰胺平面具有特定的二面角限制小环如三元环、四元环由于角张力是非平面的。模型需要“理解”这些化学知识并在生成过程中强制执行。对称原子区分由于图神经网络GNN天然的置换不变性对称的原子节点如苯环上六个碳原子可能获得完全相同的特征表示。如果直接解码为坐标可能导致这些原子位置重叠产生无效几何。模型必须有能力区分这些拓扑对称但空间位置应不同的原子。手性许多生物活性分子具有手性中心其两种对映异构体镜像关系具有完全不同的生物活性。一个理想的生成模型应当能够区分并生成特定的手性分子而不是对反射变换也保持不变的E(3)不变模型E(3)包含反射SE(3)不包含。注意在实际项目中我们常常发现一个在距离预测上误差很小的模型生成的坐标经过简单的距离几何还原后可能会因为累积的数值误差或违反三角不等式导致无法重构出有效的3D结构。因此许多先进方法会直接在坐标空间进行生成和优化或引入后处理的几何优化步骤。3. 技术路线全景生成式与预测式方法详解根据任务目标的不同现有方法主要分为两大流派生成式方法旨在学习整个低能构象的分布一次生成多个可能结构预测式方法则专注于预测那个最稳定的单一基态构象。下表概括了代表性方法的核心特征表代表性3D分子构象生成方法对比方法3D输出核心架构分布对称性核心思想ConfVAE原子间距离变分自编码器 (VAE)E(3)-不变在距离空间进行变分推断生成距离矩阵后还原坐标。ConfGF原子坐标分数匹配 (Score Matching)E(3)-不变直接对坐标的概率密度梯度分数建模通过朗之万动力学采样生成坐标。GeoDiff原子坐标扩散概率模型 (Diffusion)E(3)-不变在坐标空间定义扩散加噪和去噪过程使用E(3)等变网络进行去噪。Torsional Diffusion二面角 (Torsions)扩散概率模型SE(3)-不变仅对可旋转键的二面角进行扩散/去噪固定键长、键角通常来自RDKit极大简化问题。GeoMol原子坐标消息传递神经网络 (MPNN)SE(3)-不变预测式方法。预测局部结构键长、键角、二面角并组装通过匹配损失解决对称原子问题。EMPNN原子坐标等变消息传递神经网络-预测式方法。利用节点索引打破对称性直接回归基态构象的坐标。3.1 生成式方法学习构象的多样性生成式方法将构象生成视为一个条件生成建模问题即学习p(C|G)。近年来扩散模型在此领域取得了显著成功。扩散模型如GeoDiff的工作流程非常直观它模拟了一个“去噪”的创造过程前向扩散过程对于一个真实的分子构象坐标C_0逐步添加高斯噪声经过T步后得到几乎纯噪声的C_T。这个过程是固定的目的是破坏数据。反向去噪过程训练一个神经网络通常是E(3)等变网络来学习这个扩散过程的逆过程。给定第t步的带噪坐标C_t和分子图G网络预测出所添加的噪声ε或者直接预测出C_0。采样生成从纯噪声C_T开始利用训练好的网络一步步进行去噪最终得到一个新的、来自分布p(C|G)的构象样本C_0。GeoDiff的创新在于它通过将分子质心始终置于原点并采用一种特殊的“零质心高斯分布”作为噪声先验巧妙地保证了生成分布的SE(3)不变性。它的优势在于能生成多样化的、能量合理的构象。然而一个常见的陷阱是它可能生成化学上无效的局部结构比如扭曲的苯环。扭转扩散Torsional Diffusion则采用了另一种巧妙的策略。它认识到分子的高维构象空间变化主要来源于单键的旋转即二面角的变化。因此它固定分子的键长和键角这些信息可以从化学知识库如RDKit中获得或由一个小型网络预测只对可旋转键的二面角应用扩散模型。这样做的好处是维度极大降低需要建模的参数从3N个坐标减少到少数几个二面角。天然满足SE(3)不变性二面角是旋转平移不变量。局部化学结构更准确键长和键角由更可靠的知识或模型提供。但它的局限性也很明显其生成质量严重依赖于初始局部结构的准确性并且无法优化环状结构的构象因为环内没有可旋转键。3.2 预测式方法瞄准最稳定的那一个预测式方法通常将问题构建为一个监督学习回归任务目标是直接映射分子图G到其基态几何C_eq。这类方法往往更高效适合需要快速获取最可能构象的场景。GeoMol是一个典型的预测式方法其流程分为两步局部结构预测模型首先为分子中的每个原子预测一个局部参考系并预测其与邻居原子之间的局部几何距离、角度。这一步为每个原子生成了一个“局部蓝图”。全局组装与优化将这些局部蓝图通过最小二乘拟合或消息传递的方式组装成一个全局3D结构。为了处理对称原子问题GeoMol引入了一个匹配损失Matching Loss。对于对称的原子组如甲基上的氢模型会为每个原子生成多个候选位置然后通过匈牙利算法找到与真实位置最优的匹配只计算匹配位置上的损失。这迫使模型学会区分对称原子。在实际使用中我们发现GeoMol对于中小型刚性分子预测非常快且准确但对于具有大量柔性键的分子其一步到位的预测可能会丢失一些低能构象的多样性。此时可以将其预测的构象作为初始 guess再结合分子力学进行快速弛豫往往能得到更好的结果。4. 从零生成3D分子无中生有的创造与构象生成不同3D分子生成是一个“无中生有”的过程它不依赖于输入的2D图而是直接从噪声或潜在空间中生成全新的分子3D结构M (z, C)包括原子类型z和坐标C。这相当于同时设计分子的“元素组成”和“空间形态”是药物从头设计de novo drug design的核心。这个任务的核心挑战同样在于SE(3)对称性但更为复杂因为原子类型和坐标需要协同生成。主流方法也分为直接生成坐标和生成不变特征两类。表代表性3D分子生成方法对比方法3D输出核心架构生成流程分布对称性EDM原子坐标扩散模型一次性生成E(3)-不变GeoLDM原子坐标潜在扩散模型一次性生成E(3)-不变G-SchNet原子间距离自回归模型逐步添加原子E(3)-不变G-SphereNet距离角度二面角流模型 (Flow)逐步添加原子SE(3)-不变EDM和GeoLDM是直接生成坐标的代表。EDM 采用了与GeoDiff类似的零质心扩散框架一次性生成所有原子的坐标和类型。GeoLDM 则更进一步引入了一个潜在扩散模型先使用一个等变编码器将分子映射到一个潜在空间然后在潜在空间中进行扩散和去噪最后解码回3D坐标。这种方法在潜在空间中操作可能更有利于捕捉分子的抽象特征。自回归方法如G-SchNet, G-SphereNet则模拟了化学家“搭建”分子的过程。它们从一个种子原子开始逐步决定下一个要添加的原子类型以及它相对于已有分子的位置。G-SchNet 在一个以参考原子为中心的3D网格上预测距离分布来放置新原子。G-SphereNet 则更为精细它使用流模型自回归地生成距离、线角和二面角从而唯一确定新原子的相对位置。由于使用了二面角G-SphereNet 天然实现了SE(3)不变性并且能更好地控制局部几何。实操心得在评估生成模型时不能只看生成结构的“美观”程度。我们通常会计算一系列指标化学有效性RDKit可解析的比例、唯一性生成多样化的分子、新颖性与训练集不重复、以及目标性质如类药性QED、合成可及性SA。对于自回归模型需要特别注意其生成顺序对结果的影响有时不同的原子添加顺序会导致不同的局部最优结构。5. 数据、评估与未来方向5.1 主流数据集与评估基准模型的训练和评估离不开高质量的数据。目前该领域有两个公认的基准数据集GEOM-QM9 / GEOM-Drugs: 源自GEOM数据集。QM9包含约13万个小型有机分子最多9个重原子构象通过DFT优化获得适合方法开发和快速验证。GEOM-Drugs则包含约43万个类药物分子原子数更多柔性键可旋转键数量显著增加平均每个分子有6.5个最多可达53个这对模型的构象采样能力提出了严峻挑战。QM9: 主要用于3D分子生成评估。它包含了约13.4万个小分子的基态几何和多种量子化学性质。由于其分子较小是测试生成模型能否学习化学空间基本规律的理想起点。评估指标因任务而异构象生成常用覆盖率Coverage和匹配率Matching。覆盖率衡量生成的构象集能覆盖多少真实低能构象匹配率衡量真实构象能在多大程度上在生成集中找到近似的匹配通常基于RMSD。此外平均最小RMSD也常被使用。分子生成除了化学有效性、唯一性、新颖性对于属性导向的生成还会看生成分子在特定性质如溶解度、与靶点结合力上的分布是否符合预期。5.2 当前挑战与开放研究方向尽管进展迅速该领域仍面临诸多挑战这也是未来研究的主攻方向从真空到溶液环境当前所有模型都在真空环境的DFT数据上训练。然而分子在生物体内或溶剂中的构象可能截然不同溶剂化效应。开发能条件于溶剂环境生成构象的模型具有巨大的实际价值。处理数据稀缺与迁移学习对于许多新型或特定类别的化合物如金属有机框架、天然产物衍生物高质量的3D构象数据极少。如何利用在大规模通用数据如GEOM上预训练的模型通过少样本学习或迁移学习快速适配到小众领域是一个关键问题。探索高能态与过渡态现有工作主要聚焦于生成低能稳定构象。但化学反应的发生往往经过高能量的过渡态TS。生成反应物和产物的过渡态结构对于理解反应机理和预测反应速率至关重要这是一个方兴未艾的前沿方向。手性控制与复杂化学约束如前所述许多方法忽略了手性或难以严格保证所有局部化学约束如平面性、环张力。设计能够精确控制手性、并内嵌更复杂化学规则如配位化学中的几何构型的生成模型是走向实际应用必须跨越的鸿沟。生成与模拟的闭环目前生成和分子动力学模拟仍是相对独立的环节。一个理想的愿景是生成模型能提供高质量的初始构象或全新分子而经过ML力场加速的分子动力学模拟则能对这些候选者进行快速的稳定性、动力学性质验证甚至进行结合自由能计算形成一个“生成-验证-优化”的自动化闭环这将极大革新计算机辅助药物设计的流程。在我自己的项目实践中一个深刻的体会是没有“银弹”模型。对于快速筛选预测式模型如GeoMol效率极高对于需要探索构象空间的柔性分子扩散模型如GeoDiff或Torsional Diffusion更为合适而对于全新的分子骨架设计则需要EDM这类从零生成的方法。通常我们会构建一个混合流水线先用快速模型生成大量候选再用更精确但耗时的模型或物理方法进行精炼和验证。另一个常被忽视的细节是氢原子的处理许多模型只处理重原子氢原子在最后通过规则添加。但在涉及氢键相互作用的场景如蛋白-配体对接氢原子的初始位置精度至关重要需要更细致的建模。