摘要Transformer架构彻底革新了生物信息学推动了生物分子特性的解析与预测。目前绝大多数生物序列Transformer仅基于单组学数据蛋白或核酸训练虽在各自领域取得成功却难以捕捉跨模态相互作用。本文提出当前最大规模开源多组学模型OmniBioTE基于2,500亿token混合蛋白-核酸数据预训练。实验证明仅用无标注序列训练的OmniBioTE可自动学习基因与对应蛋白的联合表征在蛋白-核酸结合吉布斯自由能变ΔG预测任务上达到最优性能无需任何结构标注即可涌现结构信息精准预测结合关键残基。相较于同等算力的单组学模型OmniBioTE在多组学、单组学任务中均实现更优的算力效率每FLOP性能。本研究验证了生物序列统一建模的价值确立OmniBioTE为多组学研究的基础模型。sully.chenduke.edueric.oermannnyulangone.org#多组学 #生物序列Transformer #蛋白核酸相互作用 #自监督预训练 #联合表征 #结合自由能预测 #结构信息涌现数据美国国家生物技术信息中心https://ftp.ncbi.nlm.nih.gov/genbank/UniProt蛋白质https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref100/uniref100.fasta.gzGitHubhttps://github.com/nyuolab/OmniBioTEHuggingFacehttps://huggingface.co/WeiHua/OmniBioTEZenodohttps://doi.org/10.5281/zenodo.17945682结合AlphaFold3与分子动力学MD模拟的预测https://zenodo.org/records/15098577引言图1多组学预训练与任务专属微调A收集包含蛋白质组、各类核酸DNA、多种RNA、人工序列等的大规模数据集B基于编码器Transformer与掩码语言建模目标完成序列大规模预训练C为基础模型添加任务专属头微调后适配各类下游任务。相关工作表1 本文OmniBioTE与对比模型的参数规模各模型家族、变体及对应参数数量统计实验结果涌现式联合表征图2基因-蛋白嵌入的涌现式对齐与潜在结构信息a低秩特征提取器在95%独立测试集上生成的OmniBioTE特征向量余弦相似度分布匹配基因-蛋白对/不匹配对b单组学模型NucBioTEProtBioTE用相同方法、双特征提取器的对应结果c结合亲和力微调版vs基础版OmniBioTE基于冻结注意力图的接触预测F1分数提升d锌指和BTB结构域蛋白7AZBTB7A与双链DNA的结合接触概率预测红色越深接触概率越高。箱线图以中位数为中心、4分位距IQR为箱体须线为极值a剔除±1.5×IQR外的异常值。***₁: p2.5×10⁻⁶***₂: p8.8×10⁻⁶**₃: p6.3×10⁻⁴。p值经单侧Welch t检验Holm-Bonferroni校正α0.01ab因样本量极大未做显著性检验。多组学任务性能图3 多组学预训练实现蛋白-核酸复合物ΔG回归最优性能AProNAB数据集10折交叉验证预训练算力与ΔG预测皮尔逊相关系数PCC关系B10折交叉验证ΔG预测平均绝对误差MAEC突变共有序列的ΔΔG预测值随预训练算力的变化误差线为均值标准误D不同接触阈值下的监督接触预测性能。8Å/6Å/4Å阈值的正负样本比为0.29/0.16/0.09随机猜测最大F1为0.37/0.247/0.157。*为各任务最优模型。***₁: p6.7×10⁻⁵**₂: p1.5×10⁻³***₃: p4.3×10⁻⁶**₄: p1.3×10⁻³。p值经单侧Welch t检验Holm-Bonferroni校正α0.01。单组学基准测试性能图4 单组学基准的性能与缩放规律以预训练FLOPs为横轴、综合性能为纵轴展示多组学预训练的算力效率优势a,b基因组理解评估GUE、c,d蛋白质嵌入评估TAPE、e,f蛋白质通用生命语言评估ProteinGLUE。GUE表观遗传任务取均值合并ace中OmniBioTE按参数从小到大小/中/大/超大版。*为各任务最优模型。详细总结思维导图模型参数规模参考PLoS One. 2026 Feb 2;21(2):e0341501. doi: 10.1371/journal.pone.0341501.Large-scale multi-omic biosequence transformers for modeling protein-nucleic acid interactions260202OmniBioTE.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。