文章核心总结与创新点核心内容本文提出Mol-LLaMA,一款面向分子综合分析的大型分子语言模型,旨在解决现有分子LLM在分子特征理解、推理能力和可解释性上的不足。模型通过构建涵盖分子结构、结构-特征关系、综合对话的专用指令数据集,结合2D与3D分子编码器的融合模块,实现对分子结构、化学性质、生物功能的全面理解,在分子属性预测、分子理解基准测试中表现优于GPT-4o等现有模型,可作为通用分子分析助手。核心创新点专用指令数据集设计:构建包含三种核心数据类型的Mol-LLaMA-Instruct数据集(284k样本),分别聚焦分子详细结构描述、结构-特征关系解释、层级式综合对话,兼顾基础特征学习与推理能力培养。多模态融合模块:提出2D-3D blending模块,整合MoleculeSTM(2D编码器)与UniMol(3D编码器)的互补信息,解决单一编码器对分子结构的解读局限,减少幻觉问题。通用分子理解能力:模型兼顾结构、化学、生物多维度知识,具备可解释性和逐步推理能力,在零样本预测、少样本学习、不同构象鲁棒性等场景中均表现优异。翻译部分(Markdown格式)Abstract理解分子是理解生物体和推动药物发现进展的关键,需要化学和生物学领域的跨学科知识。尽管大型分