MathNet:全球数学推理与检索的多模态基准
摘要数学问题求解仍然是衡量大型语言模型和多模态模型推理能力的一项挑战性测试然而现有基准在规模、语言覆盖和任务多样性方面都存在局限。我们提出了 MathNet一个高质量、大规模、多模态、多语言的奥林匹克级数学问题数据集以及一个用于评估生成模型数学推理和基于嵌入系统的数学检索的基准。MathNet 涵盖 47 个国家、17 种语言以及二十年的竞赛包含 30,676 道由专家撰写的带有解答的问题覆盖多个数学领域。在核心数据集之外我们还构建了一个检索基准其中包含由人类专家整理的数学等价问题和结构相似的问题对。MathNet 支持三个任务问题求解、数学感知检索以及检索增强问题求解。实验结果表明即使是最先进的推理模型Gemini-3.1-Pro 达到 78.4%GPT-5 达到 69.3%仍然面临挑战而嵌入模型在检索等价问题方面表现不佳。我们进一步发现检索增强生成RAG的性能对检索质量高度敏感例如DeepSeek-V3.2-Speciale 获得了最高基准分数提升幅度高达 12%。MathNet 提供了最大的高质量奥林匹克数据集以及首个用于评估数学问题检索的基准我们将在 mathnet.mit.edu 公开发布该数据集和基准。引言近年来大型语言模型和大型多模态模型在数学推理基准上取得了快速进步从小学水平问题到竞赛数学问题。最近有多项公开报告称多个先进模型在国际数学奥林匹克IMO中取得了前所未有的金牌级别成绩。此外还发生了多起 AI 系统据说解决了开放数学问题的事件。尽管取得了这些进展但缺乏开放、高质量、多样化的基准限制了研究进展。现有的奥林匹克级数据集通常来自社区平台如 AoPS且仅覆盖了美国和中国少数几项竞赛。为了弥补这一空白我们提出了 MathNet一个大规模、多模态、多语言的奥林匹克级数学问题集合来源涵盖过去四十年间的 47 个国家。完整的数据集 MathNet 包含 3 万多道问题配有由专家撰写的官方解答涉及广泛的数学领域。其规模、多样性和专家级质量为探索数学泛化与类比推理提供了前所未有的基础。我们使用 MathNet 来研究两个主要能力问题求解即解决数学问题的能力以及数学感知检索即识别并检索数学等价或相关问题。特别地与现有的语义检索不同我们的问题检索任务必须感知符号结构、不变性和变换。例如求解 x2y21x2y21 的问题等价于求解 a2b21a2b21也等价于二维单位范数向量集合 ∣u∣21∣u∣21。关键在于这些不等价于求解 xy1xy1。当前的检索模型无法做出这种区分由于表面的词汇重叠它们常常将与 xy1xy1 相关的问题排在比真正等价的表述更接近 x2y21x2y21 的位置。尽管数学感知检索具有基础重要性但近期文献中这一任务仍然基本未被探索。即使在专家工作流中例如年度 IMO 的题目选拔过程这些挑战也会出现。在短名单构建过程中新题有时可能与书籍、问题集或在线来源中已有的问题相似这表明跨越不同符号、格式和语言识别数学等价是多么困难。类似问题也出现在数学研究中。例如一位研究相邻素数间隙上界的数学家可能会搜索“素数间隙的上界”这样的短语而不是具体的公式 pn1−pn≤C(logpn)2pn1−pn≤C(logpn)2其中 pnpn 是第 nn 个素数CC 是常数。然而现有的检索系统通常对变量命名或文本措辞等表面特征敏感难以连接以不同形式表达的数学等价陈述。为了在这些挑战上取得进展我们引入了 MathNet一个规模空前的数学问题集合支持跨三个任务的模型分析问题求解、数学感知检索和检索增强问题求解。我们的贡献如下主语料库MathNet-Solve一个包含 3 万多道奥林匹克级数学问题的问题集配有对齐的 LaTeX 和自然语言陈述、专家解答以及元数据覆盖 47 个国家、17 种语言和 65 个以上数学领域。检索数据集MathNet-Retrieve一个用于数学感知检索的数据集包含从 1 万个锚点问题衍生的额外 4 万个合成问题每个锚点问题配有一个等价正例和三个强负例。MathNet-RAG一个用于检索增强问题求解的数据集由 70 道 IMO 级别的专家筛选的结构相似问题构建而成。基准评估在三个主要基准上对 27 个最先进模型进行评估MathNet-Solve 上的问题求解准确率、MathNet-Retrieve 上使用 Recallk 的数学感知检索性能以及 MathNet-RAG 上使用自动评分和人类专家评分的检索增强问题求解准确率。分析求解 vs. 检索我们证明了嵌入模型在数学感知检索上的性能落后于大型语言模型和多模态模型在问题求解上的性能。此外对于检索增强问题求解只有当检索器能够找出结构对齐、数学相关的邻近问题时检索增强生成才能改善推理能力。