东京大学团队:AI写论文时代已来,但“幻觉“问题却让人忧心忡忡
这项由东京大学领导的研究发表于2026年4月1日的预印本平台arXiv论文编号为arXiv:2604.01128v1。有兴趣深入了解的读者可以通过该编号查询完整论文。想象一下如果有一天你的论文作业可以完全由AI代劳完成从构思到写作再到实验分析全程自动化这会是怎样的体验这个看似遥远的未来其实已经悄然来临。东京大学的研究团队最近完成了一项开创性研究他们像医生给病人做体检一样系统性地检查了AI写作论文的健康状况。结果发现AI确实已经能写出看起来相当不错的学术论文但就像一个健谈的说书人虽然故事讲得生动有趣却时常在不经意间编造一些子虚乌有的情节。研究团队开发了一套名为论文重构评估PaperRecon的测试方法就像给AI作者安排了一场特殊的闭卷考试。他们先把一篇已发表的优秀论文拆解成最基本的要素——就像把一道复杂菜品还原成食谱的关键步骤然后要求AI根据这些简化信息重新烹饪出完整的论文。通过对比AI重构的论文与原版论文研究人员就能精确评估AI的写作能力以及潜在的问题。这种评估方法的巧妙之处在于它将AI写作的质量分解为两个相互独立的维度来考察。第一个维度是表现力就像评判一个演员的台词功底和表演技巧看AI能否准确传达论文的核心观点、逻辑结构和学术规范。第二个维度是真实性就像核查新闻报道的事实准确性检验AI是否会编造数据、歪曲事实或者添加原文中并不存在的内容。为了进行这项测试研究团队精心构建了一个包含51篇论文的评估基准——PaperWrite-Bench。这些论文全部来自2025年后发表的顶级学术会议涵盖了从计算机视觉到自然语言处理的多个前沿领域。就像选择代表性样本进行民意调查一样这个基准确保了评估结果的全面性和可靠性。一、AI写作能力的双面性精彩表演背后的真相当研究团队将两个目前最先进的AI写作系统——ClaudeCode和Codex——放在这个测试平台上时结果既令人振奋又让人担忧。这就像观看一场高水平的辩论赛两位选手各有千秋但也都暴露了明显的短板。ClaudeCode在表现力方面展现出了令人印象深刻的能力。它就像一个经验丰富的学术写手能够熟练地组织论文结构恰当地使用学术语言并且在表达复杂概念时显得游刃有余。具体来说它的表现质量评分达到了3.86分满分5分这意味着AI生成的论文在大多数方面都能较好地保持原文的核心要点和学术水准。更重要的是随着底层模型的不断升级从Claude Sonnet 4到Claude Sonnet 4.6这种表现能力还在持续提升就像一个勤奋的学生通过不断练习而日益精进。然而当研究人员深入检查这些看似出色的论文内容时却发现了一个令人不安的现象。ClaudeCode虽然写得好但它就像一个喜欢夸大其词的讲故事高手平均每篇论文会包含超过10个明显的事实错误或幻觉内容。这些幻觉就像在真实故事中掺杂的虚构情节可能是编造的数据数字、错误的方法描述或者是原文中根本不存在的实验结果。相比之下Codex展现出了截然不同的特点。如果说ClaudeCode是个能说会道但有时信口开河的演说家那么Codex更像是一个谨慎保守的学者。它的表现质量评分相对较低大约在3.26到3.59分之间这意味着在论文的组织结构和表达流畅度方面还有待提升。但是Codex有一个突出的优点它非常诚实平均每篇论文只产生大约3个幻觉内容远远低于ClaudeCode的水平。这种现象反映了AI系统设计中的一个根本性权衡——表达能力与事实准确性之间往往存在着微妙的平衡关系。二、测试方法的巧思如何给AI作者打分东京大学研究团队设计的评估方法就像是为AI写作能力量身定制的标准化考试。整个评估过程分为三个环环相扣的步骤每一步都有其独特的意义和作用。第一步是素材准备研究人员会将一篇完整的学术论文解构成几个基本组件。这个过程就像把一道精美的菜肴还原成食谱保留最关键的食材和制作步骤但去掉所有的细节装饰。具体来说他们会提取论文的核心观点总结约463个单词、重要的图表、参考文献列表以及相关的代码文件。这样做的目的是确保AI获得的信息既足够重构出高质量论文又不会因为信息过于详细而失去挑战性。第二步是重构写作AI系统需要基于这些简化的素材重新创作出完整的学术论文。这就像给一个厨师提供基本食材和简单说明要求他们重现一道复杂的大菜。在这个过程中AI需要展现出多重能力理解学术概念的能力、组织论文结构的能力、使用恰当学术语言的能力以及保持逻辑连贯性的能力。第三步是多维评估这是整个方法最具创新性的部分。研究团队没有简单地让AI评委给论文打个总分了事而是设计了两套相互独立的评估体系就像从不同角度拍摄同一个物体以获得完整的认知。表现力评估采用了标准清单的方法就像餐厅评级时会检查服务、环境、食物质量等各个具体项目一样。研究人员会为每篇原始论文预先制定一个详细的评分标准明确列出每个章节应该包含的关键要素。例如摘要部分应该清楚说明研究问题、方法创新点和主要发现方法部分应该详细描述技术路线和关键算法实验部分应该涵盖数据集、评估指标和对比结果等。然后他们会逐一检查AI重构的论文是否包含这些要素并根据完成质量给出1到5分的评分。真实性评估则更像是新闻记者的事实核查工作。研究人员会仔细梳理AI论文中的每一个具体陈述特别是那些涉及数据、方法细节和实验结果的内容然后与原始论文逐一对照验证。他们将AI的陈述分为三类第一类是支持性陈述即在原文中有明确依据或可以合理推导的内容第二类是中性陈述虽然原文没有直接提及但属于合理的一般性描述或补充信息第三类是矛盾性陈述即与原文事实明显冲突的错误信息这类陈述就是研究团队重点关注的幻觉内容。为了确保评估的准确性研究团队还设计了一套两阶段验证机制。首先由一个AI系统进行初步的事实核查标记出所有可疑的陈述然后由另一个更强大的AI系统进行二次验证过滤掉可能的误判确保最终识别出的幻觉内容确实是明显的事实错误。三、实验结果的启示当AI遇到学术写作的挑战通过在PaperWrite-Bench基准上的系统性测试研究团队揭示了当前AI写作系统的真实能力水平。这些发现就像一面镜子既反映出AI技术的惊人进步也暴露了仍需解决的关键问题。在表现力方面所有测试的AI系统都展现出了相当可观的能力。即使是表现相对较弱的Codex其平均得分也达到了3.26分这意味着AI重构的论文在大部分评估维度上都能达到部分完成到基本完成的水平。而表现最好的ClaudeCode配合Sonnet4.6模型时平均得分达到3.86分已经非常接近大部分完成的标准。更令人鼓舞的是随着底层语言模型的不断升级这些得分呈现出明显的上升趋势表明AI写作能力正在稳步提升。从具体的章节表现来看AI系统在不同类型的内容上展现出了不同的能力特点。摘要部分的得分普遍最高平均达到4分以上这说明AI已经很好地掌握了学术摘要的写作规范和要素。相比之下相关工作Related Work部分的得分相对较低平均在2.5到3分之间反映出AI在梳理学术脉络和定位研究贡献方面还存在一定困难。这种现象其实很容易理解因为相关工作的撰写需要对整个研究领域有深入的理解和准确的判断而这正是当前AI系统的薄弱环节。然而当研究人员转向幻觉检测时结果变得复杂起来。ClaudeCode虽然在表现力上出类拔萃但它产生幻觉的频率也相当高。以ClaudeCode配合Sonnet4.6为例平均每篇论文包含10.4个重大事实错误这些错误分布在论文的各个章节中其中方法部分4.7个和实验部分3.6个是重灾区。这些幻觉内容往往涉及关键的技术细节、数据数字或实验结果如果不加察觉地被采用可能会误导读者甚至影响后续研究。Codex的表现形成了鲜明对比。虽然它的表现力得分较低但在事实准确性方面表现出色。特别是使用GPT-5.4模型的Codex平均每篇论文只产生3个重大幻觉相比ClaudeCode减少了近70%。这种差异反映了不同AI系统在设计理念和训练策略上的根本差别一些系统更注重生成内容的流畅性和完整性而另一些系统则更强调输出的保守性和准确性。研究团队还发现了一个有趣的现象AI系统在不同研究领域的表现存在明显差异。自然语言处理领域的论文重构质量最高平均得分达到3.77分幻觉数量也相对较少6.0个。这可能是因为NLP领域的研究往往更多基于概念和方法创新而较少涉及复杂的数学公式和技术实现细节更适合当前AI系统的能力特点。相比之下计算机视觉和多媒体处理领域的论文重构难度更大不仅表现得分相对较低幻觉数量也更多。四、技术细节评估框架的精巧设计东京大学研究团队在设计PaperRecon评估框架时展现出了工程师般的精巧思维。整个系统就像一台精密的检测仪器每个组件都经过精心设计确保能够公平、准确地评估AI的写作能力。在论文重构的准备阶段研究团队面临的第一个挑战是如何从完整论文中提取恰到好处的信息。信息太多会让测试失去挑战性信息太少则可能导致AI无法完成合理的重构。经过反复实验他们确定了一个标准化的信息提取流程使用GPT-5自动生成研究概述文件平均长度控制在463个单词既包含了论文的核心思想和主要方法又保留了足够的重构空间。为了确保信息质量研究人员还对每个概述文件进行了人工审核和必要的调整。这个过程就像编辑精选新闻摘要一样需要在简洁性和完整性之间找到完美平衡。此外他们还提供了论文的图表文件、参考文献包含摘要信息以及相关代码为AI提供了多模态的信息支撑。在表现力评估的设计上研究团队采用了定制化标准清单的创新方法。他们没有使用一刀切的通用评估标准而是为每篇测试论文量身定制了专门的评分标准。这就像为不同类型的比赛制定相应的评判规则一样确保评估的公平性和准确性。具体来说对于每篇原始论文研究人员会先使用GPT-5.4自动生成初步的评分标准然后由研究团队成员进行人工审核和完善。最终的评分标准平均包含10-15个具体的评估点覆盖了从内容完整性到技术准确性的各个维度。例如对于一篇关于图像识别的论文评分标准可能包括是否清楚说明了数据集的特点和规模、是否详细描述了神经网络架构、是否提供了与现有方法的对比结果等具体要求。在幻觉检测方面研究团队设计了一套两阶段验证机制就像法庭上的两轮审理程序一样确保判断的准确性。第一阶段使用GPT-5.4对AI论文中的每个具体陈述进行事实核查将其分类为支持性、中性或矛盾性三类。这个过程需要AI评判员具备很强的逻辑推理能力不仅要识别明显的事实错误还要区分合理的推论和不当的臆测。第二阶段则使用功能更强大的Claude Code进行复审重点关注第一阶段标记为矛盾性的陈述。复审系统可以访问原始论文的完整资源包括LaTeX源代码、图表文件和代码库进行更深入的事实核查。这种设计有效减少了误判的可能性确保最终识别的幻觉内容确实是明显的事实错误。研究团队还进行了人工验证来确保自动评估的可靠性。他们随机抽取了97个被标记为重大矛盾的陈述由研究人员进行逐一核查结果发现96%确实是真实的幻觉内容。这个高准确率证明了自动评估系统的可靠性也为大规模评估提供了技术基础。五、现实意义AI写作时代的机遇与挑战这项研究的意义远远超出了学术评估的范畴它为我们理解即将到来的AI写作时代提供了重要的参考框架。就像早期汽车刚刚出现时人们需要了解其性能极限和安全隐患一样我们现在也需要清楚地认识AI写作系统的能力边界和潜在风险。从积极的角度看研究结果表明AI已经具备了相当强的学术写作能力。特别是在论文结构组织、语言表达和格式规范等方面AI的表现已经达到了可用的水平。这意味着AI可以成为研究人员的有力助手帮助他们提高写作效率特别是在初稿生成、内容整理和语言润色等环节。对于非母语英语的研究人员来说这种帮助尤其有价值。同时研究还发现了一个有趣的现象AI系统的写作能力正在随着底层模型的升级而稳步提升。从Claude Sonnet 4到Sonnet 4.6从GPT-5到GPT-5.4每一次模型更新都带来了明显的性能改进。这种趋势暗示着在不久的将来AI的学术写作能力可能会达到更高的水平甚至在某些方面超越人类作者。然而研究结果也揭示了一个不容忽视的严重问题幻觉现象的普遍存在。平均每篇AI论文包含3到10个重大事实错误这个数字听起来可能不算太高但在学术研究的语境下却是极其危险的。学术论文的价值在很大程度上依赖于其事实准确性和可重复性即使是少数几个关键错误也可能导致整个研究结论的失效。更令人担忧的是这些幻觉内容往往具有很强的迷惑性。它们不是明显的胡言乱语而是看起来合理、听起来专业的错误信息。例如AI可能会编造一个听起来很有道理的数据数字或者错误地描述某个算法的工作原理。这种高质量的错误信息更容易被读者接受从而产生更大的误导作用。研究团队还发现了一个值得深思的权衡现象表现力与真实性之间存在着某种反比关系。那些写作能力更强、表达更流畅的AI系统往往也更容易产生幻觉内容而那些更加保守、更注重准确性的系统在表达能力上相对较弱。这种权衡反映了当前AI技术的一个根本性挑战如何在保持创造性和表达力的同时确保输出的可靠性。从学术界的角度看这项研究为制定AI使用规范提供了重要依据。许多顶级会议和期刊已经开始考虑如何应对AI写作的冲击这项研究的结果表明简单的禁用或完全放开都不是最佳选择。相反学术界需要建立更精细的使用规范例如要求明确标注AI使用情况、加强事实核查流程或者在特定环节限制AI的使用。对于普通研究人员而言这项研究提供了使用AI写作工具的实用指导。研究结果表明AI在某些任务上表现出色如摘要写作、结构组织而在其他任务上存在明显风险如技术细节、数据报告。明智的做法是充分利用AI的优势同时对其输出保持审慎态度特别是对涉及具体数据和技术细节的内容进行仔细核查。六、未来展望构建可信AI写作的新路径这项研究不仅揭示了当前AI写作系统的现状更重要的是为未来的技术发展指明了方向。就像早期的计算机程序需要不断调试和完善一样AI写作系统也需要在实践中不断改进朝着更加可靠和实用的方向发展。研究团队提出了几个有价值的改进思路。首先是开发更精细的控制机制让用户能够根据具体需求调整AI系统在表现力和准确性之间的权衡。就像调节汽车的驾驶模式一样用户可以根据不同的使用场景选择保守模式或创新模式前者优先确保事实准确性后者则更注重表达的丰富性和创造性。其次是建立更完善的事实核查机制。研究团队设计的两阶段验证方法已经显示出良好的效果未来可以进一步完善甚至集成到AI写作系统的内部流程中。这样的系统就像内置了事实检查员的智能写作助手能够在生成内容的同时自动识别和标记可能的事实错误。第三个重要方向是提高AI系统对自身能力边界的认知。目前的AI系统往往会过度自信即使在不确定的情况下也会给出看似确定的答案。未来的系统应该学会表达不确定性对于没有充分依据的陈述使用可能、据推测等限定性语言或者干脆承认这个问题超出了我的知识范围。研究还为学术评估系统的发展提供了新思路。传统的同行评议系统可能需要适应AI写作时代的新挑战例如开发专门的AI检测工具、建立更严格的事实核查流程或者设计针对AI生成内容的评估标准。PaperRecon框架本身就是这种努力的一个典型例子它可能成为未来学术评估工具箱中的重要组成部分。从更宏观的角度看这项研究也为AI安全和可信AI的发展提供了有价值的案例。幻觉问题不仅存在于学术写作中在新闻报道、法律文书、医疗诊断等更多高风险应用场景中也可能出现类似问题。研究团队开发的评估方法和发现的规律可能对这些领域的AI应用也具有指导意义。说到底这项研究让我们看到了AI写作技术的巨大潜力也清楚地认识到了当前存在的关键问题。AI确实已经能够写出结构合理、表达流畅的学术论文但它还不是一个完全可靠的写作伙伴。就像我们在使用任何强大工具时都需要保持谨慎一样在AI写作时代我们既要充分利用技术带来的便利也要时刻警惕潜在的风险。归根结底这项研究为我们提供了一个重要启示技术进步的意义不仅在于能力的提升更在于我们对这种能力的深入理解和合理运用。只有在充分认识AI写作系统能力边界的基础上我们才能真正发挥其价值同时避免潜在的风险。对于即将全面进入AI时代的我们来说这样的认知比技术本身可能更加珍贵。QAQ1PaperRecon评估方法是如何工作的APaperRecon就像给AI安排了一场特殊的闭卷考试。研究人员先把一篇完整的学术论文拆解成基本要素核心观点总结、图表、参考文献等然后要求AI根据这些简化信息重新写出完整论文。最后通过对比AI重构的论文与原版论文从表现力和真实性两个维度评估AI的写作能力和潜在问题。Q2ClaudeCode和Codex在写论文方面有什么区别AClaudeCode就像一个能说会道但有时信口开河的演说家表现质量评分高达3.86分但平均每篇论文包含超过10个事实错误。Codex更像谨慎保守的学者表现质量相对较低3.26-3.59分但非常诚实平均每篇论文只产生约3个幻觉内容。两者体现了表达能力与事实准确性之间的权衡关系。Q3AI写论文的幻觉问题有多严重A相当严重且具有迷惑性。研究发现AI论文平均包含3-10个重大事实错误这些不是明显胡言乱语而是看起来合理、听起来专业的错误信息比如编造的数据数字或错误的方法描述。在学术研究中即使少数关键错误也可能导致整个研究结论失效因此需要格外警惕。