前言做科研的人都懂一个图示从想法到完成比写正文还折腾。逻辑结构、数据精确、风格规范——三点缺一不可。单模型生成 AI 往往图漂亮但逻辑错逻辑对了又不美观或者比例全跑偏。PaperBanana 解决了这个问题而且效果真的不错。它做对的核心正是把任务拆成多个角色让 AI 小团队协作。传统 AI 的局限很多人以为用大模型直接生成图片就行了。但科研图示不同于普通插画它不仅要准确表达逻辑还要保证数据精确最终还要符合学术期刊审美。单模型一次搞不定三件事结果不是图漂亮但逻辑全错就是逻辑对了但风格土得掉渣而且基本都是数字比例全跑偏。这就是科研图示的痛点也是 PaperBanana 这类技术方案出现的理由。PaperBanana 的五角色协作PaperBanana 的设计理念是把生成任务拆成五个职能每个角色专注最擅长的事情然后协作迭代。可视化流程图1. Retriever — 灵感板Retriever 从构建好的参考数据库中找出最相关的示例。它关注视觉结构匹配保证后续生成有靠谱的布局参考。想象一下设计师先看模板再画图就是 Retriever 的工作。2. Planner — 骨架设计师Planner 是核心大脑。它把论文描述和图示目标转化为详细图示计划包括图示组件节点/模块组件之间的逻辑关系和箭头方向空间布局建议标签、注释等Planner 的核心是给图示提供骨架让生成不能随意乱画。3. Stylist — 美学指导有了骨架Stylist 来负责颜值。它根据参考样例提取颜色、字体、线条粗细和形状把 Planner 的输出优化成符合期刊标准的版本。NeurIPS、Nature 的图示风格都不一样Stylist 让生成的图符合学术规范。4. Visualizer — 执行者Visualizer 根据规范化计划生成图示方法图示→ 用高质量图像生成模型渲染数据图表→ 输出可复现的 Matplotlib 代码这意味着生成图示不仅好看还能直接用作科研素材可复现、可修改。5. Critic — QA/闭环Critic 是闭环的关键它检查图示是否忠实反映文本、是否清晰、是否符合风格规范。如果不满意会提出修改建议让 Planner/Visualizer 再迭代。通常 2–3 轮就能得到高质量图示。为什么多角色协作有效对比单模型端到端生成PaperBanana 有三大优势参考驱动Retriever 提供结构与风格样例让生成更可靠分工明确逻辑、风格、渲染分开避免大模型黑箱生成的混乱闭环自检Critic 迭代让图示质量可控换句话说这是 AI 助力科研图示的一次流程创新。实验中PaperBanana 在忠实度、可读性和美观度上都明显优于 baseline。如果你对这个场景的设计感兴趣我整理了整套 Prompt下方获取 延伸价值这种多角色协作模式不只适用于学术图示。在流程图、实验设计图教学演示图数据可视化自动生成甚至在代码生成、决策规划等复杂任务中多 Agent 协作也更可靠。参考资料PaperBanana: Automating Academic Illustration for AI Scientists (arXiv)PaperBanana 官方站PaperBananaBench 数据集与评估