当AI画师学会“记住承诺“:中国科大打造复杂图像生成新框架SCOPE-编程实验室

这项由中国科学技术大学（MoE脑启发智能感知与认知重点实验室）联合香港理工大学、南洋理工大学共同完成的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.08043。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

**当AI画师忘记了自己答应画什么**

假设你雇了一位画师，告诉他："帮我画一幅画：左边站一个机器人小偷，右边站一个小孩侦探，中间的玻璃展柜里放着一架宇宙飞船模型，背景墙上挂着一幅宇宙星云壁画，还有一个穿银色夹克的馆长举着一张金唱片。"

这个要求够复杂了吧？现在问题来了：画师一边在脑子里构思，一边就开始动笔，画着画着他忘记了机器人小偷要站在左边，忘记了金唱片要举在手里，甚至把宇宙飞船画成了火箭发射台。最终你拿到的画，每一部分单独看都挺好看，但跟你说的要求比，差了十万八千里。

这正是当今AI图像生成系统面临的核心困境。你给它一段复杂的描述，它能生成一张看起来赏心悦目的图，但那些被你明确要求的细节——谁在哪个位置、谁拿着什么、背景里该有什么——往往要么被遗漏，要么被画错了，要么干脆被"创意发挥"掉了。

中国科大等机构的研究团队把这个问题研究透了，并提出了一个叫做**SCOPE**的系统，专门来解决这个"AI画师记性太差"的问题。接下来，我们就顺着这支AI画师团队搭建的生产流水线，一起看看他们是怎么让AI真正兑现每一个"视觉承诺"的。

---

一、被遗忘的"承诺"：问题究竟出在哪里

把复杂图像生成比作一个大型施工项目，会更容易理解问题的根源。业主（用户）交给施工方（AI）一份详细的设计图纸：哪个房间放什么家具、墙壁刷什么颜色、门窗的尺寸是多少。施工方开始动工，每一道工序的工人都各自忙着，但他们手里拿的是不同版本的图纸，甚至有些工人根本没拿图纸，全靠口口相传。结果，客厅的师傅把沙发颜色改了，卧室的师傅把窗户尺寸搞错了，验收时业主发现，房子盖起来了，但跟当初的设计千差万别。

研究团队把这种现象命名为"**概念裂缝**"（Conceptual Rift）。用更直白的话说：在一次图像生成的完整过程中，用户最初提出的那些具体要求——哪些角色要出现、它们长什么样、彼此之间是什么关系、各自在画面哪个位置——这些要求在生成过程的不同阶段里没有被当作统一的、可追踪的单元来对待。前期查了资料，但查到的信息没有被妥善记录下来；中期生成了图像，但没人知道生成的图和原始要求之间差在哪里；后期发现图有问题想修改，却不清楚问题究竟出在哪一个具体要求上。每个环节都做了点什么，但这些努力彼此割裂，就像施工现场各司其职却互不沟通的工人。

研究团队把这些"用户提出的、图像最终必须满足的具体要求"统称为**语义承诺**（Semantic Commitments）。这个词很形象：承诺就是答应了要做到的事情，语义承诺就是那些被明确要求、必须在图像里兑现的视觉细节。问题不在于AI不知道这些承诺的存在，而在于它在生成过程中无法始终把这些承诺当作可识别、可追踪、可核对的独立单元来操作。

正因为如此，哪怕一个AI系统在某个步骤里查到了某个角色的真实外观、在另一个步骤里发现了图像里某个元素画错了，这些信息也未必能真正作用到"修好那个具体被画错的承诺"上——因为没有一个贯穿始终的"承诺档案"把它们串起来。

---

二、SCOPE：给每个承诺建一份活的档案

SCOPE的核心思路可以用一个熟悉的场景来理解：高效运作的施工项目管理。一个靠谱的项目经理会为每一项工程要求建立清单，记录每个要求的当前状态——是已经落实、待确认，还是发现了问题需要返工。所有工种的工人都对着同一份清单作业，每完成或修改一个条目就更新清单。验收时也对照这份清单逐条核查，而不是凭感觉说"整体上还不错"。

SCOPE就是这样一个为AI图像生成流程配备的"项目经理"。它把用户的复杂需求分解成一份**结构化的语义规范**，用一个三元组来表示：目标实体（E）、可验证承诺（C）、未解决信息（U）。

目标实体就是图像里必须出现的"演员名单"——比如机器人小偷、小孩侦探、馆长、金唱片、宇宙飞船模型。可验证承诺是对这些实体提出的具体要求，研究团队进一步把它们分成三类：属性约束（某个实体长什么样、数量是几个、上面写着什么字）、关系约束（实体之间是什么交互或语义关系）以及布局约束（实体在画面中的位置和与环境的构图关系）。未解决信息则是那些"还没弄清楚"的疑问，比如用户提到了一个真实存在的IP角色，但AI不确定它的具体外观，就在这里记录"需要查一下这个角色长什么样"。

关键的设计在于，这份规范不是一次性生成就固定不变的，而是**活的档案**——随着整个生成流程的推进，它会不断被更新。查到了某个角色的外观资料，就更新对应条目；生成的图像里发现某个实体位置画错了，就在对应条目里标记"已失败，待修复"；修复之后，再更新条目状态。整个流程从头到尾共享同一份档案，任何环节的操作结果都写回到这份档案里，后续环节就能准确知道当前每个承诺的状态。

这份活的档案解决的正是"概念裂缝"的根本问题：它把原本可能在不同步骤里各自为战的操作，全部锚定在同一个可识别的语义单元上。

---

三、四步流水线：从描述到图像的完整工作链

有了这份活的档案，SCOPE还搭建了一条固定的核心流水线，由四个角色依次协作完成图像生成任务，就像一个专业制作团队里的不同岗位。

第一个岗位叫**分解器**，负责把用户提交的文字描述转化为那份结构化的语义规范。用户说的话往往是自然语言，有时隐含了一些没有明说的要求，分解器的工作就是把这些显性和隐性的要求都梳理出来，填进档案的各个栏目里。

第二个岗位叫**综合器**，它的任务是看当前档案的状态，把其中已经确定的信息整合成一段连贯的、可以直接交给图像生成引擎使用的详细描述。打个比方，这就像是施工图纸确认完毕后，把所有要求汇总成一份清晰的施工任务书，交给具体施工的人。

第三个岗位叫**生成器**，负责真正生成或编辑图像。它收到任务书，产出图像。

第四个岗位叫**验证器**，是流水线里的质检员。它拿到生成的图像，把档案里每一条实体和约束逐一核对，并不是笼统地说"这张图整体上还不错"，而是精确到每一个条目：实体A出现了没有、出现的样子对不对、约束B满足了没有，每条都给出"通过"、"失败"或"不确定"三种判断，并附上原因。

这四个岗位形成一个闭环：如果验证全部通过，任务完成；如果有条目验证失败，流程会继续进入下一轮迭代，调动相应的技能来修复问题，然后再次经历综合、生成、验证的循环。整个流程最多运行三轮。

---

四、三种关键技能：查资料、推理、修图

单靠四步流水线还不够，因为有些问题在流水线本身解决不了。研究团队为SCOPE设计了三种可以根据情况灵活调用的**条件技能**，并且这三种技能的调用都严格锚定在当前档案里具体的未解决条目或已失败条目上，绝不是漫无目的地瞎折腾。

第一种技能叫**检索技能**，对应"缺信息"的情况。当档案里记录了某个承诺依赖的外部证据还没找到时——比如用户要画的是一个真实的游戏IP角色，AI需要知道这个角色的确切外观——检索技能就被激活，通过搜索引擎等工具获取相关视觉资料或事实信息，然后把结果写回档案，关闭这条"未解决"记录。

第二种技能叫**推理技能**，对应"信息不明确"的情况。有时候用户的描述里隐含了一些要求，不需要查外部资料，但需要通过逻辑推断才能确定具体内容。推理技能负责把这类模糊或隐性的承诺推导清楚，同样写回档案。

第三种技能叫**修复技能**，对应"已生成但验证失败"的情况。当验证器发现某个承诺已经被明确规定（不需要再查资料或推理），但生成的图像就是没有满足它，这时修复技能登场。修复技能并不是简单地重新生成一张图，而是根据失败的具体性质来选择三种策略中最合适的一种：如果是任务书的描述没有准确反映档案里的要求，就重写任务书；如果是图像局部有瑕疵，就对那个区域进行局部图像编辑；如果失败范围太广或问题太根本，就整体重新生成。这种精准的"哪里出问题修哪里"的策略，比无差别重做效率高得多，也更有针对性。

这三种技能的设计逻辑体现了SCOPE的核心哲学：每一次技能调用都是有来由的，都对应着档案里一个具体的待解决或待修复条目，调用结果也会写回档案，让后续环节能继续利用这个结果。技能不是工具箱里随手拿来用的零件，而是被精确派遣去处理特定承诺问题的专家。

---

五、Gen-Arena：怎么才算"真正兑现了承诺"

有了SCOPE这个系统，下一个问题是：怎么评价它做得好不好？研究团队发现，现有的AI图像生成评测标准有一个根本缺陷——它们太"宽容"了。要么是给生成的图像整体打一个"与描述匹配度"的分数，要么是给一堆独立的检查项分别打分，却不追究这些检查项之间的逻辑依存关系。

这就像餐厅点菜，服务员拿来的菜里有三道是你点的、两道是你没点的，厨师的理由是"总体满足度还不错"。但实际上，那两道缺席的菜偏偏是整桌宴席的主菜，没有它们，其他配菜再精彩也没有意义。

为了建立一个真正严格、能够反映"承诺是否被兑现"的评测标准，研究团队构建了一个全新的人工标注基准测试集，命名为**Gen-Arena**。

Gen-Arena包含300个测试实例，覆盖六个类别：卡通、游戏、体育、娱乐、竞技和典礼。每个实例配有一段自然语言提示词，并由人工标注者精心整理出配套的结构化评测规范，明确列出这张图里必须出现的目标实体以及针对这些实体的原子约束。整个数据集共包含1954个实体和2533条约束，还有310张参考图片，专门用于那些纯凭文字难以精确描述其外观的角色（比如某个游戏里的特定IP角色）。

评测的方法叫**实体门控意图通过率**（EGIP）。这个名字很学术，但背后的逻辑非常直观：先检查图像里所有必须出现的实体有没有全部正确地呈现出来；只有当所有实体都通过检查，才进一步核查那些依赖这些实体的具体约束有没有被满足；最终，只有全部实体和全部约束都通过了，这个实例才算整体通过。任何一个实体缺席或者画错，整个实例直接判为失败，不考虑其他部分做得有多好。

这种"一票否决"的严格标准，正是为了对抗那种"整体上还凑合"的虚假成功感。研究团队认为，如果你要求画的是《侠盗猎车手》里的特定角色，那个角色没出现、出现的是另一个不相干的人，无论背景画得多美、构图多精彩，这张图都算失败。

---

六、实验结果：数字说明了什么

SCOPE在Gen-Arena上的表现让这个领域的竞争者颇为尴尬。在这场严格的承诺兑现测试中，绝大多数直接生成型AI的EGIP得分接近于零。

具体来看：Janus-Pro-7B、SDXL、PixArt-Sigma的整体EGIP均为0.00，意味着在300个严格要求下，它们几乎没有一次做到全部兑现；FLUX.1-dev的EGIP是0.01，SD-3.5-large是0.00，Qwen-Image是0.02，Z-Image-Turbo是0.01。连表现最好的直接生成模型Nano Banana Pro，EGIP也只有0.21。换句话说，在每五个复杂图像生成任务里，它只有大约一个能完整兑现所有承诺。

SCOPE的整体EGIP达到了0.60，是Nano Banana Pro的近三倍，比第二名高出39个百分点。在六个类别里，体育和典礼两个类别的表现尤为突出，分别达到0.72和0.74，这两个类别的任务通常涉及真实的人物身份识别、赛事特定关系和精确的场景构图，正是SCOPE通过检索和推理技能最能发挥优势的场景。

更有意思的是更细粒度的诊断数据。在实体单项通过率上，Qwen-Image和Z-Image-Turbo其实不差，分别达到0.83和0.84，意味着它们大多数实体单独来看是画出来了的。但它们的整体EGIP接近于零，说明问题出在"单独看每个实体还行，但要所有实体和所有约束同时全部通过，就几乎不可能了"。这印证了"严格承诺兑现"这个目标的难度：单个元素的准确率高，不等于整体满足度高。SCOPE把实体通过率提升到0.92，约束通过率提升到0.83，两者共同作用，才带来了0.60的整体EGIP。

在两个外部基准测试上，SCOPE同样表现出色。在测试世界知识密集型图像生成能力的WISE-V基准上，SCOPE获得了0.907的综合分，六个子类别中五个排名第一，整体比Nano Banana Pro高出3.5%；在测试知识与推理密集型视觉生成的MindBench上，SCOPE获得0.61的综合分，比Nano Banana Pro高出近49%。这些外部基准测试的结果表明，SCOPE的承诺追踪机制不是只对Gen-Arena这个特定评测有用，而是具有更广泛的通用价值。

---

七、消融实验：把每块积木抽掉，看哪个最关键

为了弄清楚SCOPE里各个组件的贡献，研究团队做了一系列消融实验，相当于把整套系统拆开来，逐一关掉某些功能，看效果怎么变。

把SCOPE简化为最原始的单次直接生成，EGIP是0.21。给它三次独立生成的机会，挑最好的一次，EGIP提升到0.40——说明多次尝试是有价值的，但提升幅度有限。用一种叫"自我改进"的方式替换SCOPE（同样用三次生成机会，但没有结构化的承诺档案，只是用自由形式的批评来重写描述），EGIP是0.39，甚至比挑最好一次的策略还低。这说明，没有结构化承诺档案做支撑，即便有迭代修改的机会，也难以把局部的改进积累成整体的通过。

在SCOPE内部，把检索和推理技能都关掉（只保留分解和修复），EGIP跌到0.22，几乎和单次直接生成一样差。这非常有力地说明：光有结构化分解，没有技能来填充那些"未解决信息"，承诺档案充其量是一份空白的待办清单，并不能帮助生成更好的图像。把修复技能单独关掉（保留检索和推理），EGIP是0.42——比没有检索推理的0.22高了一大截，但比完整SCOPE的0.60低了18个百分点。这说明检索和推理技能负责在生成前解决"我不知道该画什么"的问题，而修复技能负责解决"生成后发现画错了"的问题，两者缺一不可、相辅相成。

---

八、系统的边界：诚实面对不足

研究团队并没有只说成绩，他们坦率地指出了SCOPE目前存在的两个主要局限。

第一个局限是效率成本。SCOPE需要在每次生成任务上调用多次大型语言模型、图像生成引擎、验证器，以及可能还有搜索引擎，最多运行三轮迭代。与直接输入描述、一次出图的方式相比，SCOPE的时间成本和计算开销要高得多。这在追求实时响应的应用场景里是个实际的障碍。研究团队提出，未来可以通过更聪明的"早停"策略或更有选择性的技能调用来降低开销，但这还是留给未来工作的课题。

第二个局限是验证器的可靠性。整个SCOPE系统的修复路由逻辑高度依赖验证器的判断：验证器说某个实体或约束失败了，系统才会去修复它；验证器说通过了，系统就认为没问题。但验证器本身并不是完美的——它可能把一个其实正确的元素判为失败（假阴性），触发一次没有必要的修复；也可能把一个其实画错的元素判为通过（假阳性），导致真正的问题被忽略。验证器的精准度直接决定了整套修复机制的有效性，这是一个亟需进一步改进的薄弱环节。

---

说到底，SCOPE做到的事情可以用一句话概括：它让AI生成复杂图像时，不再只是"努力把话听进去"，而是真正"从头到尾记住并核对每一个承诺"。通过建立一份活的承诺档案、设计出精准匹配问题类型的三种技能、搭配严格的逐项验证机制，SCOPE让那些原本会因为复杂度而"跑偏"的图像生成任务，有了一条更靠谱的完成路径。

EGIP从0.21跳到0.60，背后不是魔法，而是一套系统性地减少"信息在传递过程中丢失或漂移"的工程方案。当然，更高的准确率代价是更高的计算成本，而验证器自身的局限也提醒我们，这条路上还有很长的距离要走。但这个方向是清晰的：对于那些真正需要"所有细节都对"才算成功的复杂图像生成需求，单纯依赖生成模型的"理解力"和"运气"已经不够用了，需要更明确的流程管理和承诺追踪机制介入其中。

对AI图像生成感兴趣的读者，可以通过arXiv编号2605.08043找到完整论文，也可以访问研究团队搭建的项目页面获取更多细节和示例图像。

---

Q&A

Q1：SCOPE和普通的AI图像生成有什么本质区别？

A：普通AI图像生成是"一次性把话翻译成图"，没有系统来追踪用户要求是否被满足。SCOPE的核心区别是引入了一份"活的承诺档案"，把用户所有的具体要求分解成可追踪的条目，并在整个生成流程（包括查资料、生成图、核查图、修复图）的每个环节都对着这份档案操作，确保每个条目的状态始终可识别。

Q2：EGIP评测标准为什么对所有基线模型得分都极低？

A：EGIP采用的是"全部通过才算通过"的严格逻辑。一张图里只要有任何一个必须出现的实体缺席或画错，整个实例就判为失败，不管其他部分做得多好。这个标准揭示了一个现实：大多数模型生成单个元素的能力还不错，但在同一张图里同时满足所有实体和所有约束，成功率极低。

Q3：Gen-Arena基准测试集覆盖了哪些类型的图像生成任务？

A：Gen-Arena包含300个人工标注的实例，涵盖六个类别：卡通、游戏、体育、娱乐、竞技和典礼。每个实例都配有自然语言提示词和结构化评测规范，整个数据集共包含1954个实体和2533条约束，其中310个实例还附有参考图片，用于那些需要精确匹配真实IP角色外观的任务。