news 2026/5/30 1:51:00

阿里巴巴与南京大学联手:给AI图像生成模型换上“智能神经网络“

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
阿里巴巴与南京大学联手:给AI图像生成模型换上“智能神经网络“

这项由阿里巴巴集团与南京大学联合开展的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.20708。研究团队来自阿里巴巴集团、南京大学、浙江大学和香港城市大学,聚焦于当下最热门的AI图像生成技术领域,提出了一种名为"扩散自适应路由"(Diffusion-Adaptive Routing,简称DAR)的新方法,在不增加太多额外计算成本的前提下,大幅提升了AI图像生成模型的训练效率和生成质量。

一、一栋大楼里的"信息传递"出了什么问题

要理解这项研究,可以把一个现代AI图像生成模型想象成一栋高层办公楼。这栋楼里有许多层(对应模型的"层"或"块"),每一层都有一个办公室,负责对收到的信息进行加工处理,然后把结果传给上一层。最顶层的办公室汇总所有信息,最终输出一张图片。

这栋楼里的信息是怎么传递的呢?按照传统设计,每一层的输出都会直接累加到一根"总线"上,然后传给下一层。这就像每个办公室处理完文件后,都把自己的结论写在同一张纸条上,一层一层叠加上去,传给楼上的同事。这种方式简单直接,几十年来被几乎所有类似的模型沿用。

然而,研究团队在仔细检查这栋楼的运作方式后,发现了三个严重问题。

第一个问题是"纸条越来越厚"。随着信息从底层一路传到顶层,那张纸条上叠加的内容越来越多,数字越来越大——研究人员测量后发现,从第1层到第28层,这个累积量膨胀了将近100倍(从约15.5暴涨到约1576)。这会导致楼上的办公室越来越难以"看清"自己写下的那一行字相对于整张纸条的重要性,信息被严重稀释。

第二个问题是"上层员工几乎收不到考核反馈"。在AI模型训练期间,系统会通过"错误信号"(即梯度)反向告知每一层"你哪里做得不够好,需要改进"。但研究团队发现,由于那根总线上的数字越来越大,错误信号在往下传递时急剧衰减——前5层的员工能收到清晰的反馈,而楼上20多层的员工收到的信号几乎可以忽略不计,比前5层低了一个数量级以上。这意味着楼上大量的"员工"长期处于几乎没有学习机会的状态,白白浪费了算力。

第三个问题是"相邻楼层在重复做同样的事"。研究团队还测量了相邻两层输出内容的相似程度,结果发现整栋楼的深层区域,相邻两层的输出内容相似度始终高于0.9(满分为1.0)。换句话说,第15层和第16层做的事情几乎一模一样,大量计算在无意义地重复,造成严重浪费。

这三个问题——信息膨胀、梯度衰减、层间冗余——在学术界有一个统称,叫做"PreNorm稀释现象",此前在大型语言模型(如GPT类模型)中也被观察到过。但研究团队指出,在图像生成模型中,还有一个额外维度让问题更加复杂:时间步长(timestep)。

二、图像生成模型特有的时间维度问题

图像生成的过程,可以理解为从一张完全是随机噪点的图片,一步一步"去噪",逐渐还原出清晰图像的过程。这个过程分很多步,每一步对应一个"时间步长"——从接近纯噪声的高噪声阶段,到接近清晰图像的低噪声阶段。

在高噪声阶段,模型需要关注的是图像的整体结构和大致轮廓;在低噪声阶段,模型需要关注的是细节纹理和高频信息。这意味着,在不同的时间步长下,模型各层产出的信息,哪些重要、哪些不重要,应该是动态变化的。

然而,传统的"总线叠加"方式对所有历史层的输出一视同仁,每一层的贡献权重都固定为1,完全不管现在是在高噪声阶段还是低噪声阶段,也不管某一层的输出在此刻是否真的有价值。这就像一个厨师在做菜时,无论是刚开始爆香阶段还是最后收汁阶段,都以完全相同的方式处理所有食材,从不根据烹饪进度调整策略。

研究团队通过一个巧妙的实验验证了这个问题的真实存在。他们在原始模型的每一个历史层输出上,悄悄附加了一个"虚拟开关"(初始化为1,不改变模型实际行为),然后通过计算训练损失相对于这些开关的梯度,来推断"如果这个模型有路由器,它会在不同时间步长下更偏好哪些层的输出"。结果非常清晰:即便原始模型从未被训练去做这种选择,不同时间步长下各层的"理想权重"也明显不同。这说明,对时间步长的感知是图像生成模型的内在需求,只是传统架构没有满足它。

三、新方案:给信息传递装上"智能分配器"

既然发现了问题,研究团队设计了一套新的解决方案——DAR(扩散自适应路由)。

回到那栋办公楼的比喻。原先的做法是,每一层只是把所有前任层的输出统统加在一起,权重相同,传给下一层。DAR的做法是:在每一层,先"回顾"所有前面层输出的内容,用一种类似"注意力"的机制(softmax加权求和),根据当前层的状态和当前所处的时间步长,智能地决定每个历史层的输出应该被分配多少权重,然后用这个加权组合作为当前层的输入。

这就像办公楼里每个楼层在开始工作前,不再机械地翻看所有前辈写下的全部内容,而是先快速扫一眼全部历史资料,根据当前任务的需求,有针对性地重点参考某几层的内容,忽略其他不相关的内容。

具体来说,DAR中的每一层会计算一个"查询向量"(query),用它去匹配所有历史层输出对应的"键向量"(key),通过softmax归一化得到各历史层的权重,最终加权求和。这套机制有三种变体,区别在于"查询向量"如何生成:第一种是静态模式,查询向量是一个固定的可学习参数,本身不随时间步长变化;第二种是显式时间注入模式,在静态参数的基础上叠加模型已有的时间步嵌入信号,让查询向量能感知到当前处于哪个去噪阶段;第三种是动态模式,查询向量由上一层的实际输出经过线性变换得到,由于模型各层的输出本身就携带了丰富的时间步信息,这种方式能隐式地实现时间感知。

研究团队通过实验证明,后两种带有时间步感知的变体,性能显著优于第一种纯静态模式——在100K训练步时,静态模式的FID(衡量图像质量的指标,越低越好)为22.36,而动态模式仅为13.95,显式时间注入模式为17.39。这有力地说明,时间步感知是DAR能够发挥作用的核心要素。

为了进一步验证动态模式"隐式携带时间信息"这一假设,研究团队专门做了一个线性探针实验:冻结已训练好的动态DAR模型,对每一层的聚合输出进行线性回归,看能否准确预测当前的时间步长。结果显示,所有28层的R?(预测准确度,满分1.0)均远高于0.80的基准,前5层就达到0.95以上,深层接近1.0。这证明时间步信息确实被完整地编码在模型各层的动态输出中,动态查询向量因此天然具备强烈的时间感知能力。

四、处理"内存开销"的工程智慧:分块聚合

理论上,DAR需要保存所有历史层的输出,以便在每一层做加权聚合。对于一个有28个块(每块含2个子层,共56个子层)的模型来说,这意味着要储存56份完整的隐藏状态,内存开销会随着层数线性增长,对于更深的模型来说很快就会变得不可接受。

为此,研究团队设计了一种"分块聚合"策略。具体做法是:将所有子层按顺序分成若干块(chunk),每块包含S个子层。当某一子层需要进行聚合时,它能看到的历史信息来自两部分:一是此前所有块各自的"代表"(即每块最后一个子层的输出,作为该块的摘要),二是当前块内在它之前的所有子层输出。这样,聚合时需要处理的来源数量从O(L)降低到O(S+N),其中N是块的数量,S是块的大小。

那么块的大小S该选多少?研究团队从理论上推导出一个成本函数,发现S存在一个最优值:S* = √(L·(1-α)/(1+α)),其中α是一个介于0和1之间的参数,反映分块压缩造成的信息损失程度。对于SiT-XL/2这个模型(共56个子层),代入合理的α范围,预测最优块大小约为3.7到4.9之间,即S=4。实验结果完美印证了这一预测:S=4时FID为8.39,远好于S=1(FID 10.41)和S=8(FID 11.14),呈现出清晰的U形曲线,两端都差,中间最好。

这个理论结果还有一个有趣的推论:随着模型越来越深(L越大),最优块大小S*也应该按√L的规律增大。这意味着当未来的模型扩展到更深的架构时,需要相应地调大块的大小,而不是固定使用S=4。

五、实验验证:数据说话

研究团队在ImageNet 256×256这一标准图像生成基准上,进行了系统性的实验对比。

基准对比方面,原始SiT-XL/2模型(675M参数)训练175万步后,在无分类器引导(CFG)条件下的ODE采样FID为9.67。而DAR静态c4变体同样使用675M参数,仅训练60万步,ODE FID就达到了7.56,提升了2.11分;若使用SDE采样,FID更低至6.92。DAR动态c4变体(751M参数)训练50万步后,ODE FID为8.07,SDE FID为7.39;加上CFG后,ODE FID进一步降至2.05,优于基准的2.15。

换一个更直观的说法:原始模型需要跑175万步才能到达的质量水平,DAR模型只需约20万步就能达到,实现了约8.75倍的训练加速。

为了排除"DAR性能好只是因为参数更多"这一可能的混淆因素,研究团队专门训练了一个叫做"SiT-Plus"的加宽版基准模型,参数量与DAR动态c4相当(752M),且使用了两倍的训练预算(175万步)。结果,SiT-Plus的FID仍然远差于DAR,彻底证明DAR的收益来自架构设计本身,而非单纯的参数扩容。

与U-Net风格跳跃连接的对比也值得一提。此前有一类方法(如U-ViT、U-DiT等)通过手工设计"长跳跃连接",将浅层输出直接传给特定深层,以此改善信息流动。在SDE+CFG条件下,DAR静态c4以仅为U-DiT-L参数量83%的体量,FID仍优于后者0.77分;在ODE条件下,DAR动态c4比U-ViT-H/2改善了0.24分。更重要的是,DAR不需要手工指定哪层连哪层,保留了Transformer天然的"均匀堆叠"结构,有利于未来继续扩展规模。

六、与REPA叠加:两种加速策略互不干扰

REPA是另一种加速DiT训练的方法,其核心思路是在训练时增加一个辅助损失,强制模型中间层的表征对齐预训练视觉编码器(如DINOv2)的输出,从而让模型更快学会有意义的表征。REPA的介入点是训练目标,不涉及模型内部的信息传递方式。

DAR的介入点是模型架构中的残差连接,与训练目标完全无关。两种方法从不同维度各自改善了模型的学习效率,因此理论上可以叠加使用而不会相互抵消。

实验结果印证了这一判断。在100K训练步时,单独使用REPA的FID为9.89,而DAR+REPA组合为7.09;200K步时,分别为6.89和5.92;300K步时,分别为6.29和5.68。尤为值得注意的是,DAR+REPA在100K步时的FID(7.09),已经好过单独使用REPA在200K步时的FID(6.89)。这意味着这两种加速机制叠加后,早期训练阶段相当于实现了约2倍的额外加速,两种方法的收益确实是相加而非相互抵消的。

七、工程优化:让DAR实际可用的底层加速

DAR需要在每一层对所有历史源进行聚合运算,朴素实现会带来严重的性能瓶颈——每次聚合都需要多次读写显存(HBM),当历史源数量N随层数增大时,延迟和内存开销都会急剧攀升。研究团队为此专门实现了一个高效的Triton内核。

核心思路是将整个聚合过程融合进一个单一的CUDA内核:利用在线softmax递推,在一次遍历历史源的过程中,同时完成RMSNorm、点积、归一化和加权求和,使得每个历史源只需从显存读取一次,所有中间结果(如RMS值、键向量、点积值、指数值)都只存在寄存器中,不写入显存。反向传播内核则用两次流式遍历替代原本的四到五次读写。

实测结果(以SiT-XL/2的工作点N=57为例):动态变体的前向延迟从22.5ms降至1.96ms,加速11.5倍;反向从115.8ms降至13.6ms,加速8.5倍;前向激活显存峰值降低78.7%,反向降低74.6%;静态变体的显存节省更高达82.1%。这些节省随N单调递增,意味着随着模型变得更深、历史源更多,这套优化方案的价值只会越来越大。

八、在真实产品模型上的应用:大图像生成后训练

除了在学术基准上的验证,研究团队还将DAR应用于一项更贴近实际产品的任务:对阿里巴巴旗下的大规模文生图模型Qwen-Image进行分布匹配蒸馏(Distribution Matching Distillation,DMD)后训练。

DMD是一种让模型从需要数百步推理压缩到仅需4步推理的技术,但代价是容易丢失图像中的高频细节(如锐利边缘、精细纹理)。研究团队发现,当Qwen-Image配备DAR后,DMD蒸馏得到的模型能更好地保留这些高频细节,视觉质量明显优于未使用DAR的基线。研究团队将此归因于DAR带来的更平衡的梯度流动,使得蒸馏这一本就脆弱的训练过程更加稳定,从而能更好地保留细节信息。具体来说,实验使用了LoRA微调(秩为64),学生分支学习率5×10??,4步去噪,引导系数4.0,在1024×1024分辨率下训练。

说到底,这项研究揭示的是一件长期被忽视的事:AI图像生成模型里,信息究竟是怎样从一层传到另一层的,这件事本身就是一个值得认真设计的问题,而不是直接从语言模型里搬过来就行了。过去几年里,研究者们在模型的方方面面做了大量改进——用更好的编码器、更精妙的训练目标、更强大的文本理解能力——但信息在层与层之间的传递方式,几乎没有人动过。这次研究团队把这个"传统"捡起来仔细审视,发现问题比想象中严重,改进空间也比想象中大。

归根结底,DAR的贡献不在于发明了某种全新的数学工具,而在于把一个正确的问题问到了正确的地方。当一个模型有28层甚至更多层时,每一层应该重点参考哪些历史输出,在去噪的不同阶段应该有不同的答案——这件事应该由模型自己学会,而不是被硬编码成"所有历史输出权重相同"。

对于普通用户而言,这项研究最直接的影响是:未来你使用AI生图工具时,生成同等质量图片所需的训练成本可能大幅降低,而图像的细节质量,尤其是在边缘锐利度和纹理精细度上,可能会有可见的提升。对于研究者而言,这项研究提示了一个值得持续探索的方向:当模型规模继续扩大、层数继续增加时,跨层信息路由的设计将变得越来越重要,DAR可能只是这个方向上的第一步。感兴趣的读者可以通过arXiv编号2605.20708查阅完整论文。

Q&A

Q1:DAR方法和普通残差连接相比,具体改变了什么?

A:普通残差连接会把所有历史层的输出以相同权重(都是1)累加传递给下一层,不管哪层更重要。DAR改成了用softmax加权求和,每一层可以根据当前状态和去噪阶段,动态决定各历史层的贡献比例,权重由模型自己学习,而不是固定为1。

Q2:DAR训练速度提升8.75倍是怎么算出来的?

A:原始SiT-XL/2模型需要训练175万步才能收敛到最终质量(FID约9.67)。DAR静态c4在约20万步时就能达到同等FID水平,175万÷20万≈8.75,所以说是约8.75倍加速。这是在参数量相同(675M)的条件下测量的,排除了参数增多的影响。

Q3:DAR分块聚合的块大小为什么选4而不是其他值?

A:研究团队从理论上推导出最优块大小公式S*=√(L·(1-α)/(1+α))。对于SiT-XL/2(共56个子层),代入合理参数范围后,预测最优值在3.7到4.9之间,即S=4。实验也证实S=4时FID最低,S=1和S=8都更差,呈U形曲线,与理论预测完全吻合。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/30 1:48:26

【限时解密】Lindy 23.2+版本隐藏功能:动态租期重算引擎与IFRS 16/ASC 842双准则自动适配器(仅开放至Q3末)

更多请点击: https://kaifayun.com 第一章:Lindy租赁管理自动化的演进与战略定位 Lindy租赁管理系统的自动化并非一蹴而就的技术叠加,而是伴随业务复杂度提升、合规要求趋严及客户体验升级所驱动的系统性演进。早期以Excel台账和本地数据库为…

作者头像 李华
网站建设 2026/5/30 1:47:24

文泉驿微米黑:5MB极致轻量级开源中文字体完全指南

文泉驿微米黑:5MB极致轻量级开源中文字体完全指南 【免费下载链接】fonts-wqy-microhei Debian package for WenQuanYi Micro Hei (mirror of https://anonscm.debian.org/git/pkg-fonts/fonts-wqy-microhei.git) 项目地址: https://gitcode.com/gh_mirrors/fo/fo…

作者头像 李华
网站建设 2026/5/30 1:45:21

STM32H7串口DMA空闲中断数据采集异常

STM32H7串口DMA空闲中断数据采集异常代号问题描述原因解决方法代号 主机:STM32H7单片机 从机:其他串口模块(固定频率盲发输出) 问题描述 主机和从机通过串口进行通信,主机串口使用DMA空闲中断进行数据接收&#xff…

作者头像 李华
网站建设 2026/5/30 1:43:42

tafunc 与 K 线对齐:布林带均值回归策略最小骨架

前言 自己做指标时,ma 长度和 K 线对不上、前面一串 nan、信号慢半拍,这三件事能把均值回归策略搞废。天勤自带 tafunc 和 ta 模块,能直接对 K 线序列算指标,但仍要遵守和 K 线同样的时点规则:信号用哪根 bar、冷启动怎…

作者头像 李华
网站建设 2026/5/30 1:42:59

第一次作业和第二次作业

第一次作业:1、完成编程环境的安装和配置,成功运行helloworld!jdk,tomcat,maven,vs code。2、编写九九乘法表的jsp页面并打包部署运行。3、编写表单和表单信息接收这两个页面。尝试自学jsp语法并完成。第二…

作者头像 李华