AMD Nitro-E：304M轻量AI绘图，39.3样本/秒极速生成-编程实验室

AMD Nitro-E：304M轻量AI绘图，39.3样本/秒极速生成

【免费下载链接】Nitro-E项目地址: https://ai.gitcode.com/hf_mirrors/amd/Nitro-E

AMD近日推出全新轻量级文本到图像扩散模型Nitro-E，以304M参数实现高效AI绘图，其蒸馏版本在单张AMD Instinct MI300X GPU上可达到39.3样本/秒的极速生成能力，为AI图像生成领域带来性能与效率的双重突破。

当前AI图像生成领域正面临模型规模与推理速度的双重挑战。随着Stable Diffusion、Midjourney等主流模型不断迭代，参数规模已从数亿级向千亿级迈进，但这也导致普通硬件难以承载，且商业部署成本居高不下。行业调研显示，企业级AI绘图应用中，超过60%的算力消耗集中在图像生成环节，如何在保证图像质量的前提下实现轻量化部署，成为制约技术落地的关键瓶颈。

Nitro-E模型家族通过创新架构设计实现了效率突破。其核心是AMD提出的Efficient Multimodal Diffusion Transformer（E-MMDiT）架构，采用" token reduction "设计理念，通过高度压缩的视觉tokenizer生成紧凑表示，并引入多路径压缩模块进一步减少token数量。同时，模型创新性地应用Position Reinforcement技术增强空间连贯性，以及Alternating Subregion Attention（ASA）机制在子区域内执行注意力计算，有效降低计算成本。

该模型系列包含三个版本：基础版Nitro-E-512px（20步生成）、蒸馏版Nitro-E-512px-dist（4步生成）以及采用Group Relative Policy Optimization（GRPO）策略优化的Nitro-E-512px-GRPO。其中蒸馏版本在保持图像质量的同时，将推理步数从20步压缩至4步，配合16位浮点运算（bfloat16）支持，在单张MI300X GPU上实现39.3样本/秒的吞吐量，较同参数规模模型提升近3倍。

训练效率同样令人瞩目。基础模型从 scratch 训练仅需1.5天，在配备8张AMD Instinct MI300X GPU的单节点上即可完成，训练成本较同类模型降低60%以上。训练数据来自约2500万张图像的混合数据集，包括Segment-Anything-1B、JourneyDB、DiffusionDB等公开数据源，确保模型具备丰富的视觉理解能力。

Nitro-E的推出将加速AI图像生成技术的工业化应用。对于内容创作平台，39.3样本/秒的生成速度意味着可同时服务数百名并发用户，且响应延迟控制在毫秒级；在电商领域，该模型可实时生成商品展示图，将传统美工流程从小时级压缩至分钟级；边缘计算场景中，304M的轻量化参数使AI绘图能力可部署在消费级硬件上，为移动设备端AI创作开辟新可能。

值得注意的是，AMD同步开放了Nitro-E的源代码与技术博客，采用MIT许可协议，这将加速学术界对高效扩散模型的研究。行业专家预测，Nitro-E提出的" token压缩 + 子区域注意力 "架构可能成为轻量化扩散模型的标准设计范式，推动AI图像生成从"重算力依赖"向"高效能部署"转型。随着硬件优化与算法迭代的持续结合，未来12个月内，企业级AI绘图的单位算力成本有望降低70%，进一步释放创意产业的数字化潜力。

【免费下载链接】Nitro-E项目地址: https://ai.gitcode.com/hf_mirrors/amd/Nitro-E

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

DDColor建筑黑白修复.实战演示：上传→运行→输出全流程

DDColor建筑黑白修复实战：从上传到输出的完整流程在城市档案馆泛黄的老照片里，一栋百年建筑静静伫立——灰白的墙面、模糊的轮廓，却承载着一段不可替代的历史。如何让这些沉默的影像重新“看见”色彩？这不仅是视觉上的复原&#…

李华

QMC解码器终极指南：3步快速解密QQ音乐加密文件

QMC解码器终极指南：3步快速解密QQ音乐加密文件【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 还在为QQ音乐下载的加密音频无法在其他播放器上正常播放而困扰吗…

李华

Qwen3-VL-A3B：AI视觉交互与编码能力终极突破

导语：Qwen3-VL-30B-A3B-Thinking作为Qwen系列迄今为止最强大的视觉语言模型，通过全面升级的视觉感知、多模态交互与代码生成能力，重新定义了AI在复杂场景下的应用边界。【免费下载链接】Qwen3-VL-30B-A3B-Thinking 项目地址: https://ai.…

李华

ModbusSlave使用教程：工业现场仪表模拟核心技巧

ModbusSlave实战指南：手把手教你模拟工业仪表，高效完成PLC联调在工控项目的调试现场，你是否遇到过这样的窘境？PLC程序早已写好，SCADA画面也已组态完毕，但现场的温度变送器还没到货，压力传感器还…

李华

如何用CLIP-ViT实现零样本图像分类？

零样本图像分类（Zero-shot Image Classification）正成为计算机视觉领域的重要突破，它允许模型识别从未见过的类别，无需额外标注数据。OpenAI开发的CLIP-ViT模型（如clip-vit-base-patch16）正是这一技术的典型…

李华

Source Han Sans TTF：5个步骤打造专业级开源中文字体方案

Source Han Sans TTF：5个步骤打造专业级开源中文字体方案【免费下载链接】source-han-sans-ttf A (hinted!) version of Source Han Sans 项目地址: https://gitcode.com/gh_mirrors/so/source-han-sans-ttf 在数字化内容创作中，中文字体显示质量…

李华