国产图像编辑大模型再突破：阶跃星辰Step1X-Edit开源，190亿参数刷新开源性能纪录-编程实验室

国产图像编辑大模型再突破：阶跃星辰Step1X-Edit开源，190亿参数刷新开源性能纪录

【免费下载链接】Step1X-Edit-v1p2-preview项目地址: https://ai.gitcode.com/StepFun/Step1X-Edit-v1p2-preview

中文科技资讯 2025-04-27 15:51

在人工智能图像生成与编辑领域持续突破的浪潮中，国内AI企业阶跃星辰今日正式对外发布重磅成果——开源图像编辑大模型Step1X-Edit。该模型凭借190亿参数量的深度架构设计，在多项核心编辑任务中展现出超越现有开源方案的性能表现，标志着国产多模态编辑技术在开源生态建设中迈出关键一步。

Step1X-Edit采用创新的双引擎架构设计，将70亿参数的多模态大语言模型（MLLM）与120亿参数的扩散变换模型（DiT）深度融合。这种"理解-生成"双轮驱动模式，使模型同时具备精准的自然语言指令解析能力和高效的图像空间变换能力。据技术团队介绍，该模型经过大规模图文对数据训练与多任务场景优化，已实现语义理解准确率提升40%、编辑区域控制精度达像素级的技术突破，在开源社区常用的图像编辑评测集上取得综合评分第一的成绩。

针对当前图像编辑领域三大核心痛点，Step1X-Edit构建了全方位的技术解决方案。在语义理解层面，模型支持复杂长指令解析与多轮对话式编辑，能够精准捕捉"将左侧人物衬衫更换为蓝色条纹款式并保留原有褶皱质感"等精细化需求；在身份一致性保持方面，通过引入跨帧特征对齐机制，使连续编辑过程中人物面部特征、肢体姿态的保持率提升至92%，有效解决传统模型易出现的"人脸变形""姿态漂移"问题；而在区域控制精度上，创新的掩码引导生成技术可实现发丝级区域分割，配合自适应风格迁移算法，确保局部编辑与原图风格的自然融合。

该模型现已支持11类高频图像编辑任务，涵盖文字内容替换、艺术风格迁移、物体材质变换、场景元素增减、表情姿态调整等主流应用场景。在电商商品图优化场景中，商家可通过自然语言指令快速实现商品颜色变体生成；在数字内容创作领域，设计师能够精准调整图像局部光影效果；在社交媒体内容生产中，普通用户也可轻松完成专业级人像精修。技术团队同步发布的API接口支持Python调用与Web端可视化操作两种模式，降低了开发者的接入门槛。

为推动开源生态建设，阶跃星辰已在Gitcode平台开放模型完整训练代码、预训练权重及技术白皮书。开发者可通过访问https://gitcode.com/StepFun/Step1X-Edit-v1p2-preview获取相关资源，同时社区将提供持续的技术支持与模型迭代更新。据了解，该模型支持单卡消费级GPU推理，在NVIDIA RTX 4090硬件环境下，512x512分辨率图像的编辑生成时间可控制在8秒以内，具备良好的落地应用可行性。

业内专家表示，Step1X-Edit的开源发布不仅为科研机构提供了高质量的研究基底，更为企业级应用开发提供了可靠的技术选型。随着该模型在内容创作、广告设计、影视后期等领域的广泛应用，有望推动数字创意产业的智能化升级，同时加速形成"开源共享-协同创新-产业落地"的良性发展循环。未来，随着多模态理解能力的持续深化与编辑任务边界的不断拓展，图像编辑技术将向更智能、更自然的人机协作模式演进。

【免费下载链接】Step1X-Edit-v1p2-preview项目地址: https://ai.gitcode.com/StepFun/Step1X-Edit-v1p2-preview

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

36、Linux内核中的同步原语：信号量与互斥锁详解

Linux内核中的同步原语：信号量与互斥锁详解 1. 信号量简介在Linux内核中，信号量是另一种支持线程或进程同步的机制。此前我们了解过自旋锁，它主要用于短时间的加锁场景，在加锁期间不允许进程或线程睡眠，并且为避免死锁会禁用抢占，不允许进行上下文切换。而信号量则适…

李华

Text-Embedding-Ada-002：技术原理、性能评估与应用实践综述

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！ 1 引言：文本嵌入的统一化革新在自然语言处理&#xff08…

李华

12、Linux 网络中的 BPF 应用与数据包过滤

Linux 网络中的 BPF 应用与数据包过滤 1. BPF 概述与应用场景在网络领域，BPF（Berkeley Packet Filter）程序主要用于两个方面：数据包捕获和过滤。用户空间程序可以为任何套接字附加过滤器，提取流经该套接字的数据包信息，并根据需要允许、禁止或重定向特定类型的数据包。…

李华

哔哩下载姬完整指南：5步掌握B站视频高效下载技巧

哔哩下载姬完整指南：5步掌握B站视频高效下载技巧【免费下载链接】downkyi 哔哩下载姬downkyi，哔哩哔哩网站视频下载工具，支持批量下载，支持8K、HDR、杜比视界，提供工具箱（音视频提取、去水印等&#xff09…

李华

英伟达Audio Flamingo 3震撼发布：全开源音频大模型改写行业格局

2025年7月18日，英伟达正式推出新一代音频大语言模型Audio Flamingo 3（以下简称AF3），这款完全开源的突破性产品在语音识别、环境音效解析和音乐生成等核心领域实现全面超越。作为业界首个支持多模态音频交互的基础模型，…

李华

Ring-1T重磅发布：万亿参数思维模型开启开源推理新纪元

今日，我们正式推出万亿参数思维模型Ring-1T，实现发布即开源的重大突破。开发者可通过Hugging Face与ModelScope平台获取模型权重，或直接通过灵犀聊天页面与ZenMux平台体验对话交互及API调用服务（相关链接详见文末）。作…

李华