基于DCT-Net模型实现人像卡通化｜快速上手GPU镜像-编程实验室

基于DCT-Net模型实现人像卡通化｜快速上手GPU镜像

1. 镜像概述

本镜像基于经典的DCT-Net (Domain-Calibrated Translation)算法构建，二次开发 Gradio Web 交互界面。用户输入一张人物图像，即可实现端到端全图卡通化转换，生成二次元虚拟形象，并返回卡通化后的结果图像。

镜像名称

DCT-Net 人像卡通化模型GPU镜像

镜像描述

用户输入一张人物图像，实现端到端全图卡通化转换，生成二次元虚拟形象，返回卡通化后的结果图像。

2. 快速上手

2.1 启动 Web 界面 (推荐)

本镜像已配置后台自动管理服务，实例启动后会自动拉起卡通化 Web 服务。

操作步骤：

等待加载：实例开机后，请耐心等待 10 秒左右，系统正在初始化显存及加载模型。
进入界面：点击实例右侧控制面板中的“WebUI”按钮。
开始执行：上传图片，点击“🚀 立即转换”按钮，即可看到人像卡通画照片。

2.2 手动启动或重启应用

如需手动调试或重启应用，请在终端执行以下命令：

/bin/bash /usr/local/bin/start-cartoon.sh

3. 环境说明

组件	版本
Python	3.7
TensorFlow	1.15.5
CUDA / cuDNN	11.3 / 8.2
代码位置	`/root/DctNet`

4. 常见问题

对图片有什么要求？本模型为人像专用，输入包含清晰人脸的照片效果最佳。建议图片分辨率不要超过 2000×2000 以获得最快响应。
使用范围？包含人脸的人像照片（3通道RGB图像，支持PNG、JPG、JPEG格式），人脸分辨率大于100x100，总体图像分辨率小于3000×3000。低质人脸图像建议预先进行人脸增强处理。

5. 参考资料与版权

官方算法：iic/cv_unet_person-image-cartoon_compound-models
二次开发：落花不写码 (CSDN 同名)
更新日期：2026-01-07

6. 引用 (Citation)

@inproceedings{men2022domain, title={DCT-Net: Domain-Calibrated Translation for Portrait Stylization}, author={Men, Yifang and Yao, Yuan and Cui, Miaomiao and Lian, Zhouhui and Xie, Xuansong}, journal={ACM Transactions on Graphics (TOG)}, volume={41}, number={4}, pages={1--9}, year={2022} }

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

FunASR语音识别部署教程：企业级语音质检系统搭建

FunASR语音识别部署教程：企业级语音质检系统搭建 1. 引言 1.1 业务背景与技术需求在金融、客服、教育等行业中，语音数据的自动化处理已成为提升运营效率的关键环节。企业每天产生大量通话录音，传统人工质检方式成本高、覆盖率低、反馈滞后…

李华

GLM-TTS儿童故事创作：生动语调与角色区分技巧

GLM-TTS儿童故事创作：生动语调与角色区分技巧 1. 引言在儿童内容创作领域，语音合成技术正逐步成为提升故事表现力的重要工具。传统的文本转语音（TTS）系统往往语调单一、缺乏情感变化，难以吸引儿童听众的注意力。GLM…

李华

Qwen3-1.7B镜像更新日志解读：新特性与兼容性说明

Qwen3-1.7B镜像更新日志解读：新特性与兼容性说明 1. 技术背景与版本演进 Qwen3（千问3）是阿里巴巴集团于2025年4月29日开源的新一代通义千问大语言模型系列，涵盖6款密集模型和2款混合专家（MoE）架构模型&…

李华

GLM-TTS部署指南：Windows/Linux系统兼容性说明

GLM-TTS部署指南：Windows/Linux系统兼容性说明 1. 快速开始 1.1 启动 Web 界面 GLM-TTS 是由智谱开源的 AI 文本转语音模型，支持零样本语音克隆、情感表达与音素级控制。本项目由科哥进行 webUI 二次开发，提供更友好的交互体验。在 Wind…

李华

保姆级教程：手把手教你用DeepSeek-R1-Distill-Qwen-1.5B做Lora微调

保姆级教程：手把手教你用DeepSeek-R1-Distill-Qwen-1.5B做Lora微调在大模型落地应用的过程中，个性化适配是关键挑战之一。通用大模型虽然能力强大，但在特定业务场景下往往表现不够精准。重新训练一个完整模型成本高昂，而LoRA&am…

李华

vllm+HY-MT1.5-1.8B：低成本高精度翻译系统搭建

vllmHY-MT1.5-1.8B：低成本高精度翻译系统搭建 1. 技术背景与方案概述随着多语言交流需求的不断增长，高质量、低延迟的翻译服务已成为智能应用的核心能力之一。然而，传统大型翻译模型往往依赖高性能GPU集群部署，成本高昂且难以在…

李华