如何设置GPEN输入尺寸？不同分辨率适配实战-编程实验室

如何设置GPEN输入尺寸？不同分辨率适配实战

本镜像基于GPEN人像修复增强模型构建，预装了完整的深度学习开发环境，集成了推理及评估所需的所有依赖，开箱即用。

1. 镜像环境说明

组件	版本
核心框架	PyTorch 2.5.0
CUDA 版本	12.4
Python 版本	3.11
推理代码位置	`/root/GPEN`

主要依赖库：

facexlib: 用于人脸检测与对齐
basicsr: 基础超分框架支持
opencv-python,numpy<2.0,datasets==2.21.0,pyarrow==12.0.1
sortedcontainers,addict,yapf

2. 快速上手

2.1 激活环境

conda activate torch25

2.2 模型推理 (Inference)

进入代码目录并使用预置脚本进行推理测试：

cd /root/GPEN

使用下面命令进行推理测试，可以通过命令行参数灵活指定输入图片。

# 场景 1：运行默认测试图 # 输出将保存为: output_Solvay_conference_1927.png python inference_gpen.py # 场景 2：修复自定义图片 # 输出将保存为: output_my_photo.jpg python inference_gpen.py --input ./my_photo.jpg # 场景 3：直接指定输出文件名 # 输出将保存为: custom_name.png python inference_gpen.py -i test.jpg -o custom_name.png

推理结果将自动保存在项目根目录下，测试结果如下：

3. GPEN输入尺寸机制解析

3.1 输入尺寸的底层逻辑

GPEN（GAN-Prior based Enhancement Network）采用多尺度生成器结构，其输入尺寸直接影响修复质量、推理速度和显存占用。模型通过预设的“分辨率等级”来控制处理流程，而非任意缩放。

在源码中，输入图像会经过以下处理链路：

人脸检测与对齐：使用facexlib中的 RetinaFace 检测关键点，裁剪出标准人脸区域。
尺寸归一化：将人脸区域调整至预训练时使用的标准尺寸（如 512×512）。
特征映射增强：利用 GAN prior 进行细节恢复。
反向贴回原图：将增强后的人脸重新融合到原始图像中。

因此，实际影响效果的是模型内部设定的“目标分辨率”，而非直接传入的图像大小。

3.2 支持的分辨率等级

GPEN官方提供了多个预训练权重对应不同分辨率等级，常见包括：

分辨率等级	推荐用途	显存需求	处理时间（单张）
256×256	快速预览、移动端适配	< 4GB	~0.8s
512×512	平衡画质与性能（推荐）	6–8GB	~1.5s
1024×1024	高清打印、专业后期	> 12GB	~3.2s

注意：若输入图像远大于目标分辨率，系统会自动分块处理（tiling），否则可能导致 OOM 错误。

4. 不同分辨率适配实战

4.1 修改输入尺寸的核心参数

在inference_gpen.py脚本中，可通过以下参数控制输入尺寸行为：

parser.add_argument('--size', type=int, default=512, help='Resolution of the image') parser.add_argument('--channel', type=int, default=3, help='Color channels') parser.add_argument('--tile_size', type=int, default=None, help='Tile size for large images')

示例：强制以 256×256 模式运行

python inference_gpen.py --input my_face.jpg --size 256

该命令将人脸区域统一缩放到 256×256 进行增强，适合低算力设备或批量处理场景。

4.2 大图分块处理（Tiling）

当输入图像超过 1024×1024 或显存受限时，建议启用分块模式：

python inference_gpen.py --input crowd.jpg --size 512 --tile_size 512

--size 512：表示每个 tile 使用 512×512 的增强模型
--tile_size 512：将大图切分为 512×512 的小块分别处理

优势：避免显存溢出，支持超高分辨率输入
注意事项：需确保相邻块之间有适当重叠（overlap），防止边缘伪影

4.3 自定义分辨率适配策略

虽然 GPEN 不支持任意尺寸端到端训练，但可通过后处理实现非标输出。例如生成 720p（1280×720）人像：

步骤一：先以 1024×1024 模式增强人脸

python inference_gpen.py --input portrait.jpg --size 1024 --output temp_enhanced.png

步骤二：使用 OpenCV 缩放并居中填充

import cv2 import numpy as np def resize_to_720p(image_path, output_path): img = cv2.imread(image_path) h, w = img.shape[:2] # 计算等比缩放后的尺寸 scale = 720 / max(h, w) new_w, new_h = int(w * scale), int(h * scale) resized = cv2.resize(img, (new_w, new_h), interpolation=cv2.INTER_LANCZOS4) # 创建黑色背景的 1280×720 图像 canvas = np.zeros((720, 1280, 3), dtype=np.uint8) x_offset = (1280 - new_w) // 2 y_offset = (720 - new_h) // 2 canvas[y_offset:y_offset+new_h, x_offset:x_offset+new_w] = resized cv2.imwrite(output_path, canvas) resize_to_720p("temp_enhanced.png", "output_720p.png")

此方法可在保持高质量细节的同时满足特定分辨率输出需求。

5. 性能优化与避坑指南

5.1 显存不足问题解决方案

问题现象	原因分析	解决方案
CUDA out of memory	输入过大或 batch_size > 1	设置`--tile_size`启用分块
推理卡顿、延迟高	使用 1024 模型但 GPU 较弱	切换为`--size 512`
输出模糊	输入过小导致信息丢失	确保原始图像 ≥ 目标尺寸

5.2 多人像场景处理技巧

GPEN 默认只处理第一张检测到的人脸。对于多人合影，可结合face_detection工具批量提取人脸后再逐个增强：

from facexlib.detection import RetinaFaceDetector detector = RetinaFaceDetector() faces = detector.detect_faces(image) for i, face in enumerate(faces): x1, y1, x2, y2 = map(int, face[:4]) crop = image[y1:y2, x1:x2] cv2.imwrite(f"face_{i}.jpg", crop) # 再调用 GPEN 增强每张子图

5.3 批量处理脚本示例

#!/bin/bash for img in ./input/*.jpg; do filename=$(basename "$img" .jpg) python inference_gpen.py --input "$img" --size 512 --output "./output/${filename}_enhanced.png" done

将上述内容保存为batch_process.sh并执行，即可完成整个文件夹的自动化增强。

6. 总结

6.1 核心要点回顾

GPEN 的输入尺寸由--size参数控制，常用值为 256、512、1024。
实际处理的是对齐后的人脸区域，非整图直接放大。
大图应启用--tile_size实现分块推理，避免显存溢出。
可通过后处理（缩放+填充）适配任意输出分辨率。
多人像需先分割再单独增强。

6.2 最佳实践建议

日常使用推荐--size 512：兼顾质量与效率，适用于大多数场景。
高清输出优先选择--size 1024+ tiling：保障细节还原度。
移动端部署考虑量化版本：可自行导出 ONNX 模型并使用 TensorRT 加速。
避免过度降噪：GPEN 本身已包含去噪模块，无需前置滤波。

掌握输入尺寸的设置逻辑，是充分发挥 GPEN 人像增强能力的关键一步。合理配置不仅能提升视觉效果，还能显著优化资源利用率。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

如何设置GPEN输入尺寸？不同分辨率适配实战