Qwen3-VL-2B部署验收标准：功能与性能测试 checklist-编程实验室

Qwen3-VL-2B部署验收标准：功能与性能测试 checklist

1. 引言

随着多模态大模型在实际业务场景中的广泛应用，视觉语言模型（Vision-Language Model, VLM）的部署质量直接影响用户体验和系统稳定性。本文围绕Qwen/Qwen3-VL-2B-Instruct模型构建的视觉理解服务，制定一套完整的部署验收标准，涵盖功能完整性、接口可用性、推理准确性、响应性能及资源占用等关键维度。

该服务基于官方开源模型实现，支持图像输入下的 OCR 识别、内容描述、图文问答等能力，并集成 WebUI 界面与 Flask 后端 API，专为 CPU 环境优化，适用于低算力边缘设备或轻量级生产环境。为确保其交付质量，需通过系统化的测试流程验证各项指标是否达标。

本 checklist 可作为自动化测试脚本设计依据，也可用于人工验收评审，帮助团队快速定位问题、提升上线效率。

2. 功能测试验证

2.1 模型加载与服务启动

[ ] 服务启动时正确加载Qwen/Qwen3-VL-2B-Instruct模型权重
[ ] 使用float32精度加载，避免精度降级导致语义偏差
[ ] 模型初始化日志清晰可查，包含模型路径、参数规模、设备类型（CPU）
[ ] Flask 服务成功绑定默认端口（如5000），无端口冲突报错
[ ] 健康检查接口/health返回{"status": "ok"}，状态码 200

建议实践：
在容器化部署中，可通过探针调用/health实现 Liveness/Readiness 判断。

2.2 图像上传与预处理

[ ] 支持常见图像格式：JPEG、PNG、BMP、GIF（静态帧）
[ ] 单张图片最大支持尺寸 ≥ 2048×2048 px
[ ] 图像自动缩放至模型输入分辨率（通常为 448×448 或自适应分块）
[ ] 图像通道数转换正确（RGB），透明通道（Alpha）被合理处理
[ ] 上传后前端显示缩略图，且与原图语义一致

2.3 多模态对话功能验证

核心能力测试用例：

测试类别	输入示例	预期输出
物体识别	“图中有哪些物体？”	准确列出主要对象（如“猫、沙发、窗户”）
场景描述	“请描述这张图片的内容。”	生成连贯自然的语言描述，包含空间关系
OCR 文字提取	“提取图中的所有文字。”	完整还原文本内容，保留段落结构
表格理解	“解释这张图表的数据趋势。”	正确解读柱状图/折线图含义，指出峰值、变化方向
细节推理	“这个人穿的是什么颜色的衣服？”	结合局部区域准确回答（如“蓝色T恤”）
抽象问答	“这张图可能是在哪里拍摄的？”	合理推断场景（如“公园”、“办公室”）

[ ] 所有上述用例均能返回非空、语义相关的响应
[ ] 对模糊提问具备一定容错能力（如“说说这个” → 自动关联图像内容）
[ ] 不支持的操作返回友好提示（如“暂不支持视频或多页PDF”）

2.4 WebUI 交互体验

[ ] 页面加载完成后可正常输入文本并上传图片
[ ] 相机图标 📷 点击后触发文件选择框
[ ] 提交问题后显示加载动画，防止重复提交
[ ] AI 回答以流式或整段形式展示，排版清晰
[ ] 历史对话保留在当前会话中，页面刷新不丢失（若启用 session 存储）

3. 接口与集成测试

3.1 API 接口规范性

服务应提供标准 RESTful 接口供外部系统集成：

POST /v1/chat/completions Content-Type: application/json

请求体示例：

{ "model": "qwen3-vl-2b", "messages": [ { "role": "user", "content": [ {"type": "image_url", "image_url": {"url": "data:image/jpeg;base64,..."}}, {"type": "text", "text": "图中有什么？"} ] } ] }

响应体示例：

{ "id": "chat-xxx", "object": "chat.completion", "created": 1717293456, "choices": [ { "index": 0, "message": { "role": "assistant", "content": "图中有一只棕色的小狗在草地上玩耍..." }, "finish_reason": "stop" } ], "usage": { "prompt_tokens": 128, "completion_tokens": 45, "total_tokens": 173 } }

[ ] 接口符合 OpenAI 类似结构，便于迁移适配
[ ]image_url支持 Data URL 编码传输
[ ] 返回字段完整，包含id,created,usage等元信息
[ ] 错误情况返回标准错误码（如 400 参数错误，413 图片过大，500 内部异常）

3.2 跨域与安全性

[ ] 启用 CORS，允许前端域名访问（开发环境可通配*，生产建议限定）
[ ] 敏感头信息未暴露（如Server,X-Powered-By）
[ ] 文件上传路径隔离，防止目录遍历攻击
[ ] 图像数据内存中处理，临时文件及时清理

4. 性能与资源测试

4.1 推理延迟基准测试

在典型 CPU 环境下（Intel Xeon 8C16T @2.4GHz，RAM 32GB），使用以下测试集进行平均延迟测量：

测试类型	图像尺寸	输入长度（token）	平均首词生成延迟	平均总响应时间	是否达标
简单识别	640×480	10	≤ 3.0s	≤ 5.0s	✅
OCR 提取	1024×768	20	≤ 4.0s	≤ 8.0s	✅
复杂推理	1280×960	30	≤ 5.0s	≤ 12.0s	✅

说明：
- “首词生成延迟”指从收到请求到开始流式输出第一个 token 的时间，反映模型唤醒速度
- “总响应时间”指完整回答结束的时间
- 所有测试重复 5 次取平均值，排除冷启动影响

[ ] 冷启动时间（容器启动→服务就绪）≤ 60 秒
[ ] 连续 10 次请求下无明显性能衰减（±15%以内波动）

4.2 内存与 CPU 占用

指标	目标值	实测值	是否达标
模型加载后常驻内存	≤ 6.0 GB	____ GB	✅/❌
峰值内存占用（推理中）	≤ 7.5 GB	____ GB	✅/❌
CPU 平均利用率（连续负载）	≤ 70%	___%	✅/❌
温度控制（物理机）	≤ 75°C	___°C	✅/❌

[ ] 内存泄漏检测：持续运行 2 小时，RSS 内存增长 < 5%
[ ] 多并发请求（≥3）下仍保持响应能力，不崩溃

4.3 批处理与并发能力

[ ] 支持至少 3 个并发会话同时处理
[ ] 并发请求间上下文隔离，无交叉污染
[ ] 高负载时自动排队或限流，返回429 Too Many Requests
[ ] 日志记录每个请求的request_id，便于追踪调试

5. 准确性与鲁棒性评估

5.1 OCR 准确率测试

使用 ICDAR 或自建测试集（含印刷体、手写体、倾斜文本）评估：

图像类型	字符准确率（CACC）	词准确率（WACC）	是否达标
清晰文档	≥ 98%	≥ 95%	✅
轻微模糊	≥ 92%	≥ 85%	✅
复杂背景	≥ 85%	≥ 75%	✅

[ ] 特殊字符（数字、符号、中文标点）识别正确
[ ] 多语言混合文本（如中英文混排）能区分并保留原文

5.2 语义理解一致性测试

对同一图像发起不同表述但语义相近的问题，判断回答是否逻辑一致：

示例：
Q1: “图中有几个人？” → A1: “两人”
Q2: “画面里出现了多少人物？” → A2: “两位人物出现在画面中”
[ ] 至少 90% 的语义等价问题返回一致核心信息
[ ] 回答风格统一，无矛盾陈述（如先说“无人”，后说“三人”）

5.3 异常输入处理

输入类型	预期行为
空图片（纯黑/白）	返回“未检测到有效内容”或合理推测
极小图像（< 64×64）	自动上采样或提示“分辨率过低”
损坏文件（非图像）	返回 400 错误，提示“无法解析图像格式”
Base64 编码错误	返回 400，明确指出编码问题
超长文本提问（>100 tokens）	截断或拒绝，返回错误说明

[ ] 所有异常情况均有明确错误提示，不抛出堆栈异常
[ ] 服务进程不因单个错误请求而终止

6. 总结

6.1 验收结论 checklist

类别	检查项	是否通过
功能完整性	模型加载、图像上传、多模态问答	✅
接口规范性	API 兼容性、错误码、CORS	✅
用户体验	WebUI 可用性、响应反馈	✅
推理性能	首词延迟、总耗时、并发支持	✅
资源消耗	内存、CPU、温度控制	✅
内容准确性	OCR、语义理解、逻辑一致性	✅
系统鲁棒性	异常处理、稳定性、安全性	✅