news 2026/6/15 14:24:09

modelscope 上PaddleOCR-VL 部署(2026年1月17日亲测可用)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
modelscope 上PaddleOCR-VL 部署(2026年1月17日亲测可用)

PaddleOCR-VL 部署

创建时间: 2026-01-16
环境: ModelScope PAI-DSW 免费实例


环境配置

组件版本
系统Ubuntu 22.04
CUDA12.4.0
Python3.11.11
PyTorch2.9.1
cuDNN1.33.0
CPU8核
内存32GB
显存24GB
剩余额度13小时30分钟

虚拟环境

wgethttp://qiniu.dywlkj.com/uv_for_linux_x86/install.sh -O -|sh

uv 安装信息

  • uv 版本:0.8.22
  • 已安装命令:uvuvx

会话管理命令(推荐使用 screen 或 tmux 后台运行)

功能screen 命令tmux 命令
新建命名会话screen -S 名字tmux new -s 名字
列出所有会话screen -lstmux ls
重新连接会话screen -r 名字tmux attach -t 名字
detach(后台运行)Ctrl+A → DCtrl+B → D
退出并关闭会话exit或 Ctrl+Dexit或 Ctrl+D

更换国内镜像源(加速下载)

方法1:临时环境变量(单次生效)
# 使用阿里云镜像源exportUV_INDEX_URL=https://mirrors.aliyun.com/pypi/simple/ uv pipinstall[包名]
常用镜像源列表
来源镜像源
阿里云https://mirrors.aliyun.com/pypi/simple/
清华大学https://pypi.tuna.tsinghua.edu.cn/simple/
豆瓣https://pypi.doubanio.com/simple/
华为云https://repo.huaweicloud.com/repository/pypi/simple/
示例
wgethttp://qiniu.dywlkj.com/uv_for_linux_x86/install.sh -O -|shexportUV_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple/

or

cat<<'EOF'>uv.toml[[index]] name = "aliyun" url = "https://mirrors.aliyun.com/pypi/simple/" default = true EOFuv pipinstallmodelscope

uv 常用命令

  • uv—— 快速创建虚拟环境、安装包
  • uvx—— 直接运行 Python 工具(如uvx black

虚拟环境操作

# 路径/mnt/workspace/paddleocr-vl/.venv# 创建命令mkdir-p /mnt/workspace/paddleocr-vlcd/mnt/workspace/paddleocr-vl uv venv --python3.11# 激活命令source.venv/bin/activate

PaddleOCR vs PaddleOCR-VL

核心区别

特性PaddleOCRPaddleOCR-VL
定位传统 OCR 工具库多模态文档理解框架
能力文本检测+识别视觉+语言多模态理解
输出纯文本结构化数据+问答+理解
架构CNN + CRNNMultimodal Transformer (ViT + LLM)
模型PP-OCR, PP-StructureNaViT + ERNIE-4.5-0.3B
资源需求轻量级,CPU可用需要GPU,较大显存
速度相对较慢
理解能力文本提取文档语义理解

联系

PaddleOCR (基础层) ↓ └─> 文本检测/识别能力 ↓ PaddleOCR-VL (增强层) ↓ └─> 基于PaddleOCR + 多模态大模型 └─> 文档理解、问答、推理

PaddleOCR-VL 核心信息

模型规格

组件规格
模型名称PaddleOCR-VL-0.9B
视觉编码器NaViT 风格动态分辨率
语言模型ERNIE-4.5-0.3B
多语言支持109 种语言
识别能力文本、表格、公式、图表

GitHub & 文档

  • GitHub: https://github.com/PaddlePaddle/PaddleOCR-VL
  • ModelScope: https://modelscope.cn/models/PaddlePaddle/PaddleOCR-VL

安装方案

推荐方案

# 激活环境source.venv/bin/activate# 安装 PaddlePaddle-GPU 3.2.0UV_HTTP_TIMEOUT=3600uv pipinstallpaddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/# 安装 PaddleOCR-VLUV_HTTP_TIMEOUT=3600uv pipinstall-U"paddleocr[doc-parser]"

备选方案(cu126 失败时)

# 使用 cu124 版本UV_HTTP_TIMEOUT=3600uv pipinstallpaddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu124/UV_HTTP_TIMEOUT=3600uv pipinstall-U"paddleocr[doc-parser]"

验证安装

# 检查 PaddlePaddle 版本和 CUDA 支持python -c"import paddle; print(paddle.__version__); print(paddle.device.cuda.device_count())"# 检查 PaddleOCR-VLpython -c"from paddleocr import PaddleOCRVL; print('PaddleOCR-VL installed successfully')"

使用 ModelScope 下载 PaddleOCR-VL 模型

frommodelscopeimportsnapshot_download MODEL_NAME="PaddlePaddle/PaddleOCR-VL"MODEL_ID="PaddleOCR-VL"SAVE_DIR=f"/mnt/workspace/models/{MODEL_ID}"if__name__=="__main__":print(f"正在从 ModelScope 下载模型:{MODEL_NAME}")print(f"保存目录:{SAVE_DIR}")print("-"*50)model_dir=snapshot_download(MODEL_NAME,cache_dir=SAVE_DIR,revision="master",)print("-"*50)print(f"模型下载完成!")print(f"模型路径:{model_dir}")

使用 ModelScope 下载 PP-DocLayoutV2 模型

frommodelscopeimportsnapshot_download MODEL_NAME="PaddlePaddle/PP-DocLayoutV2"MODEL_ID="PP-DocLayoutV2"SAVE_DIR=f"/mnt/workspace/models/{MODEL_ID}"if__name__=="__main__":print(f"正在从 ModelScope 下载模型:{MODEL_NAME}")print(f"保存目录:{SAVE_DIR}")print("-"*50)model_dir=snapshot_download(MODEL_NAME,cache_dir=SAVE_DIR,revision="master",)print("-"*50)print(f"模型下载完成!")print(f"模型路径:{model_dir}")

Key Installation Commands

# Install PaddlePaddle-GPU with CUDA 12.6 supportUV_HTTP_TIMEOUT=3600uv pipinstallpaddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/# Install PaddleOCR-VL with document parser capabilitiesUV_HTTP_TIMEOUT=3600uv pipinstall-U"paddleocr[doc-parser]"# Install vLLM server dependencies (for production deployment)paddleocr install_genai_server_deps vllm# Install flash-attention for GPU acceleration (from pre-built wheel)# Check CUDA version first: nvidia-smi | grep "CUDA Version"pipinstallhttps://github.com/Dao-AILab/flash-attention/releases/download/v2.7.3/flash_attn-2.7.3+cu12torch2.8cxx11abiFALSE-cp311-cp311-linux_x86_64.whl# Or compile from source (if wheel doesn't match your environment)pip uninstall -y flash_attn pipinstallpackaging ninja pipinstallflash-attn --no-build-isolation

Production Deployment Workflow

Complete Setup Flow (Verified Working)

Step 1: Environment Activation

source.venv/bin/activate

Step 2: Install Dependencies

# Core packagespaddleocr install_genai_server_deps vllm# Flash-attention (GPU acceleration)# Download wheel locally first, then installwgethttp://qiniu.dywlkj.com/deepseek-ocr-vllm/flash_attn-2.7.3%2Bcu12torch2.8cxx11abiFALSE-cp311-cp311-linux_x86_64.whl pipinstall./flash_attn-2.7.3+cu12torch2.8cxx11abiFALSE-cp311-cp311-linux_x86_64.whl# Verify installationpython -c"import flash_attn; print(flash_attn.__version__)"# Expected output: 2.7.3

Step 3: Start vLLM Server

paddlex_genai_server\--model_name PaddleOCR-VL-0.9B\--model_dir /mnt/workspace/models/PaddleOCR-VL/PaddlePaddle/PaddleOCR-VL\--backend vllm\--host0.0.0.0\--port8118

Step 4: Verify Server Status

# Check server healthcurlhttp://127.0.0.1:8118/health# List available modelscurlhttp://127.0.0.1:8118/v1/models# Expected response:# {"data":[{"id":"PaddleOCR-VL-0.9B","object":"model",...}],"object":"list"}

PaddleX Layout Parsing API

paddlex --serve\--pipeline ./config/PaddleOCR-VL.yaml\--host0.0.0.0\--port10800\--paddle_model_dir /mnt/workspace/paddleocr-vl
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 14:22:29

即插即用系列(代码实践)专栏介绍

把论文&#xff0c;真正变成你能直接用的代码 写在前面&#xff1a; 这篇文章不是为了“卖课”&#xff0c;而是想认真解释一件事—— 为什么我会花大量时间&#xff0c;把顶会论文拆成即插即用的代码模块。 如果你正好也在做科研、写论文、改网络结构&#xff0c;希望这篇文章…

作者头像 李华
网站建设 2026/6/15 0:16:23

Springboot基于双减政策的家校互动管理系统8e613(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。

系统程序文件列表项目功能&#xff1a;家长,教师,学生信息,班级,班务活动,班级公告,校园资讯,计划安排,延时服务,参与服务,学生成绩,家长反馈,家长警告,教师警告,资讯类型,学校基础信息开题报告内容SpringBoot基于“双减”政策的家校互动管理系统开题报告一、研究背景与意义研究…

作者头像 李华
网站建设 2026/6/14 5:31:24

【毕业设计】基于springboot的学车驾校线上理论学习刷题管理系统的设计与实现(源码+文档+远程调试,全bao定制等)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华