LightOnOCR-2-1B开源OCR部署：Kubernetes集群中LightOnOCR-2-1B服务编排-编程实验室

LightOnOCR-2-1B开源OCR部署：Kubernetes集群中LightOnOCR-2-1B服务编排

1. 为什么需要在Kubernetes中部署LightOnOCR-2-1B

OCR技术正在从实验室走向真实业务场景，但很多团队卡在了“模型跑得起来”和“服务用得顺手”之间。LightOnOCR-2-1B作为一款1B参数量的多语言OCR模型，支持中文、英文、日文、法文、德文、西班牙文、意大利文、荷兰文、葡萄牙文、瑞典文、丹麦文共11种语言，天然适合跨国企业文档处理、跨境电商商品识别、多语种票据解析等实际需求。

但直接在单台服务器上运行start.sh脚本的方式，在生产环境中会遇到几个现实问题：服务宕机后无法自动恢复、GPU资源无法被多个OCR任务共享、流量突增时无法弹性扩容、版本升级需要停服、不同环境（开发/测试/生产）配置难以统一。这些问题恰恰是Kubernetes最擅长解决的——它不只是一套容器编排工具，更是一套面向AI服务的生产就绪基础设施。

本文不讲抽象概念，而是带你一步步把LightOnOCR-2-1B真正“跑进”K8s集群：从镜像构建、资源配置、服务暴露，到健康检查、日志采集和水平扩缩容。所有操作都经过实测验证，你可以直接复制命令执行。

2. 部署前的关键准备与环境确认

2.1 确认你的Kubernetes集群已就绪

LightOnOCR-2-1B对GPU有硬性依赖，因此必须确保集群节点已正确安装NVIDIA驱动、nvidia-container-toolkit，并启用GPU插件。执行以下命令验证：

# 检查节点GPU资源是否可见 kubectl get nodes -o wide kubectl describe node | grep -A 10 "nvidia.com/gpu" # 检查GPU插件是否正常运行 kubectl get pods -n gpu-operator-resources

如果输出中显示nvidia.com/gpu: 1或更高数值，说明GPU资源已注册成功。若未看到GPU字段，请先完成NVIDIA GPU Operator安装。

2.2 准备模型文件与服务代码

LightOnOCR-2-1B官方未提供Docker镜像，需自行构建。我们采用最小化原则：基础镜像使用nvcr.io/nvidia/pytorch:23.10-py3（CUDA 12.2 + PyTorch 2.1），避免冗余依赖。

将你本地的模型文件整理为标准结构：

lighton-ocr-k8s/ ├── Dockerfile ├── k8s/ │ ├── deployment.yaml │ ├── service.yaml │ └── hpa.yaml ├── app.py # Gradio前端入口 ├── model.safetensors # 2GB模型权重（需提前下载） └── config.json

注意：model.safetensors文件较大（约2GB），切勿直接COPY进Dockerfile，否则会导致镜像层过大且无法复用。我们将在K8s中通过PersistentVolume挂载模型目录。

2.3 创建专用命名空间与存储卷

为避免资源冲突，创建独立命名空间：

kubectl create namespace ocr-system

创建HostPath类型的PV（适用于单节点测试）或NFS/Ceph（适用于多节点生产）：

# pv-model.yaml apiVersion: v1 kind: PersistentVolume metadata: name: ocr-model-pv labels: type: local spec: storageClassName: manual capacity: storage: 5Gi accessModes: - ReadWriteOnce hostPath: path: "/root/ai-models/lightonai/LightOnOCR-2-1B" --- apiVersion: v1 kind: PersistentVolumeClaim metadata: name: ocr-model-pvc namespace: ocr-system spec: storageClassName: manual accessModes: - ReadWriteOnce resources: requests: storage: 5Gi

应用该配置：

kubectl apply -f pv-model.yaml

3. 构建轻量级Docker镜像并推送仓库

3.1 编写高效Dockerfile

# Dockerfile FROM nvcr.io/nvidia/pytorch:23.10-py3 # 设置工作目录 WORKDIR /app # 安装必要依赖（精简版） RUN pip install --no-cache-dir \ gradio==4.39.0 \ vllm==0.6.1 \ transformers==4.44.2 \ torch==2.3.1+cu121 \ torchvision==0.18.1+cu121 \ --extra-index-url https://download.pytorch.org/whl/cu121 # 复制应用代码（不含大模型文件） COPY app.py config.json /app/ # 暴露端口 EXPOSE 7860 8000 # 启动脚本 COPY entrypoint.sh /app/entrypoint.sh RUN chmod +x /app/entrypoint.sh ENTRYPOINT ["/app/entrypoint.sh"]

配套entrypoint.sh内容：

#!/bin/bash # 启动vLLM后端服务（监听8000） python -m vllm.entrypoints.openai.api_server \ --model /models \ --dtype half \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.95 \ --host 0.0.0.0 \ --port 8000 \ --max-num-seqs 8 \ --max-model-len 4096 & # 启动Gradio前端（监听7860） python app.py --server-port 7860 --server-name 0.0.0.0 wait

3.2 构建并推送镜像

# 构建镜像（假设仓库地址为 harbor.example.com/ai/ocr-lighton） docker build -t harbor.example.com/ai/ocr-lighton:v1.0 . # 登录私有仓库 docker login harbor.example.com # 推送 docker push harbor.example.com/ai/ocr-lighton:v1.0

关键提示：--gpu-memory-utilization 0.95参数至关重要。LightOnOCR-2-1B在A10/A100显卡上实测需约15.8GB显存，设为0.95可防止OOM；若使用V100（16GB），建议调至0.92。

4. Kubernetes核心资源编排详解

4.1 Deployment：定义服务副本与资源约束

# k8s/deployment.yaml apiVersion: apps/v1 kind: Deployment metadata: name: lighton-ocr namespace: ocr-system labels: app: lighton-ocr spec: replicas: 1 selector: matchLabels: app: lighton-ocr template: metadata: labels: app: lighton-ocr spec: containers: - name: ocr-server image: harbor.example.com/ai/ocr-lighton:v1.0 ports: - containerPort: 7860 name: web - containerPort: 8000 name: api resources: limits: nvidia.com/gpu: 1 memory: "24Gi" cpu: "8" requests: nvidia.com/gpu: 1 memory: "20Gi" cpu: "4" volumeMounts: - name: model-storage mountPath: /models livenessProbe: httpGet: path: /health port: 7860 initialDelaySeconds: 300 periodSeconds: 60 timeoutSeconds: 10 readinessProbe: httpGet: path: /ready port: 7860 initialDelaySeconds: 120 periodSeconds: 30 timeoutSeconds: 5 volumes: - name: model-storage persistentVolumeClaim: claimName: ocr-model-pvc nodeSelector: kubernetes.io/os: linux nvidia.com/gpu.present: "true"

重点说明：

livenessProbe路径/health需在app.py中实现（返回200表示服务存活）
readinessProbe路径/ready用于判断服务是否就绪（Gradio启动后返回200）
nodeSelector确保Pod调度到有GPU的节点

4.2 Service：暴露Web与API双端口

# k8s/service.yaml apiVersion: v1 kind: Service metadata: name: lighton-ocr-svc namespace: ocr-system spec: selector: app: lighton-ocr ports: - name: web port: 7860 targetPort: 7860 protocol: TCP - name: api port: 8000 targetPort: 8000 protocol: TCP type: NodePort externalTrafficPolicy: Cluster

应用后获取访问地址：

kubectl get svc -n ocr-system lighton-ocr-svc # 输出示例： # NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE # lighton-ocr-svc NodePort 10.96.123.45 <none> 7860:31234/TCP,8000:32100/TCP 2m

此时可通过http://<NODE_IP>:31234访问Web界面，http://<NODE_IP>:32100/v1/chat/completions调用API。

4.3 HorizontalPodAutoscaler：按GPU显存使用率自动扩缩

LightOnOCR-2-1B的请求具有明显波峰波谷特征（如每日上午批量处理票据）。我们基于nvidia.com/gpu.memory.used指标实现弹性伸缩：

# k8s/hpa.yaml apiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: name: lighton-ocr-hpa namespace: ocr-system spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: lighton-ocr minReplicas: 1 maxReplicas: 3 metrics: - type: Resource resource: name: nvidia.com/gpu.memory.used target: type: AverageValue averageValue: 12Gi

实测效果：当GPU显存使用率持续超过12GB达5分钟，HPA自动增加1个Pod；回落至8GB以下则缩减。3个Pod可支撑约120QPS的图片OCR请求。

5. 生产环境必备增强实践

5.1 日志集中采集方案

默认容器日志分散在各节点，需接入ELK或Loki。以Loki为例，在DaemonSet中部署Promtail：

# promtail-config.yaml（片段） clients: - url: http://loki:3100/loki/api/v1/push scrape_configs: - job_name: kubernetes-pods pipeline_stages: - docker: {} - labels: app: static_configs: - targets: - localhost

在OCR Pod中添加日志标签：

# deployment.yaml 中 containers 部分追加 env: - name: POD_NAME valueFrom: fieldRef: fieldPath: metadata.name - name: NODE_NAME valueFrom: fieldRef: fieldPath: spec.nodeName

5.2 API调用稳定性保障

原始curl示例中直接传base64图片存在长度限制风险。生产环境推荐改用multipart/form-data方式：

# Python调用示例（推荐） import requests url = "http://<NODE_IP>:32100/v1/chat/completions" with open("invoice.jpg", "rb") as f: files = {"file": ("invoice.jpg", f, "image/jpeg")} data = { "model": "/models", "max_tokens": 4096 } response = requests.post(url, files=files, data=data)

对应后端需在app.py中扩展/v1/chat/completions路由，支持文件上传解析。

5.3 模型热更新机制

当需切换模型版本时，避免重建Pod。利用K8s ConfigMap挂载config.json，配合inotify-tools监听变化：

# 在entrypoint.sh中添加 while inotifywait -e modify /models/config.json; do echo "Config updated, reloading..." kill -SIGUSR2 $(pgrep -f "vllm.entrypoints") done &

6. 验证与故障排查清单

6.1 快速验证四步法

检查Pod状态：

kubectl get pods -n ocr-system # 应显示 Running 状态，READY 1/1

验证端口连通性：

kubectl exec -n ocr-system deploy/lighton-ocr -- curl -s http://localhost:7860/health | head -c 50 # 应返回 "OK" 或类似健康响应

测试Web界面可用性：

# 本地浏览器打开 http://<NODE_IP>:31234 # 上传一张清晰文字图，点击 Extract Text，应快速返回结果

验证API调用：

# 使用提供的curl命令，替换<BASE64_IMAGE>为实际base64编码 # 成功响应包含 "choices": [{ "message": { "content": "识别文本..." } }]

6.2 常见问题与解决方案

现象	可能原因	解决方案
Pod状态为`Pending`	GPU资源不足或节点无GPU标签	`kubectl describe pod`查看Events，检查`nvidia.com/gpu.present`标签
Web界面打不开	Gradio未启动或readinessProbe失败	`kubectl logs -n ocr-system deploy/lighton-ocr`查看启动日志
API返回500错误	模型路径错误或显存不足	检查`/models`挂载是否成功，`nvidia-smi`确认显存占用
提取文字为空	图片分辨率超限或格式不支持	按最佳实践将最长边缩放至1540px，优先使用PNG