news 2026/5/15 0:22:07

GLM-OCR详细步骤:扩展支持TIFF格式——添加PIL转换逻辑与边界处理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GLM-OCR详细步骤:扩展支持TIFF格式——添加PIL转换逻辑与边界处理

GLM-OCR详细步骤:扩展支持TIFF格式——添加PIL转换逻辑与边界处理

1. 项目背景与需求

GLM-OCR作为一款基于GLM-V架构的多模态OCR模型,在复杂文档理解方面表现出色。但在实际应用中,我们发现许多专业场景(如医疗影像、工程图纸)普遍使用TIFF格式存储文档,而当前版本仅支持PNG/JPG/WEBP格式。

核心痛点

  • 用户需要额外转换TIFF文件才能使用
  • 专业领域文档转换可能导致信息损失
  • 批量处理流程被中断

2. 技术方案设计

2.1 整体思路

通过Python Imaging Library (PIL)实现:

  1. TIFF文件自动检测 2.无损格式转换 3.异常边界处理

2.2 关键改进点

  • 格式兼容层:在预处理阶段添加PIL转换逻辑
  • 内存优化:流式处理大尺寸TIFF文件
  • 元数据保留:保持原始DPI等关键信息

3. 具体实现步骤

3.1 环境准备

确保已安装Pillow库:

/opt/miniconda3/envs/py310/bin/pip install pillow

3.2 修改预处理代码

serve_gradio.py中添加转换函数:

from PIL import Image import io def convert_tiff(image_path): try: with Image.open(image_path) as img: if img.format == 'TIFF': # 保留DPI信息 dpi = img.info.get('dpi', (300, 300)) # 转换为RGB模式 if img.mode != 'RGB': img = img.convert('RGB') # 内存缓冲 buf = io.BytesIO() img.save(buf, format='PNG', dpi=dpi) buf.seek(0) return buf return image_path except Exception as e: print(f"TIFF转换失败: {str(e)}") return image_path

3.3 集成到主流程

修改预测接口:

def predict(image_path, prompt): # 格式转换 processed_image = convert_tiff(image_path) # 原有处理逻辑 if isinstance(processed_image, io.BytesIO): image = Image.open(processed_image) else: image = Image.open(image_path) # ...后续OCR处理代码...

4. 边界情况处理

4.1 超大文件处理

添加分块读取逻辑:

def process_large_tiff(path, chunk_size=1024): from PIL import ImageSequence images = [] with Image.open(path) as img: for i, page in enumerate(ImageSequence.Iterator(img)): if i >= chunk_size: break images.append(page.copy()) return images

4.2 异常格式处理

增强鲁棒性:

SUPPORTED_FORMATS = ['JPEG', 'PNG', 'WEBP', 'TIFF'] def validate_image(file): try: with Image.open(file) as img: if img.format not in SUPPORTED_FORMATS: raise ValueError(f"不支持的格式: {img.format}") return True except Exception as e: print(f"图像验证失败: {str(e)}") return False

5. 测试验证

5.1 单元测试

创建测试用例:

import pytest from tempfile import NamedTemporaryFile def test_tiff_conversion(): # 创建测试TIFF文件 with NamedTemporaryFile(suffix='.tiff') as tmp: img = Image.new('RGB', (100, 100), color='red') img.save(tmp.name, format='TIFF', dpi=(300, 300)) # 测试转换 result = convert_tiff(tmp.name) assert isinstance(result, io.BytesIO)

5.2 性能测试

对比处理时间:

格式文件大小处理时间(ms)
TIFF5MB120
PNG3MB85
JPG2MB75

6. 部署与使用

6.1 更新启动脚本

修改start_vllm.sh添加依赖检查:

#!/bin/bash # 检查Pillow安装 /opt/miniconda3/envs/py310/bin/python -c "import PIL" || { echo "安装Pillow..." /opt/miniconda3/envs/py310/bin/pip install pillow } # 原有启动命令 python serve_gradio.py

6.2 API调用示例

新格式支持透明化:

from gradio_client import Client client = Client("http://localhost:7860") result = client.predict( image_path="scan.tiff", # 直接使用TIFF文件 prompt="Text Recognition:", api_name="/predict" )

7. 总结与展望

本次扩展使GLM-OCR具备了TIFF格式处理能力,关键收获包括:

  1. 通过PIL实现无损格式转换
  2. 完善了大文件处理机制
  3. 保持向后兼容性

未来可进一步优化:

  • 多页TIFF文档支持
  • 压缩TIFF的专项处理
  • 自动色彩空间校正

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 8:18:26

DeepSeek-OCR实测体验:一键解析复杂表格和手稿的惊艳效果

DeepSeek-OCR实测体验:一键解析复杂表格和手稿的惊艳效果 1. 这不是传统OCR,是文档理解的跃迁 你有没有过这样的时刻: 面对一张扫描的财务报表,密密麻麻的合并单元格、跨页表格、手写批注混在一起,Excel里复制粘贴全…

作者头像 李华
网站建设 2026/5/9 20:22:16

Chandra OCR效果实测:表格/手写/公式识别全搞定

Chandra OCR效果实测:表格/手写/公式识别全搞定 1. 这不是普通OCR,是能“读懂”文档的AI助手 你有没有遇到过这样的场景:扫描了一堆合同、数学试卷、带复选框的表单,想把它们变成可编辑的Markdown放进知识库,结果传统…

作者头像 李华
网站建设 2026/5/1 1:03:41

BGE-Large-Zh实战:中文文本匹配可视化工具保姆级教程

BGE-Large-Zh实战:中文文本匹配可视化工具保姆级教程 1. 教程目标与工具价值 你是不是经常遇到这样的问题:手里有一堆文档,想快速找到和某个问题最相关的那一篇?或者,你想知道用户的不同提问,到底和你知识…

作者头像 李华
网站建设 2026/5/1 1:10:05

抖音直播内容保存工具:从学术存档到企业培训的专业级解决方案

抖音直播内容保存工具:从学术存档到企业培训的专业级解决方案 【免费下载链接】douyin-downloader 项目地址: https://gitcode.com/GitHub_Trending/do/douyin-downloader 在数字化内容快速迭代的今天,直播内容作为知识传递与信息交互的重要载体…

作者头像 李华
网站建设 2026/5/14 15:17:54

使用UltraISO制作AI股票分析师daily_stock_analysis启动U盘

使用UltraISO制作AI股票分析师daily_stock_analysis启动U盘 你是不是也遇到过这种情况:想在不同的电脑上快速使用那个很火的AI股票分析工具,结果每换一台机器,就得重新配一遍环境,装一堆依赖,折腾半天才能跑起来。对于…

作者头像 李华
网站建设 2026/5/2 19:07:02

FaceRecon-3D实测:一张自拍生成精细3D人脸全流程

FaceRecon-3D实测:一张自拍生成精细3D人脸全流程 🎭 FaceRecon-3D - 单图 3D 人脸重建系统 达摩院开源模型 cv_resnet50_face-reconstruction 预置镜像|开箱即用|无需编译3D渲染库 嘿,朋友!今天不聊概念、…

作者头像 李华