腾讯POINTS-Reader：极简中英双语文档转文本神器-编程实验室

腾讯POINTS-Reader：极简中英双语文档转文本神器

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader：端到端文档转换视觉语言模型，结构精简无需后处理。支持中英双语提取，OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量，已支持SGLang部署，vLLM支持即将推出。EMNLP 2025主会收录，开源两阶段数据增强策略，轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

导语：腾讯混元实验室推出POINTS-Reader视觉语言模型，以端到端极简架构实现高质量中英双语文档转换，OmniDocBench评测中中英文分别取得0.133和0.212的优异成绩，同时支持SGLang高效部署，重新定义文档理解技术标准。

行业现状：文档理解技术迎来范式转变

随着数字化转型加速，企业和个人对文档信息提取的需求呈爆发式增长。传统文档处理工具普遍采用多模块流水线架构，需经过图像预处理、文本检测、OCR识别、格式恢复等多个步骤，不仅系统复杂、部署成本高，还存在误差累积问题。据行业调研显示，复杂格式文档（如包含公式、表格的学术论文）的自动化处理准确率长期低于70%，成为制约数字化办公效率的关键瓶颈。

近年来，基于视觉语言模型（VLM）的端到端文档理解技术逐渐成为研究热点。这类模型直接将文档图像映射为结构化文本，大幅简化了传统流程。然而现有方案普遍面临三大挑战：多语言支持不足、复杂版面处理能力有限、推理速度与精度难以兼顾。在此背景下，腾讯混元团队推出的POINTS-Reader模型，通过架构创新和优化策略，为解决这些痛点提供了新思路。

产品亮点：四大核心优势重塑文档转换体验

POINTS-Reader作为腾讯混元WePOINTS系列的新成员，展现出令人瞩目的技术突破，其核心优势体现在四个方面：

极简架构设计：模型完全遵循POINTS1.5的精简结构，仅将语言模型部分替换为更轻量的Qwen2.5-3B-Instruct，实现了"输入即文档图像+固定提示词，输出即最终文本"的端到端流程。这种设计不仅消除了传统流水线的后处理环节，还显著降低了系统复杂度和部署门槛，用户可直接获取可编辑的Markdown格式文本（表格采用HTML格式）。

卓越双语性能：在权威评测集OmniDocBench上，POINTS-Reader英文任务取得0.133的总体编辑距离（越低越好），中文任务达到0.212的高分，尤其在表格提取任务中表现突出，中英文TEDS指标（表格结构相似度）分别达到83.7和85.0，超越多数现有方案。这一成绩证明模型在处理中英双语复杂文档时的强大能力，特别适合跨境企业和多语言办公场景。

高效推理能力：模型采用600M参数的NaViT视觉编码器，在保证精度的同时有效控制计算量。配合SGLang推理框架支持，实现了高吞吐量处理，特别适合企业级批量文档转换需求。官方表示即将推出vLLM支持，进一步提升部署灵活性。据测试数据，在单GPU环境下，模型可实现每秒2-3页A4文档的处理速度，满足大多数实时应用场景。

开源创新策略：POINTS-Reader创新性地提出两阶段数据增强策略：第一阶段利用自动化数据赋予模型基础文档提取能力，第二阶段通过持续自进化提升模型生成数据质量。这种方法不仅提升了模型性能，其自进化机制还具有高度可扩展性，可应用于其他类型模型的优化。相关技术细节已随模型开源，并发表于EMNLP 2025主会。

行业影响：重新定义文档智能处理标准

POINTS-Reader的推出将对多个行业产生深远影响。在金融领域，银行和保险公司可利用该技术快速提取合同条款、表单数据，将文档处理时间从小时级缩短至分钟级；在教育出版行业，学术论文的公式和表格提取准确率提升将加速知识库构建和内容复用；在政府办公场景，多语言文档的自动化处理有助于提高跨部门协作效率。

值得注意的是，模型选择Apache-2.0开源协议，这将极大促进文档理解技术的普及和应用创新。中小企业和开发者无需从零构建模型，可直接基于POINTS-Reader进行二次开发，定制特定领域的文档处理解决方案。预计这一开源策略将催生一批围绕文档智能的创新应用，推动整个行业的技术进步。

与同类产品相比，POINTS-Reader在保持高性能的同时，显著降低了计算资源需求。相比需要10B以上参数的通用视觉语言模型，其3B参数规模更适合边缘计算设备部署，为本地化文档处理提供了可能，满足数据隐私敏感场景的需求。

结论与前瞻：迈向更智能的文档理解未来

POINTS-Reader通过架构精简、性能优化和开源策略，为文档智能处理领域树立了新标杆。其端到端设计思路有效解决了传统方案的复杂性问题，而中英双语支持和高效推理能力则使其具备了广泛的应用前景。随着SGLang和即将到来的vLLM部署支持，模型的实用性将进一步提升。

未来，我们可以期待腾讯混元团队在以下方向持续创新：扩展多语言支持以覆盖更多语种，增强复杂版面（如报纸、多栏文档）的处理能力，以及提升手写体识别准确率。随着技术的不断成熟，文档理解模型有望从单纯的信息提取工具，进化为具备深度语义理解能力的智能助手，为数字化转型注入新的动力。

对于企业用户而言，现在正是评估和部署POINTS-Reader的理想时机，通过采纳这一先进技术，可显著提升文档处理效率，降低运营成本，在数字化竞争中占据先机。而开发者社区的积极参与，将加速这一技术的迭代进化，共同推动文档智能处理领域的创新发展。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

腾讯POINTS-Reader：极简中英双语文档转文本神器