news 2026/5/1 7:53:45

全球首次突破异形框定位难题,百度开源全新OCR模型 PaddleOCR-VL-1.5

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
全球首次突破异形框定位难题,百度开源全新OCR模型 PaddleOCR-VL-1.5

1月29日,百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5。该模型以仅0.9B参数的轻量架构,在全球权威文档解析评测榜单OmniDocBench V1.5中取得全球综合性能第一成绩,整体精度达到94.5%,超过Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等模型。

值得关注的是,PaddleOCR-VL-1.5 全球首次实现OCR模型的“异形框定位”能力,使机器能够精准识别倾斜、弯折、拍照畸变等非规则文档形态,首次让“歪文档”实现稳定、可规模化解析。该技术解决了传统OCR模型在移动拍照、扫描件变形、复杂光照等真实场景中因文档形变导致的识别失败问题,可广泛应用于金融票据处理、档案数字化、政务文档流转等场景。

PaddleOCR-VL-1.5 基于文心大模型进行开发,在 OmniDocBench V1.5多个关键指标上取得领先表现。其中,表格结构理解(92.8 分)和阅读顺序预测(95.8 分)两项核心指标上均位列第一,分别领先 Gemini-3-Pro、DeepSeek-OCR 等主流模型 2–5 分不等。在文档阅读顺序预测任务中,其版面逻辑解析错误率仅为同类其他模型约一半。这表明,PaddleOCR-VL-1.5 在复杂文档结构还原与版面逻辑理解方面具备更高稳定性,在合同、财报等高复杂度业务场景中拥有更高可用性。



2025年10月16日,百度首次发布并开源 PaddleOCR-VL模型,在 OmniDocBench V1.5 榜单中取得全球SOTA成绩,并连续五天登顶 HuggingFace全球模型总趋势榜与ModelScope全球模型总趋势榜双榜第一。

相比于上代,在功能层面,PaddleOCR-VL-1.5 进一步集成印章识别、文本检测与识别等任务能力,关键指标持续领跑;同时针对特殊场景与多语种识别进行系统优化,在生僻字、古籍文献、多语种表格、下划线与复选框等复杂结构识别方面显著提升,并新增对藏语、孟加拉语等语种的支持。模型还支持跨页表格自动合并与跨页段落标题识别,有效解决长文档解析中的结构断裂问题。

近半年来,全球主流模型厂商密集布局 OCR 领域。1月27日,深度求索发布新一代 OCR 模型 DeepSeek-OCR-2,引入“因果流查询”机制,并将语言模型融入视觉编码,在OmniDocBench V1.5中实现91.09%精度。与此同时,Mistral AI、字节跳动、腾讯等企业也相继推出新一代 OCR 模型,行业竞争持续加剧。

业内分析认为,随着大模型加速进入金融、政务、制造等高复杂度业务流程,文档解析能力正从“能用”走向“稳定可规模化落地”。PaddleOCR-VL-1.5 在精度、复杂场景适应性与工程化能力上的系统突破,有望进一步降低产业应用门槛,推动 OCR 技术在真实生产环境中的深度落地。

目前,PaddleOCR-VL-1.5 已全面开源,开发者可通过GitHub、Hugging Face获取,并在 PaddleOCR 官网进行在线体验或通过百度智能云千帆平台调用API接口。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 6:49:33

AI工具存在严重安全脆弱性,治理刻不容缓

企业AI工具在网络攻击面前仍然极易受损,尽管各大企业正在竞相扩大AI工具的应用范围。网络安全公司Zscaler在周二发布的威胁报告中指出了这一问题。报告发现,企业正在向AI工具投入大量数据,"这让AI平台成为全球网络犯罪分子更大的攻击目标…

作者头像 李华
网站建设 2026/5/1 6:49:03

AI运维专家圆桌:新兴技术类别的诞生

随着AI驱动代码生成工具的爆发式增长,运维和安全领域也出现了强烈的AI驱动响应,这并不令人意外。按照定义,SRE和安全专业人员的核心职能就是跟上变化的步伐,快速响应以维护在线系统的可靠性和安全性。这引出了我们要讨论的话题&am…

作者头像 李华
网站建设 2026/5/1 7:01:36

“抖音崩了”冲上热搜,无法正常搜索,刷视频功能未受影响

📌 事件详情 根据大量用户反馈,问题主要表现为:在抖音App中输入关键词后,无法显示正常搜索结果,页面会直接呈现空白或显示“网络错误”。问题主要影响搜索功能,用户仍能正常浏览“推荐”或“关注”页的视频…

作者头像 李华
网站建设 2026/4/25 6:08:08

大模型工程岗位薪资揭秘:AI工程师进阶指南,高薪机会不容错过

本文汇总了量化与AI科技行业的9个高薪AI工程岗位,包括机器学习平台工程师、大模型应用开发、深度学习科学家等,遍布北上深港杭等国内外一线城市。岗位薪资普遍在30k-100k之间,部分高达200w,覆盖顶尖量化、AI科技企业及小而美团队。…

作者头像 李华
网站建设 2026/4/28 19:18:14

大数据架构设计:非结构化数据处理系统搭建

大数据架构设计:非结构化数据处理系统搭建 1. 引入与连接 1.1 引人入胜的开场 想象一下,你置身于一个巨大的数字图书馆中,这里收藏着从古至今的所有书籍、杂志、图片、音频和视频资料。这些资料就像杂乱无章的宝藏,等待着人们去…

作者头像 李华