Chandra OCR效果实测：数学试卷识别准确率超GPT-4o-编程实验室

Chandra OCR效果实测：数学试卷识别准确率超GPT-4o

1. 为什么一张数学试卷能成为OCR的“终极考场”

你有没有试过把孩子手写的数学卷子拍照扫进电脑，想自动转成可编辑的Word？结果——公式错位、分数变乱码、选择题选项挤成一团、表格直接消失……最后只能手动重敲两小时。

这不是你的问题，是绝大多数OCR模型在真实教育场景下的常态。

而Chandra OCR，偏偏选了一条最难走的路：专攻“人类最不想处理”的文档类型——老扫描试卷、手写批注、嵌套表格、LaTeX公式混排、多栏试卷、带圈数字序号的填空题……它不只认字，还要理解“这道题在第几页第几栏”“这个根号覆盖哪几个字符”“这个表格的合并单元格逻辑是什么”。

官方在olmOCR基准测试中给出的83.1综合分，不是实验室里的理想数据。它背后是8类真实难题的硬核得分：老扫描数学卷80.3、复杂表格88.0、长段小字号印刷体92.3——三项全部第一。其中，“老扫描数学卷”这一项，直接对标GPT-4o和Gemini Flash 2，Chandra以80.3分胜出（GPT-4o为78.6，Gemini Flash 2为77.1）。

这不是参数堆出来的分数，是模型真正“看懂”了试卷的结构逻辑。

本文不讲架构图、不列训练细节、不谈微调方法。我们用三份真实数学试卷——一份2023年某省中考真题扫描件、一份大学线性代数手写作业、一份带复杂数学公式的国际竞赛模拟卷——全程本地实测，从安装到输出，每一步都截图、每一段结果都比对，告诉你：Chandra到底强在哪，又卡在哪，以及你手头那张RTX 3060能不能跑起来。

2. 本地部署：4GB显存起步，但别信“单卡万能”

2.1 安装不是点下一步，而是看清硬件边界

镜像名称叫chandra，描述写着“基于vLLM的chandra应用，本地安装vLLM，开箱即用”。这句话藏着两个关键事实：

它真能4GB显存跑：我们在一台搭载RTX 3050（4GB显存）的笔记本上，成功加载了chandra-ocrCLI并完成单页PDF识别。过程耗时约1.8秒，内存占用峰值3.2GB，GPU利用率稳定在85%左右。
但它拒绝“勉强运行”：镜像文档里那句“重点：两张卡，一张卡起不来”，不是夸张。我们曾试图在仅有一张RTX 3060（12GB）的机器上，用默认配置启动Streamlit界面，结果报错CUDA out of memory。原因很实在——vLLM后端默认启用tensor_parallel_size=2，即强制双卡并行。哪怕你只有一张卡，它也要按双卡逻辑分配显存。

所以，部署第一步不是pip install，而是确认你的卡数与配置匹配：

# 查看可用GPU nvidia-smi -L # 启动时显式指定单卡模式（关键！） chandra-ocr serve --tensor-parallel-size 1 --gpu-memory-utilization 0.9

重要提示：如果你只有一张卡，请务必在所有启动命令中加入--tensor-parallel-size 1。否则你会反复遇到OOM错误，误以为模型不兼容。

2.2 三种用法，选对入口决定体验流畅度

Chandra提供CLI、Streamlit Web界面、Docker镜像三种入口。我们实测发现，它们并非功能等价，而是面向不同需求：

入口方式	适用场景	实测响应速度	输出灵活性
`chandra-ocr cli`	批量处理目录、脚本集成、CI/CD流程	单页平均1.1s（RTX 3060）	支持Markdown/HTML/JSON三格式一键导出，路径可自定义
`chandra-ocr serve`（Streamlit）	快速预览、交互调试、非技术同事协作	首次加载慢（约8s），后续页面切换快（<1s）	仅支持Markdown预览，无下载按钮，需手动复制
Docker镜像	生产环境部署、多用户服务、权限隔离	启动延迟高（首次拉取+初始化约45s）	完整API接口，支持批量上传、状态轮询、格式指定

我们日常实测主要用CLI。比如处理一个含12页的数学试卷PDF：

# 将试卷PDF转为保留结构的Markdown，输出到output/目录 chandra-ocr convert \ --input ./exams/2023-math-final.pdf \ --output ./output/ \ --format markdown \ --layout-aware true

执行完，output/2023-math-final.md就生成了——不是一堆乱序文字，而是标题分级清晰、公式独立成块、表格保持行列对齐、手写批注标注在对应题号旁。

3. 数学试卷实测：三份真题，逐题拆解识别表现

我们选取三类最具挑战性的数学文档进行实测，所有原始图片均来自公开考试资料（已脱敏），不做任何PS增强或预处理。

3.1 中考真题扫描件：老扫描+低对比度+手写批注

文档特征：2023年某省中考数学卷扫描件（300dpi灰度图），存在轻微倾斜、边缘阴影、部分题目旁有教师红笔手写批注。
Chandra识别亮点：
- 准确识别所有选择题题干与选项，包括带圈数字（①②③④）和字母编号（A. B. C. D.）；
- 手写批注被单独识别为“annotation”区块，并精准锚定到对应题号下方（如“第15题：步骤不全”紧贴题干末尾）；
- 复杂分式（如$\frac{a^2 + b^2}{\sqrt{c} - d}$）完整保留在Markdown中，未被拆解为乱码；
- 表格题（统计表+频数分布）正确还原为Markdown表格，合并单元格逻辑与原图一致。
一处小瑕疵：一道几何题附图中的虚线箭头被误识别为“→”符号，出现在文本流中。但该符号被包裹在<span class="drawing-element">标签内，不影响主体内容提取。

3.2 大学线性代数手写作业：连笔字+公式穿插+涂改痕迹

文档特征：学生用蓝黑墨水手写完成的A4作业纸，含大量矩阵运算、求导过程、交叉涂改、下划线强调。
Chandra识别亮点：
- 连笔字识别率超预期：如“det(A)”被识别为det(A)而非det A或det(A；“R^n”正确输出为R^n；
- 涂改痕迹被智能过滤：被划掉的计算步骤未进入主文本流，仅保留在<del>标签内供人工核查；
- 矩阵表达式（如\begin{bmatrix}1 & 0 \\ 0 & -1\end{bmatrix}）完整输出为LaTeX块，未被截断或转义；
- 手写中文批注（如“此处应加转置”）识别准确，语义连贯。
一处局限：个别极潦草的希腊字母（如手写的θ与φ）被识别为“0”或“p”，但出现频率低（全文共2处），且均位于非关键推导步骤。

3.3 国际竞赛模拟卷：多栏排版+嵌套公式+跨页表格

文档特征：PDF格式，双栏排版，含跨页长表格、多层嵌套积分（如$\int_0^\infty \left( \sum_{n=1}^\infty \frac{x^n}{n!} \right) dx$）、页眉页脚干扰。
Chandra识别亮点：
- 完美识别双栏结构：将左右栏内容按阅读顺序自然拼接，未出现“左栏末尾接右栏开头”的错乱；
- 跨页表格被合并为单个Markdown表格，页中断处自动添加<tr class="page-break-here">标记，方便后续排版处理；
- 嵌套公式层级完整保留，括号匹配、上下标位置精准；
- 页眉“2024 IMC Mock Exam”被识别为<header>区块，页脚“Page 3 of 7”被识别为<footer>，未混入正文。
性能表现：单页处理时间1.3秒（RTX 3060），GPU显存占用稳定在6.2GB，无抖动。

4. 效果对比：Chandra vs GPT-4o，不只是分数高低

我们让同一份数学试卷（中考真题扫描件）分别通过Chandra CLI和GPT-4o Vision API处理，输入完全一致（原始PNG，未压缩），输出均要求Markdown格式。以下是关键维度的直观对比：

维度	Chandra OCR	GPT-4o Vision	差距说明
公式完整性	所有公式100%保留在`$$...$$`或 $...$ 中，LaTeX语法零错误	32%公式被转为纯文本（如`x^2 + y^2 = r^2`→`x2 + y2 = r2`），丢失上下标与符号	Chandra输出可直接编译，GPT-4o输出需人工重写公式
表格还原度	表格结构100%还原，合并单元格、边框线、对齐方式均保留	表格被扁平化为文本列表，行列关系丢失，无法用于数据分析	Chandra输出可粘贴进Excel，GPT-4o输出需重做表格
手写批注定位	批注文本+坐标锚点，精确到题号级	批注被归入“general observations”，未关联具体题目	Chandra支持精准反馈，GPT-4o仅提供泛化总结
处理速度（单页）	1.1秒（本地，无需联网）	平均4.7秒（含API请求+排队+返回）	Chandra快4倍以上，且不依赖网络与配额
输出格式控制	一键生成Markdown/HTML/JSON三格式	仅返回Markdown，且格式不稳定（有时含HTML标签，有时纯文本）	Chandra适配RAG、知识库、排版系统更友好

特别值得注意的是：GPT-4o在识别“选择题选项排列”时，会将A/B/C/D误判为“答案”，而非“选项标签”。例如题干后紧接“A. 2x+1”，GPT-4o可能输出“答案：A”，而Chandra始终输出“A. 2x+1”作为选项文本。

这背后是设计哲学差异：GPT-4o是通用多模态模型，OCR只是其能力之一；Chandra是专为文档理解构建的“布局感知”OCR，它的目标不是“回答问题”，而是“重建文档”。

5. 不只是识别，更是结构化交付：Markdown即产品

Chandra最被低估的价值，不是“识别准”，而是“交付稳”。

它的输出不是一串文字，而是一个结构化信息包。以一份简单数学题为例：

## 第5题（本小题满分8分） > **题干** > 已知函数 $f(x) = \ln(x^2 + 1)$，求其在区间 $[0, 2]$ 上的最大值。 > **手写批注** > *第5题：注意定义域验证* > *(坐标: x=120, y=340, width=210, height=45)* | 步骤 | 内容 | |------|------| | 1 | 求导得 $f'(x) = \frac{2x}{x^2 + 1}$ | | 2 | 令 $f'(x) = 0$，解得 $x = 0$ | | 3 | 计算端点值：$f(0) = 0$，$f(2) = \ln 5$ | | 4 | 最大值为 $\ln 5$ | > **图像引用** > ![](./figures/fig5.png) > *图5：函数图像示意*

这个Markdown文件，你可以：