MinerU是否支持批量处理？shell脚本自动化部署案例-编程实验室

MinerU是否支持批量处理？shell脚本自动化部署案例

1. 引言：让PDF提取更高效

你有没有遇到过这种情况：手头有几十个甚至上百个PDF文件需要转换成Markdown格式，每个都包含复杂的排版、表格、公式和图片？如果一个一个手动处理，不仅耗时耗力，还容易出错。这时候，你就需要一个能“批量干活”的工具。

MinerU 2.5-1.2B 正是为此而生的深度学习 PDF 提取利器。它不仅能精准识别多栏布局、数学公式和复杂表格，还能一键输出结构清晰的 Markdown 文件。更重要的是——它完全支持批量处理！

本文将带你从零开始，用一个简单的 shell 脚本实现 MinerU 的自动化批量部署与执行。无论你是数据工程师、科研人员还是内容创作者，看完就能上手，真正把重复劳动交给机器。

2. 环境准备：开箱即用的预置镜像

我们使用的镜像是专为 MinerU 优化的CSDN星图镜像广场提供的深度学习环境，已预装以下核心组件：

模型版本：MinerU2.5-2509-1.2B + PDF-Extract-Kit-1.0
运行环境：Python 3.10（Conda自动激活）
依赖库：magic-pdf[full],mineru,libgl1,libglib2.0-0等
硬件加速：NVIDIA GPU 支持（CUDA 驱动已配置）

这意味着你不需要再花几小时安装依赖或下载模型权重，进入容器后即可直接运行命令。

默认工作路径为/root/workspace，所有测试文件和脚本都可以放在这里操作。

3. 批量处理的核心思路

3.1 单文件处理回顾

在了解批量之前，先看下单文件是如何运行的：

mineru -p test.pdf -o ./output --task doc

这条命令的意思是：

-p test.pdf：输入文件
-o ./output：输出目录
--task doc：任务类型为文档提取

现在的问题是：如何对多个 PDF 文件重复这个过程？

3.2 自动化解决方案：shell脚本登场

答案就是写一个shell 脚本，让它自动遍历指定目录下的所有.pdf文件，并逐个调用mineru命令进行处理。

这种方法的优势非常明显：

一次编写，永久复用
可以处理任意数量的文件
出错不影响整体流程（可加错误捕获）
完全无需人工干预

4. 实战：编写批量处理脚本

4.1 创建脚本文件

进入/root/workspace目录，创建一个名为batch_extract.sh的脚本文件：

cd /root/workspace touch batch_extract.sh chmod +x batch_extract.sh

使用你喜欢的编辑器（如nano或vim）打开该文件：

nano batch_extract.sh

4.2 脚本内容详解

将以下内容粘贴进去：

#!/bin/bash # 设置输入和输出目录 INPUT_DIR="./pdfs" OUTPUT_DIR="./output" # 创建输出目录（如果不存在） mkdir -p "$OUTPUT_DIR" # 检查输入目录是否存在 if [ ! -d "$INPUT_DIR" ]; then echo "错误：输入目录 $INPUT_DIR 不存在！请确保放置PDF的文件夹存在。" exit 1 fi # 遍历所有PDF文件 for pdf_file in "$INPUT_DIR"/*.pdf; do # 判断是否有匹配的PDF文件 if [ ! -f "$pdf_file" ]; then echo "警告：在 $INPUT_DIR 中未找到任何PDF文件。" continue fi # 获取文件名（不含路径）和基础名称 filename=$(basename "$pdf_file") basename="${filename%.*}" echo "正在处理: $filename" # 执行mineru提取命令 mineru -p "$pdf_file" -o "$OUTPUT_DIR/$basename" --task doc # 检查命令是否成功 if [ $? -eq 0 ]; then echo " 成功提取: $filename -> 输出至 $OUTPUT_DIR/$basename" else echo "❌ 提取失败: $filename" fi done echo " 批量处理完成！结果保存在 $OUTPUT_DIR"

4.3 脚本功能说明

功能	说明
`mkdir -p`	自动创建输出目录，避免报错
`basename`	提取文件名，用于生成独立子目录
`for ... done`循环	遍历所有`.pdf`文件
错误检测	判断目录是否存在、命令是否执行成功
日志输出	显示进度和结果状态，便于调试

这样设计的好处是：每个PDF的输出都单独放在一个子目录中，结构清晰，不会混乱。

5. 使用步骤演示

5.1 准备PDF文件

首先，在/root/workspace下创建一个pdfs文件夹，并上传你的PDF文件：

mkdir -p pdfs # 将你的PDF文件复制或上传到 pdfs/ 目录下

例如：

pdfs/ ├── paper1.pdf ├── report2024.pdf └── thesis.pdf

5.2 运行脚本

执行脚本：

./batch_extract.sh

你会看到类似这样的输出：

正在处理: paper1.pdf 成功提取: paper1.pdf -> 输出至 ./output/paper1 正在处理: report2024.pdf 成功提取: report2024.pdf -> 输出至 ./output/report2024 正在处理: thesis.pdf 成功提取: thesis.pdf -> 输出至 ./output/thesis 批量处理完成！结果保存在 ./output

5.3 查看结果

处理完成后，./output目录结构如下：

output/ ├── paper1/ │ ├── content.md │ ├── images/ │ └── formulas/ ├── report2024/ │ ├── content.md │ ├── images/ │ └── formulas/ └── thesis/ ├── content.md ├── images/ └── formulas/

每个文件夹内都包含了完整的 Markdown 内容及分离的图片、公式资源，可以直接用于后续的内容管理或发布。

6. 高级技巧与优化建议

6.1 控制GPU资源使用

如果你的显存有限（比如小于8GB），可以修改配置文件切换到CPU模式：

编辑/root/magic-pdf.json：

{ "device-mode": "cpu", "models-dir": "/root/MinerU2.5/models" }

虽然速度会慢一些，但能稳定处理大文件，避免OOM（内存溢出）问题。

6.2 添加日志记录功能

你可以将脚本的输出重定向到日志文件，方便追踪历史任务：

./batch_extract.sh >> extraction.log 2>&1

这样所有的运行信息都会保存在extraction.log中，便于排查问题。

6.3 支持子目录递归扫描

如果你想处理嵌套文件夹中的PDF，可以用find命令替代原循环：

find "$INPUT_DIR" -name "*.pdf" | while read pdf_file; do ... done

然后根据路径结构动态生成输出目录即可。

6.4 并行处理提升效率（进阶）

对于大量小文件，可以考虑并行执行。使用&和wait实现简单并发：

max_jobs=4 current_jobs=0 for pdf_file in "$INPUT_DIR"/*.pdf; do mineru -p "$pdf_file" -o "$OUTPUT_DIR/$(basename "${pdf_file%.*}")" --task doc & current_jobs=$((current_jobs + 1)) if [ $current_jobs -ge $max_jobs ]; then wait current_jobs=0 fi done wait

这可以让多个文件同时处理，充分利用GPU算力。

7. 总结

通过本文的实践，你应该已经掌握了如何用shell脚本实现 MinerU 的批量自动化处理。我们从最基础的单文件命令出发，逐步构建了一个健壮、可复用的批量提取系统。

核心要点回顾：

MinerU 支持批量处理，只需结合 shell 脚本即可实现。
脚本应包含目录检查、错误处理、日志输出等基本健壮性设计。
输出建议按文件名分目录存放，保持结构清晰。
可根据硬件条件灵活调整 CPU/GPU 模式，平衡性能与稳定性。
进阶用户可通过并行处理进一步提升效率。

这套方案已经在实际项目中验证过，无论是学术论文归档、企业文档数字化，还是内容迁移工程，都能显著提升工作效率。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

MinerU是否支持批量处理？shell脚本自动化部署案例