news 2026/6/15 19:33:30

从PDF中提取Excel,这个工具真的好用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从PDF中提取Excel,这个工具真的好用

因为工作原因,我每天都要接触大量的数据报表,PDF转Excel这种格式转换场景也非常多。

目前市场上有很多pdf工具,大部分是阅读类,也有支持对pdf的修改、转换等功能,但这部分工具不少是收费的。

这次介绍一个开源python工具库-pdfplumber,可以方便地获取pdf的各种信息,包括文本、表格、图表、尺寸等。

python中有很多库可以处理pdf,比如PyPDF2、pdfminer等,那pdfplumber的优势在哪呢?

首先,pdfplumber能轻松访问有关PDF对象的所有详细信息,且用于提取文本和表格的方法高级可定制,使用者可根据表格的具体形式来调整参数。

最关键的是pdfplumber作者持续在维护该库,而同样受欢迎的PyPDF2已经不再维护了。

同其他python库一样,pdfplumber支持使用pip安装,在命令行输入

pip install pdfplumber

如果遇到安装慢的问题,可以替换镜像源,会快很多。

pdfplumber安装后,用import导入即可使用。

再看下如何用pdfplumber提取pdf表格?

以NBA 2020-2021 常规赛数据作为范例,pdf表格如下:

第一步:使用pdfplumber提取表格文本

# 导入pdfplumber import pdfplumber # 读取pdf文件,保存为pdf实例 pdf = pdfplumber.open("E:\\nba.pdf") # 访问第二页 first_page = pdf.pages[1] # 自动读取表格信息,返回列表 table = first_page.extract_table()

输出:

第二步:整理成dataframe格式,保存为excel

import pandas as pd # 将列表转为df table_df = pd.DataFrame(table_2[1:],columns=table_2[0]) # 保存excel table_df.to_excel('test.xlsx') table_df

一个小小的脚本,不到十行代码,便将pdf表格提取并转化为dataframe格式,最终保存到excel。

可见pdfplumber处理PDF表格数据还是蛮方便的,而且比较准确。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 12:40:12

本周学习小结

本次学习主要学习了动态内存分配的核心函数malloc、calloc、realloc和free头文件&#xff1a;所有动态内存函数都需要包含 <stdlib.h>1.malloc函数原型&#xff1a;void* malloc(size_t size)功能&#xff1a;在堆区申请一块大小为 size 字节的连续内存&#xff0c;返回起…

作者头像 李华
网站建设 2026/6/15 13:55:52

Java微服务项目集成Git云效详细教程

目录 一、创建云效组织 二、创建代码仓库 三、生成密钥 四、将项目纳入云效管理 五、创建develop分支 六、develop分支创建后的工作流 阿里云Git https://codeup.aliyun.com/ 没有账号的进行注册登录。 一、创建云效组织

作者头像 李华
网站建设 2026/6/15 13:56:32

【毕业设计】基于微信小程序的育儿平台的设计与实现基于springboot的育儿妈宝小程序的设计与实现(源码+文档+远程调试,全bao定制等)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/6/15 12:41:07

小程序计算机毕设之基于微信小程序的育儿资讯系统的设计与实现基于springboot的育儿妈宝小程序的设计与实现(完整前后端代码+说明文档+LW,调试定制等)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/6/15 14:58:56

IPv4和IPv6 地址分配:从划分到工具全解析

文章目录 一、IPv4地址管理&#xff1a;从基础划分到工具实操1. 基础C段划分&#xff1a;办公室场景首选2. 非C段划分&#xff1a;复杂场景的灵活应对IPSubnetter&#xff08;图形化首选&#xff09; 3. 反码的实用技巧&#xff1a;协议配置必备 二、IPv6地址管理&#xff1a;书…

作者头像 李华
网站建设 2026/6/15 13:29:01

构建自动化 Node.js 项目管理工具:从文件夹监控到一键联动运行

背景 在前端或 Node.js 开发过程中&#xff0c;开发者经常需要管理大量的项目文件夹。频繁地在各个目录间切换、手动打开终端执行 node app.js、再手动打开浏览器输入 localhost:端口&#xff0c;以及定期备份代码到优盘&#xff0c;这些重复性劳动降低了开发效率。为了解决这些…

作者头像 李华