news 2026/6/16 15:09:58

Pandas 太慢?DuckDB 上手指南:用 SQL 在 Python 中极速查询亿级 CSV 数据

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Pandas 太慢?DuckDB 上手指南:用 SQL 在 Python 中极速查询亿级 CSV 数据

🐢 前言:Pandas 的“阿喀琉斯之踵”

Pandas 是 Python 数据分析的神器,但它有两个致命弱点:

  1. 内存占用高:Pandas 通常需要 5-10 倍于文件大小的内存。处理 1GB 的数据可能需要 10GB 内存。
  2. 单线程执行:默认情况下,Pandas 只能利用一个 CPU 核心,无法榨干现代多核 CPU 的性能。

当数据量达到“亿级”时,我们需要换一种思路:列式存储 + 向量化执行。这就是 DuckDB 的强项。


🦆 一、 什么是 DuckDB?为什么它这么快?

DuckDB 是一个进程内(In-Process)的 SQL OLAP 数据库。

  • 进程内:像 SQLite 一样,无需安装服务器,pip install即可使用。
  • OLAP:专为分析(聚合、排序、连接)优化,采用列式存储
  • 向量化引擎:一次处理一批数据(Vector),而不是一行行处理,极大利用 CPU 缓存。

Pandas vs DuckDB 处理逻辑对比 (Mermaid):

DuckDB (列式/多线程)

流式读取需要的列

CPU Core 1

CPU Core 2

CPU Core 3

CSV 文件

向量化引擎

并行聚合

计算结果

Pandas (行式/单线程)

解析所有列

CPU Core 1

读取 CSV 到内存

内存膨胀 (OOM风险)

计算结果


🛠️ 二、 环境准备

DuckDB 的安装极其简单,没有复杂的配置。

pipinstallduckdb pandas

💻 三、 实战:挑战亿级 CSV 查询

假设我们有一个巨大的销售数据文件sales_data.csv(1 亿行,约 10GB),包含字段:date,product_id,amount

我们的任务是:计算每个月的销售总额。

1. Pandas 的做法 (反面教材)

如果你尝试直接读取,普通笔记本大概率会崩溃:

importpandasaspd# ⚠️ 警告:内存小于 32G 可能直接死机# df = pd.read_csv("sales_data.csv")# result = df.groupby('date')['amount'].sum()
2. DuckDB 的做法 (降维打击)

DuckDB 允许你直接对 CSV 文件写 SQL,它会自动进行流式处理,不会把整个文件读入内存。

importduckdbimporttime start_time=time.time()# 直接将 CSV 文件当作一张表来查询# read_csv_auto 会自动推断类型query=""" SELECT date, SUM(amount) as total_sales FROM read_csv_auto('sales_data.csv') GROUP BY date ORDER BY total_sales DESC """# execute() 执行查询,df() 将结果转换为 Pandas DataFrameresult_df=duckdb.sql(query).df()end_time=time.time()print(f"耗时:{end_time-start_time:.2f}秒")print(result_df.head())

实测结果对比(模拟数据):

  • Pandas: 内存溢出(OOM)或耗时 300秒+。
  • DuckDB: 内存占用 < 1GB,耗时5-10秒

🔗 四、 进阶玩法:DuckDB 与 Pandas 的无缝融合

DuckDB 最强大的地方在于它不排斥 Pandas,而是与其共生。
你可以把 DuckDB 当作 Pandas 的**“外挂加速引擎”**。

场景:查询已有的 DataFrame

如果你已经有一个 DataFrame,但想用 SQL 做复杂的 Join 或 Window Function(窗口函数),DuckDB 可以直接查询 Python 变量!

importpandasaspdimportduckdb# 创建两个普通的 DataFrameusers=pd.DataFrame({'id':[1,2,3],'name':['Alice','Bob','Charlie']})orders=pd.DataFrame({'id':[101,102,103],'user_id':[1,1,2],'amount':[100,200,50]})# 使用 DuckDB 直接关联这两个 DataFrame# 注意:直接在 SQL 中写变量名 'users' 和 'orders'result=duckdb.sql(""" SELECT u.name, SUM(o.amount) as total_spent FROM users u JOIN orders o ON u.id = o.user_id GROUP BY u.name """).df()print(result)

为什么这很牛?
这也是 DuckDB 的黑科技——Zero-Copy (零拷贝)。它通过 Apache Arrow 协议直接读取 Pandas 的内存数据,而不需要复制一份,速度极快。


📂 五、 终极建议:放弃 CSV,拥抱 Parquet

虽然 DuckDB 读 CSV 很快,但 CSV 本身是低效的(文本格式,体积大)。
如果你真的要处理大数据,请将数据转为Parquet格式。

DuckDB 处理 Parquet 简直是光速

# 1. 把 CSV 转 Parquet (只需做一次)duckdb.sql("COPY (SELECT * FROM 'sales_data.csv') TO 'sales_data.parquet' (FORMAT 'PARQUET')")# 2. 查询 Parquet (比 CSV 再快 10 倍)duckdb.sql("SELECT SUM(amount) FROM 'sales_data.parquet'")

🎯 总结

DuckDB 不是要完全取代 Pandas,它们是互补关系:

  • 数据清洗、小规模数据探索:继续用Pandas,API 灵活。
  • 大规模数据聚合、SQL 查询、多表 Join:果断切换DuckDB

在 Python 数据分析的工具箱里,DuckDB 是当下最值得掌握的“屠龙刀”。

Next Step:
找一个你电脑上最大的 CSV 文件(或者去 Kaggle 下载一个 GB 级的数据集),复制上面的代码跑一下,亲自体验一下风扇不再狂转的快感!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 13:16:26

东南亚小语种支持情况?依赖TTS质量

Sonic数字人与东南亚小语种TTS协同应用深度解析 在跨境电商、在线教育和短视频出海的浪潮中&#xff0c;内容本地化正从“可选项”变为“必选项”。尤其面对语言多样、文化差异显著的东南亚市场——泰语的六声调系统、越南语的复杂音变规则、印尼语的区域性口音差异——如何高…

作者头像 李华
网站建设 2026/6/15 12:52:13

2024技术趋势:AI领衔,安全升级

引言部分技术趋势预测的背景与意义CSDN作为技术社区的数据来源价值2023年技术领域的关键事件回顾人工智能与机器学习大模型多模态应用的深化&#xff08;如GPT-5、Gemini演进&#xff09;边缘AI与轻量化模型的落地场景AI伦理与法规的行业影响云计算与原生技术混合云与多云架构的…

作者头像 李华
网站建设 2026/6/15 19:56:23

动作自然流畅:motion_scale保持1.0-1.1防止夸张变形

动作自然流畅&#xff1a;motion_scale保持1.0-1.1防止夸张变形 在虚拟主播24小时不间断带货、AI教师批量生成教学视频的今天&#xff0c;数字人早已不再是影视特效工作室的专属产物。随着Sonic这类轻量级口型同步模型的出现&#xff0c;仅凭一张照片和一段音频就能生成逼真说话…

作者头像 李华
网站建设 2026/6/15 13:52:54

调用频率控制:限制单个账号每秒请求Sonic次数

调用频率控制&#xff1a;限制单个账号每秒请求Sonic次数 在数字人内容爆发式增长的今天&#xff0c;只需一张照片和一段音频就能生成逼真“虚拟主播”的技术已不再是科幻。腾讯联合浙江大学推出的轻量级口型同步模型 Sonic&#xff0c;正悄然改变着短视频创作、在线教育乃至电…

作者头像 李华
网站建设 2026/6/15 4:39:17

大数据领域数据目录的版本管理与更新策略

大数据领域数据目录的版本管理与更新策略&#xff1a;从原理到实战 在大数据时代&#xff0c;企业的数据资产正以指数级速度增长——每天产生的日志、交易记录、用户行为数据被存入数据湖/数据仓库&#xff0c;衍生出数百张分析表、数十个BI报表和机器学习模型。然而&#xff0…

作者头像 李华
网站建设 2026/6/15 11:30:18

亲测好用8个AI论文平台,MBA轻松搞定毕业论文!

亲测好用8个AI论文平台&#xff0c;MBA轻松搞定毕业论文&#xff01; AI 工具如何助力 MBA 撰写高质量论文 MBA 学生在撰写毕业论文时&#xff0c;常常面临时间紧张、内容繁杂、逻辑梳理困难等问题。而随着 AI 技术的不断成熟&#xff0c;越来越多的 AI 工具被引入到学术写作…

作者头像 李华