news 2026/5/1 7:29:31

Pandas库基础概念和基础操作

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Pandas库基础概念和基础操作

Pandas 是 Python 中用于数据分析和处理最流行的开源库之一,建立在 NumPy 之上,提供了高性能、易用的数据结构和数据分析工具。它特别适合处理结构化数据(如表格型或异质型数据)。以下是 Pandas 的基础概念详细介绍:


一、核心数据结构

Pandas 主要有两个核心数据结构:

1.Series

  • 一维带标签的数组,可以保存任何数据类型(整数、字符串、浮点数、Python 对象等)。
  • 类似于带索引的 NumPy 数组。
  • 每个元素都有一个对应的标签(称为 index)。
importpandasaspd s=pd.Series([1,3,5,7],index=['a','b','c','d'])print(s)

输出:

a 1 b 3 c 5 d 7 dtype: int64

特点:

  • 自动对齐索引(在运算时非常有用)
  • 支持向量化操作
  • 可以看作是字典和数组的结合体

2.DataFrame

  • 二维表格型数据结构,类似于 Excel 表格或 SQL 表。
  • 每列可以是不同的数据类型(但同一列内类型一致)。
  • 具有行索引(index)和列索引(columns)。
df=pd.DataFrame({'Name':['Alice','Bob','Charlie'],'Age':[25,30,35],'City':['New York','Paris','Tokyo']})print(df)

输出:

Name Age City 0 Alice 25 New York 1 Bob 30 Paris 2 Charlie 35 Tokyo

特点:

  • 列可命名,支持按列名访问(如df['Name']
  • 支持多种数据输入格式(字典、列表、NumPy 数组、CSV 文件等)
  • 提供丰富的数据操作方法(筛选、分组、合并、透视等)

二、基本操作

1.创建 DataFrame

  • 从字典、列表、NumPy 数组、CSV/Excel 文件等创建。
# 从 CSV 读取df=pd.read_csv('data.csv')# 从字典创建data={'col1':[1,2],'col2':[3,4]}df=pd.DataFrame(data)

2.查看数据

df.head()# 查看前5行df.tail(3)# 查看后3行df.info()# 显示数据概要(类型、非空值等)df.describe()# 统计摘要(均值、标准差、四分位数等)df.shape# 返回 (行数, 列数)

3.索引与选择

  • 按列选择
    df['Name']# 返回 Seriesdf[['Name','Age']]# 返回 DataFrame
  • 按行选择
    df.loc[0]# 按标签索引(第0行)df.iloc[0]# 按位置索引(第0行)df.loc[0:1,'Name':'City']# 标签切片

4.条件筛选

df[df['Age']>25]df[(df['Age']>25)&(df['City']=='Tokyo')]

注意:使用&|而不是andor,且条件需加括号。


三、数据清洗常用操作

1.处理缺失值

df.isnull()# 检查缺失值(返回布尔 DataFrame)df.dropna()# 删除含缺失值的行df.fillna(0)# 用0填充缺失值df.fillna(method='ffill')# 前向填充

2.去重

df.duplicated()# 检查重复行df.drop_duplicates()# 删除重复行

3.数据类型转换

df['Age']=df['Age'].astype('float')pd.to_datetime(df['date_column'])# 转换为日期时间

四、数据操作进阶

1.分组(GroupBy)

df.groupby('City')['Age'].mean()
  • 类似 SQL 中的GROUP BY
  • 支持聚合函数:sum(),mean(),count(),agg()

2.合并与连接

  • pd.concat():沿轴拼接多个 DataFrame
  • pd.merge():类似 SQL 的 JOIN 操作
pd.merge(df1,df2,on='key')

3.透视表(Pivot Table)

pd.pivot_table(df,values='Age',index='City',aggfunc='mean')

五、时间序列支持

Pandas 对时间序列有强大支持:

ts=pd.date_range('2025-01-01',periods=10,freq='D')df=pd.DataFrame({'value':range(10)},index=ts)df.resample('W').sum()# 按周重采样

六、性能与注意事项

  • 向量化优于循环:尽量使用内置方法而非 for 循环。
  • 避免链式赋值:如df[df.A > 2]['B'] = new_val可能引发警告,应使用.loc
  • 内存优化:对于大文件,可使用dtype参数指定列类型,或使用chunksize分块读取。

总结

概念说明
Series一维带标签数组
DataFrame二维表格结构,核心分析对象
Index行/列标签,支持快速查找和对齐
Vectorized Operations高效的批量计算
Data I/O支持 CSV、Excel、JSON、SQL 等多种格式

掌握这些基础概念后,你就可以高效地进行数据加载、清洗、探索和分析了。

如需进一步学习,可参考官方文档:https://pandas.pydata.org/docs/

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 5:04:49

文献学闭卷考试复习策略与重点知识梳理

读研时最尴尬的时刻,莫过于找到一篇“命中注定”的文献,结果点开链接,迎面一个冷冰冰的“付费墙”(Paywall)。高昂的单篇下载费用让学生党望而却步。其实,学术界的“开放获取”(Open Access&…

作者头像 李华
网站建设 2026/4/22 20:52:20

精准赋能智能充气:西城微科充气泵PCBA方案解析

在车载应急、户外出行等场景需求驱动下,智能充气泵已成为刚需装备,而PCBA方案作为核心控制中枢,直接决定产品的性能与体验。西城微科深耕电子方案研发领域,推出的充气泵PCBA方案凭借高精度控制、低功耗设计与全场景适配能力&#…

作者头像 李华
网站建设 2026/5/1 7:22:57

Langchain-Chatchat支持批量导入文档的知识入库方式

Langchain-Chatchat 支持批量导入文档的知识入库方式 在企业知识管理日益智能化的今天,一个常见的挑战浮出水面:如何让大模型“读懂”公司内部成百上千份非结构化文档?技术手册、合同模板、会议纪要散落在各个角落,员工查找信息耗…

作者头像 李华
网站建设 2026/4/30 17:05:08

Langchain-Chatchat能否支持视频字幕作为知识源?

Langchain-Chatchat能否支持视频字幕作为知识源? 在企业智能化转型的浪潮中,一个现实问题日益凸显:大量关键知识藏身于会议录像、培训视频和客户访谈录音之中。这些音视频内容动辄数小时,回看耗时费力,信息检索如同“大…

作者头像 李华
网站建设 2026/5/1 6:09:54

2026年AI搜索优化必做项:一份完整的“信任信号”自查与优化清单

人工智能搜索改变了可见性的方式。 当用户向ChatGPT或Perplexity等AI系统寻求推荐时,这些系统会推荐他们最信任的品牌。 AI搜索信任信号——与身份、证据和技术健康相关模式——决定了你的品牌是否被视为可信来源。 完成本指南后,你将知道如何审计品牌…

作者头像 李华
网站建设 2026/5/1 7:23:29

Langchain-Chatchat能否导出问答记录用于审计追踪?

Langchain-Chatchat 能否导出问答记录用于审计追踪? 在企业级 AI 应用日益普及的今天,智能问答系统已不再只是“能答对问题”就足够。尤其是在金融、医疗、政务等对合规性和数据安全要求极高的领域,一个关键问题浮出水面:当 AI 给…

作者头像 李华