news 2026/6/15 13:19:46

Pandas数据处理技巧全解析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Pandas数据处理技巧全解析

Pandas数据处理技巧全解析

主要章节与要点

  1. UFO 报告数据(uforeports.csv

    • 读取:ufo = pd.read_csv('uforeports.csv')
    • 统计并查看类别分布:ufo['Shape Reported'].value_counts(dropna=False)(包括缺失值)
    • 填充缺失值:ufo['Shape Reported'].fillna(value='VARIOUS', inplace=True)将缺失值用VARIOUS替换
    • 常见行/列选择:使用loc选择指定行/列(例如ufo.loc[[0,1,2], :]ufo.loc[:, ['Colors Reported','Shape Reported','State']]
    • 条件过滤:ufo[ufo.City == 'Oakland']ufo.loc[ufo.City == 'Oakland','State']
    • 用例演示:删除列(.drop())、查看尾部数据(.head()/.tail()等)
  2. pandas 索引(Index)及drinksbycountry.csv

    • 读取:drinks = pd.read_csv('drinksbycountry.csv')
    • 查看索引与列:drinks.indexdrinks.columnsdrinks.shape
    • 将列设为索引:drinks.set_index('country', inplace=True),随后可用drinks.loc['Brazil','beer_servings']用国家名访问行。
    • 重置索引并恢复默认整数索引:drinks.reset_index(inplace=True)
    • 修改索引名称:drinks.index.name = 'country'drinks.index.name = None
    • 按索引或列进行统计:drinks.describe()和对统计结果的定位(例如drinks.describe().loc['25%','beer_servings']
  3. 选择多行多列与位置索引

    • loc用法:基于标签选择行列(可用行标签切片、列表或布尔掩码)。
    • iloc用法:基于整数位置选择(例如ufo.iloc[:,0:4])。
    • 列范围切片:ufo.loc[:, 'Colors Reported':'Time'](使用列名范围切片)
  4. 其它实用示例

    • 读取无表头、使用自定义分隔符的文件:pd.read_table('movieusers.csv', header=None, sep='|')
    • 统计并排序:drinks.continent.value_counts().sort_index()

关键代码片段(摘录并简短说明)

  • 填充缺失值并统计:
ufo['Shape Reported'].value_counts(dropna=False)ufo['Shape Reported'].fillna(value='VARIOUS',inplace=True)ufo['Shape Reported'].value_counts()

说明:先查看包含 NaN 的统计,再用fillna填充,最后确认填充结果。

  • 索引设置与定位:
drinks=pd.read_csv('drinksbycountry.csv')drinks.set_index('country',inplace=True)drinks.loc['Brazil','beer_servings']

说明:把country设置为索引后,可直接用国家名定位对应行的数据。

  • loc/iloc示例:
# 基于标签选择:ufo.loc[[0,1,2],:]# 基于位置选择:ufo.iloc[:,0:4]# 选择列范围:ufo.loc[:,'Colors Reported':'Time']
  • 描述性统计定位:
drinks.describe().loc['25%','beer_servings']
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 12:37:50

终极解决方案:One-API集成第三方服务API的404故障快速修复指南

当One-API系统在调用第三方服务API时遭遇404错误,这往往让开发者陷入困境。本文提供一套从问题诊断到方案实施的完整修复流程,帮助你在10分钟内彻底解决API集成问题。 【免费下载链接】one-api OpenAI 接口管理&分发系统,支持 Azure、Ant…

作者头像 李华
网站建设 2026/6/15 8:34:41

constexpr 和 explicit 在 C++ 中被提出的动机

相关内容参考:C中constexpr 与 explicit关键字使用详解 1. constexpr ——“让编译器做更多事” ① 提出动机:提升性能,减少运行时开销 在 C11 之前: 只有 const,但 const 不保证编译期求值想要编译期常量&#xff…

作者头像 李华
网站建设 2026/6/13 8:30:25

5分钟搞定FossFLOW部署:Docker容器化实战指南

5分钟搞定FossFLOW部署:Docker容器化实战指南 【免费下载链接】OpenFLOW 项目地址: https://gitcode.com/gh_mirrors/openflow1/OpenFLOW 还在为复杂的开源工具部署而头疼吗?今天,让我们用最简单的方式,一起搞定FossFLOW这…

作者头像 李华
网站建设 2026/6/14 17:33:12

音元系统:结论

结论 音元系统准确可靠。具体地说,音元系统不仅表音准确而且表义可靠。首先,音元系统表音准确。在音元系统中,片音是分布在特定环境中的特定音元所取的音值,是根据一组决定音段的最小音高和最小音质的差异的发音特征切出的最小音…

作者头像 李华
网站建设 2026/6/14 17:26:04

24、Linux系统优化、配置与故障排除指南

Linux系统优化、配置与故障排除指南 自定义内核编译与安装 在Linux系统中,有时候需要自定义内核来满足特定需求。以下是编译和安装新内核的详细步骤: 1. 配置内核 - 点击主对话框中的每个按钮,根据自身需求输入配置选项。 - 完成配置选择后,将配置保存到文件中。 2…

作者头像 李华
网站建设 2026/6/14 10:45:38

《Python 中的 gRPC 与 REST API:应用场景深度解析与实战指南》

《Python 中的 gRPC 与 REST API:应用场景深度解析与实战指南》 一、开篇引入:API 的演进与 Python 的角色 在现代软件开发中,**API(应用程序接口)**是服务之间沟通的桥梁。随着互联网应用规模的扩大,后端…

作者头像 李华