news 2026/6/13 6:24:54

Sklearn入门之数据预处理preprocessing

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Sklearn入门之数据预处理preprocessing

Sklearn全称:Scipy-toolkit Learn是 一个基于scipy实现的的开源机器学习库。它提供了大量的算法和工具,用于数据挖掘和数据分析,包括分类、回归、聚类等多种任务。本文我将带你了解并入门Sklearn下的preprocessing在机器学习中的基本用法。

获取方式

pip install scikit-learn

模块结构

在Python中,要想熟练地使用一个库来完成各种任务,那么我们必须得对这个库内各个模块的结构比较熟悉才可以,观察Scikit-learn源代码中的第一级模块,我们不难画出这样的一个树状图用来描述其结构:

在这其中,datasets为内置数据集,剩下的2-13基本包含了整个机器学习中所有比较经典的算法,后边七个模块是我们在进行机器学习任务时常用的工具。

后续,我将分别为大家介绍这20个模块的基本用法,本文我们着重来了解preprocessing这个模块的基本用法。

Preprocessing

当我们对需要对数据进行预处理操作的时候,可以使用sklearn的preprocessing模块内的函数来进行操作,这里我给大家罗列出来常用数据预处理操作以及sklearn.preprocessing模块内对应函数。

预处理类型主要函数/类功能描述常用参数适用场景
​​标准化​​StandardScaler将特征缩放为均值为0,方差为1with_mean,with_std适用于大多数基于距离的算法
​​归一化​​MinMaxScaler将特征缩放到给定范围(默认[0,1])feature_range神经网络、图像处理
MaxAbsScaler将特征缩放到[-1,1]范围-稀疏数据
Normalizer对样本进行归一化(行归一化)norm('l1','l2','max')文本分类、聚类
​​鲁棒缩放​​RobustScaler使用中位数和四分位数范围缩放with_centering,with_scaling存在异常值的数据
​​非线性变换​​PowerTransformer应用幂变换使数据更接近正态分布method('yeo-johnson','box-cox')非正态分布数据
QuantileTransformer使用分位数信息变换特征n_quantiles,output_distribution非线性模型
​​离散化​​KBinsDiscretizer将连续特征离散化n_bins,encode,strategy决策树类算法
​​二值化​​Binarizer根据阈值将数据二值化threshold文本处理、概率输出
​​编码分类特征​​OrdinalEncoder将分类特征编码为整数categories有序分类变量
OneHotEncoder将分类特征进行one-hot编码categories,drop无序分类变量
LabelEncoder将目标标签编码为0到n_classes-1-目标变量编码
​​缺失值处理​​SimpleImputer填充缺失值strategy('mean','median','most_frequent','constant')数据缺失处理
​多项式特征​PolynomialFeatures生成多项式特征degree,interaction_only线性模型扩展特征
​自定义变换​FunctionTransformer应用自定义函数变换func,inverse_func自定义预处理逻辑
​特征选择​VarianceThreshold移除低方差特征threshold预处理中的特征选择

总结

以上便是Sklearn入门之preprocessing的基本用法的所有内容,如果本文对你有用,免费的三连来一波,感谢各位大佬支持。后续,我还将继续介绍sklearn中其他模块的使用方法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 6:18:51

EtherCAT从站开发避坑指南:SSC工具中勾选FOE和BOOTSTRAP后,bootloaderappl.c里这6个回调函数怎么写?

EtherCAT从站FOE固件更新实战:6大回调函数深度解析与避坑指南在工业自动化领域,EtherCAT因其卓越的实时性能和灵活的拓扑结构已成为主流现场总线协议之一。作为从站开发者,实现可靠的固件在线更新(FOE)功能是产品迭代和维护的关键能力。本文将…

作者头像 李华
网站建设 2026/6/13 6:16:54

从草图到模型:用Fusion 360/SketchUp快速上手三维实体建模的5个核心技巧

从草图到模型:用Fusion 360/SketchUp快速上手三维实体建模的5个核心技巧第一次打开Fusion 360或SketchUp时,满屏的工具图标和复杂的菜单栏确实容易让人望而生畏。但别担心,就像学习骑自行车一样,掌握几个关键动作就能保持平衡。本…

作者头像 李华
网站建设 2026/6/13 6:16:21

不止于统计:用OVITO把晶界缺陷“演”出来——从数据导出到Origin/Gnuplot绘制动态演化曲线

从数据到洞察:用OVITO和Origin打造晶界缺陷动态演化图谱 在材料科学研究中,晶界缺陷的演化过程往往隐藏着材料性能的关键密码。当我们通过分子动力学模拟获得大量原子轨迹数据后,如何将这些微观世界的动态变化转化为直观、可发表的学术图表&a…

作者头像 李华
网站建设 2026/6/13 6:15:56

告别download.nc!用Python+CDSAPI按小时拆分ERA5数据,解决大文件读取难题

用Python精细化拆分ERA5气象数据:从批量下载到智能管理的工程实践当你在深夜盯着屏幕,等待那个几十GB的download.nc文件加载完毕时,咖啡已经续了三杯。作为气象数据分析师,我们都经历过这种煎熬——单个庞大的NetCDF文件不仅拖慢分…

作者头像 李华
网站建设 2026/6/13 6:15:56

PowerMill二次开发入门:用Python和win32com快速搭建你的第一个自动化脚本

PowerMill二次开发入门:用Python和win32com快速搭建你的第一个自动化脚本对于熟悉PowerMill基础操作但缺乏编程经验的工程师来说,自动化脚本开发听起来像是一座难以攀登的高山。但事实上,只需掌握几个核心概念,就能用Python快速实…

作者头像 李华
网站建设 2026/6/13 6:14:10

Aurora模型数据准备指南:如何正确构建Batch对象进行预测

Aurora模型数据准备指南:如何正确构建Batch对象进行预测 【免费下载链接】aurora Implementation of the Aurora model for Earth system forecasting 项目地址: https://gitcode.com/gh_mirrors/aurora25/aurora Aurora模型是一款强大的地球系统预测工具&am…

作者头像 李华