news 2026/5/1 11:46:25

面向异常检测的提示工程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
面向异常检测的提示工程

异常值检测的提示工程

通过实际数据项目学习如何检测异常值,并利用AI改进流程。


介绍

给定数据集中的离群值代表极端值。它们极端到可以通过严重扭曲统计数据(比如均值)来毁掉你的分析。例如,在球员身高数据集中,12英尺即使是NBA球员也是个异常值,会显著拉高平均值。

我们该如何应对?我们将通过在数据科学家招聘过程中,Physician Partners要求的真实数据项目来回答这个问题。

首先,我们将探讨检测方法,定义异常值,最后设计执行流程的提示。

什么是异常值检测和移除方法?

异常值检测取决于你拥有的数据集。如何?

例如,如果你的数据集分布是正态的,你可以用标准差或Z分数来检测它们。然而,如果你的数据集不遵循正态分布,可以使用百分位法、主成分分析(PCA)或四分位数间距(IQR)方法。

你可以查看**这篇文章**,了解如何使用箱形图检测异常值。

在本节中,我们将探索应用这些技术的方法论和Python代码。

标准差法

在这种方法中,我们可以通过测量每个值偏离均值的程度来定义离群值。

例如,在下面的图表中,你可以看到正态分布和均值的标准差 \(\pm3 \)。

使用此方法时,首先测量平均值并计算标准差。接下来,通过对均值加减三个标准差来确定阈值,并过滤数据集,只保留该范围内的数值。这里是执行此作的**Pandas**代码。

importpandasaspdimportnumpyasnp col=df['column']mean=col.mean()std=col.std()lower=mean-3*std upper=mean+3*std# Keep values within the 3 std dev rangefiltered_df=df[(col>=lower)&(col<=upper)]

我们有一个假设:数据集应遵循正态分布。什么是正态分布?这意味着数据呈现均衡的钟形分布。这里有一个例子:

使用这种方法,你会标记大约0.3%的数据为异常值,因为3个标准差的均值覆盖了大约99.7%的数据。

IQR

四分位区间(IQR)代表你数据的中间50%,显示数据集中最常见的数值,如下图所示。

要用 IQR 检测异常值,首先计算 IQR。在下一段代码中,我们定义第一和第三四分位数,并从第三个四分位数中减去第一四分位数,得到 IQR (\( 0.75 - 0.25 = 0.5 \))。

Q1=df
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 9:52:50

设备安装全攻略:地域适配、流程要点与避坑指南

在工业生产、商业运营及家庭生活中&#xff0c;设备安装是保障设备正常运转、发挥使用价值的核心环节。小到家庭净水器、空调&#xff0c;大到工厂生产线设备、商业中央空调&#xff0c;每一项设备的安装质量都直接影响后续使用体验、安全性能与使用寿命。尤其在不同地域环境下…

作者头像 李华
网站建设 2026/5/1 9:52:52

Wan2.2-T2V-A14B为旅游博主生成虚拟目的地探秘视频

Wan2.2-T2V-A14B&#xff1a;让旅游博主“穿越”到任何目的地&#xff0c;只靠一句话 &#x1f30d;✨ 你有没有想过&#xff0c;只需输入一句描述——“清晨的香格里拉松林间&#xff0c;薄雾缭绕&#xff0c;背包客踏着光斑前行&#xff0c;远处传来藏寺钟声”&#xff0c;下…

作者头像 李华
网站建设 2026/5/1 11:00:20

系分 VS 架构,谁才是软考难度天花板?

软考高级里&#xff0c;系统分析师和系统架构设计师是技术含金量最高的两个科目。那么&#xff0c;这两个科目到底哪个更容易考呢&#xff1f;今天就结合最近两次的考试情况&#xff0c;跟大家聊聊这两个科目的真实难度差异。01系分、架构考试内容的区别简单来说&#xff0c;系…

作者头像 李华
网站建设 2026/5/1 8:18:00

关于Oracle不敏感大小写导致ORM框架查询报错(个人记录)

1.mysql与oracle有敏感大小写的区别Oracle 默认会将未加引号的标识符&#xff08;表名 / 字段名&#xff09;转为大写&#xff0c;若需强制识别小写标识符&#xff0c;需给标识符添加双引号。2.实体类启用TableField(value "PROJECT_NAME")在使用QueryGenerator 过滤…

作者头像 李华
网站建设 2026/5/1 6:51:33

构建具有多任务学习能力的AI Agent

构建具有多任务学习能力的AI Agent关键词&#xff1a;多任务学习、AI Agent、机器学习、深度学习、强化学习、模型架构、任务协同摘要&#xff1a;本文围绕构建具有多任务学习能力的AI Agent展开&#xff0c;详细阐述了多任务学习和AI Agent的核心概念及联系&#xff0c;深入剖…

作者头像 李华