news 2026/5/1 10:05:20

06.什么是偏差-方差权衡?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
06.什么是偏差-方差权衡?

“偏差-方差权衡”简介

在机器学习 (ML) 和人工智能 (AI) 中,偏差-方差权衡是一个治理预测性机器学习模型性能的概念,也是数据科学的基本原则。

当我们决定为某个特定的业务问题构建 ML 模型时,我们希望选择一种能够最大限度减少误差并捕捉潜在信号的模型架构。偏差和方差代表预测误差的两个来源。偏差可以衡量由于过于简单化的假设而导致的预测与真实值的差距,而方差则捕捉基于不同训练数据的预测波动程度。

要构建能够很好地概括未见数据的模型,了解和管理这种权衡至关重要。偏差较大的模型容易出现欠拟合,从而丢失重要模式,而方差较大的模型容易出现过拟合,从而将噪声像信号一样捕捉。达到正确的平衡是有效机器学习设计的核心,也有助于解释为什么在训练数据方面表现良好的模型在现实世界中仍然可能失败。

在本阅读解释器中,我们深入探讨偏差-方差权衡和预测误差的技术细节,描绘如何为数据集构建正确的模型。

权衡图解

在线性回归或 K 最近邻(KNN)等预测模型中,偏差和方差是相互依存的:

  • 偏差衡量的是模型预测与真实值的平均偏差。高偏差模型往往会对数据的形式做出强烈的假设并导致欠拟合。过于简单的模型往往偏差大、方差小,这样的模型往往训练误差大、预测误差大。
  • 方差衡量的是模型的预测随不同训练数据集的变化程度。高方差模型对训练数据中的噪声很敏感,并导致过拟合。结构复杂、参数较多的模型往往具有高方差和低偏差的特征。

    在本阅读解释器中,我们以线性回归为例来说明模型复杂性如何影响预测结果的偏差和方差。回想一下,在线性回归中,评估指标由均方误差 (MSE) 定义:真实值与预测值之间的平均平方误差。较大的 MSE 表示模型与训练数据的拟合度较差,而较小的 MSE 表示模型与训练数据的拟合度较好。

MSE 定义为:
M S E = ( y p r e d − y a c t u a l ) 2 MSE=(ypred-yactual)2MSE=(ypredyactual)2
或表示为残差平方和:
R S S = ∑ i = 1 n ( y i − y i ) 2 RSS=∑i=1n(yi-yi^)2RSS=i=1n(yiyi)2
假设我们有了一组输入值 X 和相应的输出值 Y。X 和 Y 之间的真实关系是非线性的 — 想象成一个平滑的、弯曲的 U 形,就像正弦波一样。但我们并不知道其潜在功能。相反,我们观测到的是与之近似的噪声数据点。

我们现在要建立一个模型,通过 X 来预测 Y。

为了说明模型复杂性如何影响性能,我们可以尝试拟合三个复杂性不断增加的模型:一个线性模型、一个中等复杂度的多项式模型和一个非常复杂的多项式模型。

这种噪声组成引入了随机性,模拟真实世界的数据。多项式是涉及 X 的幂乘以系数之和的数学表达式。

例如,1 阶多项式为:
y = β 0 + β 1 x y^=β0+β1xy=β0+β1x
该模型表示为一条直线:

该模型非常简单,并强烈假设 X 和 Y 之间是线性关系。但数据明显呈现曲线模式。结果:

  • 偏差高:模型无法捕捉数据中的非线性模式。
  • 方差低:稳定,在不同的数据集上变化不大。
  • MSE(均方误差):0.2929。相对较高。

这是一个欠拟合示例 — 模型太简单,无法学习真实的结构。

4 阶多项式为
y = β 0 + β 1 x + β 2 x 2 + β 3 x 3 + β 4 x 4 y^=β0+β1x+β2x2+β3x3+β4x4y=β0+β1x+β2x2+β3x3+β4x4

现在我们使用一个包含 x 的幂的多项式,其上限为 x4 :
y = β 0 + β 1 x + β 2 x 2 + β 3 x 3 + β 4 x 4 y^=β0+β1x+β2x2+β3x3+β4x4y=β0+β1x+β2x2+β3x3+β4x4
该模型足够复杂,可以捕捉数据曲线,而不会对噪声太敏感。

  • 偏差适中:模型能较好地代表真实函数。
  • 方差适中:不会对数据中的微小波动反应过度。
  • MSE:约为 0.0714,低于 1 阶。

这是我们示例中表现最好的模型,具有很好的通用性。

25 阶多项式为:
y = ∑ i = 025 β i x i y^=∑i=025βixiy=i=025βi</

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/30 19:22:28

MTK支持的源和目标

源数据库目标数据库OracleMogDBOracleopenGaussOracleMySQLOraclePostgreSQLMySQLMogDBMySQLopenGaussMySQLPostgreSQLDB2MogDBDB2openGaussDB2MySQLDB2PostgreSQLSqlServerMogDBSqlServeropenGaussSqlServerMySQLSqlServerPostgreSQLPostgreSQLMogDBPostgreSQLopenGaussInform…

作者头像 李华
网站建设 2026/4/25 0:27:51

基于开源AI智能名片链动2+1模式的实体店微信私域引流策略研究

摘要&#xff1a;在数字化营销浪潮下&#xff0c;私域流量已成为实体店突破客流瓶颈、提升业绩增长的核心抓手。微信作为私域流量运营的核心载体&#xff0c;其个人号引流是实体店构建私域流量池的关键环节。本文立足实体店运营实践&#xff0c;结合开源AI智能名片链动21模式与…

作者头像 李华
网站建设 2026/4/26 18:20:59

nodejs+vue基于express框架Web的点餐系统的设计与实现_5s93cxm4

文章目录具体实现截图主要技术与实现手段关于我本系统开发思路java类核心代码部分展示结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;具体实现截图 同行可拿货,招校园代理 NodejsVueexpressWeb_s93cxm4 的点餐系统的设计与实…

作者头像 李华
网站建设 2026/4/24 10:51:48

nodejs+vue电影深度解读与影评社区网站的设计与实现_k5ztb5rs

文章目录具体实现截图主要技术与实现手段关于我本系统开发思路java类核心代码部分展示结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;具体实现截图 同行可拿货,招校园代理 nodejsVue电影深度解读与影评社区网站的设计与实现_k5ztb…

作者头像 李华
网站建设 2026/5/1 7:21:08

启用了sap的平行分类账 我已经为这个帐套分配了不一样的凭证编号 但为啥手工日记账的时候 几个帐套还是在 BKPF 表中只有一个凭证 一个凭证编号

在SAP中启用平行分类账&#xff08;Parallel Ledger&#xff09;时&#xff0c;虽然可以为不同分类账分配不同的凭证编号范围&#xff0c;但在BKPF表中默认仍使用主分类账&#xff08;Leading Ledger&#xff09;的凭证编号&#xff0c;这是SAP的标准设计。不过&#xff0c;您可…

作者头像 李华
网站建设 2026/5/1 9:59:07

PHP的Throwable工作流程的庖丁解牛

PHP 的 Throwable 是所有可被 throw 的对象的顶级接口&#xff0c;自 PHP 7 起统一了错误&#xff08;Error&#xff09;与异常&#xff08;Exception&#xff09;的处理模型。理解 Throwable 的工作流程&#xff0c;就是理解 PHP 7 异常与错误处理机制的底层骨架。一、顶层设计…

作者头像 李华