news 2026/5/5 0:12:04

二元分类,机器学习为什么可行?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
二元分类,机器学习为什么可行?

背景

为什么我们说机器学习一定能从我们数据集中学到东西,有无理论证明?

霍夫丁不等式

为了证明这个问题,于是有了霍夫丁不等式。

对于一个固定的假设 h,只要训练数据足够多(N 大),训练误差大概率接近真实误差。

问题

但这只能保证单个固定假设,而我们训练时会从假设集中选择表现最好的那个!

但是当前表现最好的就一定是最接近f(x)的吗?

好的h总是相似的,不好的h各有各的不好

对于单个的h,我们无法确定其距离真实的f(x)相差多少,无法评判h的好坏。但是如果对于一群h(后续写作H),我们就能评判其好坏,因为好的h总是相似的,不好的h各有各的不好。

以一个笛卡尔乘积的形式列下来,只要有一个h在Di中犯了错,那么就认为最终的h all是坏的情况。所以我们可以得到:Ph_i <= Ph_all <= |H| * 2e(-2N(期望^2))。

其中:|H|所表达的意义就是所有可能的h的个数

不过:H****不是训练过程中选出来的,而是在训练之前就由模型架构确定的

模型设计 =设计****H,模型训练 =H中选****h。VC维理论告诉我们如何根据数据量来设计合适的H,从而保证学习可行。

H****分类无限转有限

进一步推导,以线性分类器为例。

增加一个数据点则可以拿到四类曲线,我们可以归类出来了2^N这个指数级别函数了。分母指数级别递增增长,因此无上界限,所以我们无法确定这个坏事情发生的概率是否会随着N的增加而变小,所以我们要继续推导,能否把2^N****降级

不等式右界降级

但其实我们继续往后推理,会发现其实并不会永远遵循2^N的规律,

往后继续推论我们可以知道这样的h个数是**不会超过N^(k-1)的,至此,我们已经证明了霍夫丁不等式式子是可行的了,随着N****数据集的增多,我们训练出来的模型表现坏的概率就越小**

最后得到式子如下,记住结论即可。

**VC **

对于线性分类器(d维):dVC=d+1

VC维的深刻意义

d是空间维度

上图中,在d+2组之前,存在某种情况可以使得所有的向量都是线性无关的(数学意义就是在整个空间中所有的点都能被d+2组之前的向量所表示),所以加入的d+2组数据,一定是能被目前空间中的数据所表示的,那么就表示这不是新的一类数据(也就无法被h函数所分割,无法产生新的h函数)。

d+1分别代表的含义如下

总结

因此,机器学习可行的充要条件是:

1. 存在Break Point k(即VC维有限)

2. 有足够多的数据N,使得指数衰减压倒多项式增长

Appendix

哔哩哔哩王木头

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 4:30:27

如何快速制作专业发票:Invoify免费工具的完整使用指南

如何快速制作专业发票&#xff1a;Invoify免费工具的完整使用指南 【免费下载链接】invoify An invoice generator app built using Next.js, Typescript, and Shadcn 项目地址: https://gitcode.com/GitHub_Trending/in/invoify 还在为繁琐的发票制作流程而头疼吗&…

作者头像 李华
网站建设 2026/5/1 4:41:37

5分钟学会容器化开发环境搭建:一站式解决方案终极指南

5分钟学会容器化开发环境搭建&#xff1a;一站式解决方案终极指南 【免费下载链接】dnmp Docker LNMP (Nginx, PHP7/PHP5, MySQL, Redis) 项目地址: https://gitcode.com/gh_mirrors/dn/dnmp 想要快速搭建一个完整的Web开发环境吗&#xff1f;厌倦了在不同系统间反复配置…

作者头像 李华
网站建设 2026/5/1 4:48:13

5分钟快速上手Marp Next:终极Markdown演示工具完整指南

5分钟快速上手Marp Next&#xff1a;终极Markdown演示工具完整指南 【免费下载链接】marp The site of classic Markdown presentation writer app 项目地址: https://gitcode.com/gh_mirrors/ma/marp 正在为繁琐的幻灯片制作而烦恼&#xff1f;Marp Next作为新一代Mark…

作者头像 李华
网站建设 2026/5/1 6:56:32

如何快速掌握Stockfish.js:Web象棋引擎的终极使用指南

如何快速掌握Stockfish.js&#xff1a;Web象棋引擎的终极使用指南 【免费下载链接】stockfish.js The Stockfish chess engine in Javascript 项目地址: https://gitcode.com/gh_mirrors/st/stockfish.js 你是否曾经想过在浏览器中就能体验世界顶级的国际象棋AI对弈&…

作者头像 李华
网站建设 2026/5/3 13:46:31

天爱验证码终极指南:构建企业级安全验证的完整解决方案

天爱验证码终极指南&#xff1a;构建企业级安全验证的完整解决方案 【免费下载链接】tianai-captcha 可能是java界最好的开源行为验证码 [滑块验证码、点选验证码、行为验证码、旋转验证码&#xff0c; 滑动验证码] 项目地址: https://gitcode.com/dromara/tianai-captcha …

作者头像 李华
网站建设 2026/5/1 3:15:32

5分钟快速掌握PyModbus:Python工业通信协议完整指南

5分钟快速掌握PyModbus&#xff1a;Python工业通信协议完整指南 【免费下载链接】pymodbus A full modbus protocol written in python 项目地址: https://gitcode.com/gh_mirrors/py/pymodbus PyModbus安装是Python开发者在工业自动化领域必须掌握的核心技能。作为一款…

作者头像 李华