1.2 机器学习中的关键组件
(1)可以用来学习的数据(data);
(2)如何转换数据的模型(model);
(3)一个目标函数(objective function),用来量化模型的有效性;
(4)调整模型参数以优化目标函数的算法(algorithm)。
1.2.1 数据
1.2.2 模型
1.2.3 目标函数:
在机器学习中,我们需要定义模型的优劣程度的度量,这个度量在大多数情况是“可优化”的,这被称之为目标函数(objective function)。 我们通常定义一个目标函数,并希望优化它到最低点。 因为越低越好,所以这些函数有时被称为损失函数(loss function,或cost function)。 但这只是一个惯例,我们也可以取一个新的函数,优化到它的最高点。 这两个函数本质上是相同的,只是翻转一下符号。
1.2.4 优化算法:
一种算法,它能够搜索出最佳参数,以最小化损失函数。 深度学习中,大多流行的优化算法通常基于一种基本方法–梯度下降(gradient descent)。
1.3 各种机器学习问题:
1.3.1 监督学习
监督学习的学习过程一般可以分为三大步骤:
(1)从已知大量数据样本中随机选取一个子集,为每个样本获取真实标签。
(2)选择有监督的学习算法,它将训练数据集作为输入,并输出一个“已完成学习的模型”;
(3)将之前没有见过的样本特征放到这个“已完成学习的模型”中,使用模型的输出作为相应标签的预测。
1.3.1.1 回归
任何有关“有多少”的问题很可能就是回归问题。比如:
这个手术需要多少小时;
在未来6小时,这个镇会有多少降雨量。
1.3.1.2 分类
回归是训练一个回归函数来输出一个数值; 分类是训练一个分类器来输出预测的类别。
1.3.1.3 标记问题
1.3.1.4 搜索
1.3.1.5 推荐系统
1.3.1.6 序列学习
序列学习需要摄取输入序列或预测输出序列,或两者兼而有之。 具体来说,输入和输出都是可变长度的序列。
标记和解析
自动语音识别
文本到语音
机器翻译
1.3.2. 无监督学习
如果工作没有十分具体的目标,就需要“自发”地去学习了。 比如,老板可能会给我们一大堆数据,然后要求用它做一些数据科学研究,却没有对结果有要求。 这类数据中不含有“目标”的机器学习问题通常被为无监督学习(unsupervised learning)。
聚类(clustering)问题
主成分分析(principal component analysis)问题
因果关系(causality)和概率图模型(probabilistic graphical models)问题
生成对抗性网络
1.3.3 与环境互动
1.3.4 强化学习
如果你对使用机器学习开发与环境交互并采取行动感兴趣,那么最终可能会专注于强化学习(reinforcement learning)。
在强化学习问题中,智能体(agent)在一系列的时间步骤上与环境交互。 在每个特定时间点,智能体从环境接收一些观察(observation),并且必须选择一个动作(action),然后通过某种机制(有时称为执行器)将其传输回环境,最后智能体从环境中获得奖励(reward)。 此后新一轮循环开始,智能体接收后续观察,并选择后续操作,依此类推。
1.4 起源
1.7 特点
深度学习是“深度”的,模型学习了许多“层”的转换,每一层提供一个层次的表示。 例如,靠近输入的层可以表示数据的低级细节,而接近分类输出的层可以表示用于区分的更抽象的概念。 由于表示学习(representation learning)目的是寻找表示本身,因此深度学习可以称为“多级表示学习”。
深度学习方法中最显著的共同点是使用端到端训练。 也就是说,与其基于单独调整的组件组装系统,不如构建系统,然后联合调整它们的性能。
深度学习的一个关键优势是它不仅取代了传统学习管道末端的浅层模型,而且还取代了劳动密集型的特征工程过程。
1.引言
张小明
前端开发工程师
Java快速开发框架:基于Spring Boot与MyBatis-Plus的接口高效开发实践
1. 项目概述:为什么我们需要一个“快速”的接口框架?干了这么多年后端开发,最头疼的事情之一,就是每次新项目启动,都要花大量时间在那些重复、繁琐但又不得不做的“基础建设”上。比如,一个用户注册接口&am…
Tmux搭配Oh My Zsh和Powerlevel10k:打造你的高颜值、高效率终端环境
Tmux搭配Oh My Zsh和Powerlevel10k:打造你的高颜值、高效率终端环境 终端环境对于开发者而言,就像画家的调色板、作家的稿纸。一个精心调校的终端不仅能提升工作效率,更能带来愉悦的编码体验。本文将带你打造一个集美观与实用于一体的终端环…
Qt QTabBar美化全攻略:从自定义关闭按钮到文字对齐的完整样式表与代码方案
Qt QTabBar美化全攻略:从自定义关闭按钮到文字对齐的完整样式表与代码方案 在构建现代桌面应用程序时,界面美观度往往直接影响用户体验。作为Qt框架中常用的导航组件,QTabBar的默认样式往往难以满足专业设计需求。本文将系统性地介绍如何通过…
WRF4.0安装后必做的3件事:验证你的real.exe和ungrib.exe真的能用吗?
WRF4.0安装后必做的3件事:验证你的real.exe和ungrib.exe真的能用吗? 当你终于完成了WRF和WPS的编译,看到real.exe、wrf.exe和ungrib.exe这些文件出现在目录中时,那种成就感是难以言喻的。但先别急着庆祝——这些看似成功的编译结果…
钉钉低代码开发售后服务全指南:云雁信息打造全生命周期护航体系
在数字化转型加速推进的今天,钉钉宜搭低代码平台凭借"拖拽式开发、快速上线、低成本"的优势,成为众多企业搭建个性化业务系统的首选。然而,很多企业陷入了一个误区:认为低代码项目"上线即结束",忽…
从GC告警到内存治理:JVM大对象定位与无侵入监控实战
1. 项目概述:一次从GC告警到内存治理的实战复盘最近在负责一个音乐业务的核心服务,我们内部叫它core服务。这个服务干的事情挺核心的,主要是给上游的api服务提供歌曲、歌手这些元数据,还有用户的歌单、收藏这些资产信息的查询。业…