news 2026/5/21 19:05:33

反向传播:从轮廓到精雕细琢

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
反向传播:从轮廓到精雕细琢

反向传播:从轮廓到精雕细琢

模型知道损失值之后,怎么调整自己的参数?


上一篇文章我们讲了损失函数——它像一个指南针,告诉模型"你离正确答案还有多远"。

那知道偏了之后,模型该怎么调整自己的参数?

这个问题的答案,就是本文要讲的核心概念:反向传播(Backpropagation)

如果说损失函数是"发现问题"的人,那反向传播就是"解决问题"的人——它指引模型往正确的方向调整参数,让预测越来越准。


一、从雕塑家的创作说起

想象一位雕塑家在创作。

他面对一块粗糙的石头,脑子里有一个形象的轮廓。第一步,大刀阔斧打出大型——这时候不需要多精细,大概的形出来就行。

然后他后退几步,看看整体效果。哪里比例不对?哪里少了一块?发现问题,接着雕。

再后退,再看,再雕。

这个过程中,有一个非常关键的节奏:后退 → 观察 → 动手调整。每一次循环,雕像就更接近他脑海中的目标形象。

这个过程,和神经网络训练惊人的相似。直觉上的对应关系:雕塑家的创作过程:后退观察与调整的循环

雕塑创作神经网络训练
面对原材料初始化参数
打轮廓第一层提取基本特征
后退观察计算损失值
再动手调整反向传播更新参数
反复逼近目标多次迭代直到收敛

每一轮训练,模型都在执行同样的节奏:前向传播得到一个输出,计算损失值,然后反向传播调整参数——就像雕塑家退后一步、看一眼、再动手。


二、一句话说清反向传播

不绕弯子,直接上干货:

反向传播让模型知道:每个参数在当前这步,该往哪个方向调、调多少,才能让最终输出更接近正确答案。

具体来说,就是算一个叫**梯度(Gradient)**的东西。

梯度指引着参数优化的方向。模型从最终的输出结果往回倒推——从输出层开始,一层一层往回算,直到输入层。每一层都算出一个数值,告诉模型"你在这里该往哪个方向调整"。

这个过程用到了一件重要的数学工具:链式法则(Chain Rule)

链式法则的直观理解:三层优化递进


三、链式法则到底在做什么?

名字听起来很吓人对吧?其实道理非常简单。

假设你现在面对一个雕像,有三个环节要考虑:

  • 第一个环节 → 打轮廓:对应神经网络第一层的参数,决定了大体形状
  • 第二个环节 → 精雕五官:对应隐藏层的参数,提取细粒度特征
  • 第三个环节 → 打磨表面:对应输出层的参数,呈现最终结果

现在,最终呈现的雕像鼻子还不够完美。

我们要找到优化的路径:从表面入手,逐步回推到源头,找到每个环节可以改善的地方。

链式法则干的事情就是:

从输出端开始→ 分析表面打磨可以如何改善 → 再回溯到五官精雕可以如何优化 → 最终追溯到轮廓的调整空间

然后它精确算出:每个环节的优化方向

放到神经网络里,这个"优化方向"就是每个参数的梯度

链式法则的数学表达式非常简单:

损失对第一层参数的梯度 = 损失对输出层的影响 × 输出层对中间层的影响 × 中间层对第一层的影响

或者更直观地说:

A影响B,B影响C → A对C的梯度 = A对B的梯度 × B对C的梯度

只要学过小学数学里的"连锁关系",你就能理解链式法则的精髓——它是从输出到输入逐层传递优化信号的过程。


四、逐层排查,精准优化

用刚才的雕塑例子来走一遍完整的优化排查过程:

  1. 第三步:打磨表面还有改善空间→ 可以微调
  2. 第二步:精雕五官的改进空间更大→ 主要优化对象
  3. 第一步:轮廓仍有调整余地→ 基础层面的优化,影响最大

链式法则正是这样从后往前逐层优化,算出每一层参数的梯度。

每一层算出的梯度不是"有罪或无罪"的判断,而是一个精确的方向指引——告诉你当前这层参数,往哪个方向调整能最有效地减少损失。

梯度指向损失下降最快的方向


五、一次完整的训练迭代

现在我们把整个过程串起来,看看一次训练迭代的完整流程:

  1. 前向传播:输入数据 → 逐层计算 → 得到输出
  2. 计算损失:输出 vs 真实值 → 计算出损失数值
  3. 反向传播:从输出到输入 → 逐层计算每个参数的梯度
  4. 更新参数:根据梯度方向 → 调整参数 → 下一轮更接近目标

然后就是:⟳ 循环 → 循环 → 再循环——直到损失值收敛到一个满意的水平。

这个循环就是模型训练的每一天:前向传播、算损失、反向传播、更新参数,周而复始。

训练迭代的完整循环:前向→损失→反向→更新


六、梯度的意义

整个反向传播的终极产出,就是每个参数的梯度值

梯度告诉模型两件事:

  • 方向:参数该往哪个方向调能让损失下降
  • 幅度:这次调整应该迈多大的步子

有了梯度这个"指南针",模型才能在下一轮迭代中把损失值降下去。每一轮迭代,参数都在沿着梯度的方向优化——就像雕塑家每次退后观察后的那一步精修。


总结

反向传播,就是把损失信号从输出端传回输入端,算出每个参数的优化方向。

整个过程可以浓缩为三个步骤:

输入处理输出
损失值(一个数字)链式法则逐层传递每个参数的梯度

知道梯度之后,下一步做什么?根据梯度更新参数——那具体怎么更新、更新多少,就是下一篇文章要讲的「梯度下降」

有了方向,怎么迈出那一步?我们下篇见。


本文是小默说AI系列第06篇,带你从零听懂AI。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/21 19:03:43

软考高项案例分析14:项目配置、变更管理

软考高项案例分析14:项目配置、变更管理 一、配置管理 1. 配置管理活动有哪些 制订配置管理计划 配置项识别 配置项控制 配置状态报告 配置审计 配置管理回顾与改进 2. 基线配置项和非基线配置项 基线配置项:包含所有的设计文档和源程序; 非基线配置项:包括项目的…

作者头像 李华
网站建设 2026/5/21 19:02:55

JAVA作业:形式化方法学习与《大象——Thinking in UML》阅读推荐

一、形式化方法概述1.1 定义形式化方法(Formal Methods)是一种基于数学的软件和硬件系统开发技术,采用严格的形式化规约语言描述系统,并通过数学推理验证系统性质是否正确。计算机科学家Edsger Dijkstra曾指出:“程序测…

作者头像 李华
网站建设 2026/5/21 19:01:58

2026MISC躲猫猫题目复盘

前言 感觉这个比赛关注的人应该不多,题目也比较小众。 最近笔者发现笔者的博客走歪了,有关网络攻防的文章比较少了,全是些工具介绍。 前端时间笔者简直就是脚本小子,只知道工具使用(事实上大家都是这个趋势&#xff0c…

作者头像 李华
网站建设 2026/5/21 18:56:48

Cu-MOF/GOx壳聚糖Chitosan-精氨酸复合温敏水凝胶

名称:Cu-MOF/GOx壳聚糖Chitosan-精氨酸复合温敏水凝胶 该复合水凝胶体系由金属有机框架(Cu-MOF)、葡萄糖氧化酶(GOx)、天然多糖壳聚糖(Chitosan, CS)以及氨基酸衍生组分精氨酸(Argin…

作者头像 李华
网站建设 2026/5/21 18:56:46

终极Jellyfin智能字幕插件:5分钟实现全自动中文字幕匹配

终极Jellyfin智能字幕插件:5分钟实现全自动中文字幕匹配 【免费下载链接】jellyfin-plugin-maxsubtitle 一个 Jellyfin 中文字幕插件(未来可以不局限中文) 项目地址: https://gitcode.com/gh_mirrors/je/jellyfin-plugin-maxsubtitle …

作者头像 李华