news 2026/5/1 10:34:56

大模型从0到精通:误差反向传播——神经网络中的“责任追溯”系统

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型从0到精通:误差反向传播——神经网络中的“责任追溯”系统

本文是《大模型从0到精通》系列第一卷“奠基篇”的第五章,也是奠基篇的收官之作。前四章我们建立了完整框架:模型→损失→优化→网络结构。但神经网络有那么多参数,当预测出错时,怎么知道该调整哪个参数?本章将深入讲解反向传播——神经网络中的“责任追溯”系统,这是梯度下降能在深度网络中实现的关键算法。

一、深度网络的“责任分配”难题

我们的两层神经网络有10个参数:

  • 第一层:a₁,b₁, a₂,b₂, a₃,b₃
  • 第二层:c₁,c₂,c₃,d

当最终预测出错时(损失很大),我们面临核心难题:

该拧动第一层的哪个旋钮?还是第二层的哪个旋钮?每个旋钮该为错误负多少“责任”?

类比:公司业绩复盘

一家公司季度业绩不达标(损失很大):

  • CEO(输出层)决策错误
  • 但错误可能源于:A总监报告有误 → B经理数据有问题 → C员工收集错误
  • 需要一套系统,将总误差公平地“分摊”给每个责任人

这就是反向传播要解决的问题:将输出层的总误差,沿着网络连接反向追溯,精确计算每个参数的“责任梯度”。

二、前向传播复习:数据如何流动

网络结构回顾

输入 x → 第一层:h₁ = a₁x+b₁ → r₁ = ReLU(h₁) h₂ = a₂x+b₂ → r₂ = ReLU(h₂) h₃ = a₃x+b₃ → r₃ = ReLU(h₃) 第二层:y = c₁r₁ + c₂r₂ + c₃r₃ + d 输出 y

前向传播:执行计算

给定输入x=25(气温25℃):

  1. 第一层计算:
    h₁ = a₁×25 + b₁ → r₁ = ReLU(h₁) h₂ = a₂×25 + b₂ → r₂ = ReLU(h₂) h₃ = a₃×25 + b₃ → r₃ = ReLU(h₃)
  2. 第二层计算:
    y = c₁×r₁ + c₂×r₂ + c₃×r₃ + d
  3. 得到预测值y_pred

就像公司项目执行:数据从基层上报,经中层处理,CEO做出决策。

三、反向传播核心:链式法则

数学工具:链式求导

复合函数求导法则:

如果 z = f(y), y = g(x) 那么 dz/dx = dz/dy × dy/dx

直观理解:误差传播就像多米诺骨牌,每层都对最终误差有“贡献度”。

神经网络中的链式法则

我们的网络:损失L → 依赖于y → 依赖于c₁,c₂,c₃,d,r₁,r₂,r₃ → 依赖于a₁,b₁,a₂,b₂,a₃,b₃ → 依赖于x

要计算 ∂L/∂a₁(损失对参数a

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 3:11:47

2025 IT 就业分化明显,26 届及以后考生报考计算机专业是否明智?

收藏!不想35岁被淘汰?网络安全或许是程序员的最佳转型方向 计算机专业虽进入分化阶段,但网络安全人才缺口达300万,高端领域供不应求。高校扩招与市场需求脱节导致供需失衡,未来"计算机行业"的复合型人才更具…

作者头像 李华
网站建设 2026/4/14 6:24:14

【必学收藏】大语言模型(LLM)全面解析:从原理到应用的完整指南

大语言模型(LLM)是基于Transformer架构的深度学习模型,通过海量文本预训练获得语言理解与生成能力。其核心特征包括庞大参数量、多阶段训练流程和自注意力机制。LLM具备出色语言理解能力、强大泛化能力和知识迁移能力,但也存在计算资源需求大、可解释性差…

作者头像 李华
网站建设 2026/4/23 14:47:49

信息专业毕业设计避坑指南 | 从选题到答辩的全流程踩坑预警

对于信息专业的毕业生来说,毕业设计不仅是学业的收尾,更是对大学四年知识的综合检验。但从选题到答辩,每个环节都暗藏“深坑”,稍不注意就会导致进度滞后、返工甚至答辩失利。本文结合信息专业的特点,整理了选题、技术…

作者头像 李华
网站建设 2026/4/29 18:32:53

腾讯云国际站代理商的MapReduce在跨境金融数据处理方面有哪些优势?

腾讯云国际站代理商提供的弹性 MapReduce(EMR),在跨境金融数据处理中,既能依托产品本身的高性能、高安全等特性适配金融业务需求,还能凭借代理商的专属服务进一步降低企业跨境部署与运维成本,具体优势如下&…

作者头像 李华
网站建设 2026/5/1 10:10:37

Spring Boot 期末项目

作为 Spring Boot 应用开发课程的期末作业,图书管理系统作为实践项目 —— 这是一个覆盖 “增删改查 前端交互” 的经典 CRUD 场景,既贴合课程核心知识点,又能体现实际开发的流程逻辑。本文将从需求分析、技术选型、核心实现到最终部署&…

作者头像 李华
网站建设 2026/5/1 10:04:05

Pytest——》文件路径处理

1、层级结构2、文件路径获取:configimport os.pathclass Config(object):project_path os.path.split(os.path.split(__file__)[0])[0] # __file__获取当前文件的绝对路径if __name__ __main__:print(os.path.split(os.path.split(__file__)[0])[0])print(os.pat…

作者头像 李华