news 2026/5/1 7:11:36

【大模型】happy-llm笔记

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【大模型】happy-llm笔记

happy-llm是datawhale发布的一套关于llm的教程,链接在此,今天看了这套课程的第二章到第四章的内容,对自己一直以来好奇的一些llm相关的问题有了解答。
将我遇到的问题整理到下面,部分可能没有回答,感兴趣的同学可以去原课程查找。

  1. 为什么注意力机制里有一个softmax,能否用其他函数代替?
    因为注意力想表征的是某个token(Q)对每个token的相关性,也即应该用一个概率分布或加权求和来表示,因此使用类似于x i ∑ i x i \frac{x_i}{\sum_i x_i}ixixi的形式表示,至于用softmax,是因为其在概率分布的基础上用自然指数来凸显强相关。
  2. 什么是自注意力?如何理解“自”
  3. 什么是多头注意力,为什么向量内积的拼接和向量拼接的内积效果相同?
  4. 为什么mask是一个矩阵,attention相对于RNN提升并行性的措施有哪些?
    RNN的线性性体现在不知道未来的信息,而这可以通过一个mask得到解决
  5. 为什么GPT和LLM使用的很多都是Decoder-only结构,这有什么原因?
  6. LLAMA是什么,和GPT有什么区别?
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/30 18:28:25

为什么顶尖科技公司都在强制Agent镜像签名?真相来了

第一章:为什么顶尖科技公司都在强制Agent镜像签名?真相来了在现代云原生架构中,Agent 镜像作为连接终端与控制平面的核心组件,其安全性直接关系到整个系统的可信边界。近年来,Google、Meta、Netflix 等顶尖科技公司纷纷…

作者头像 李华
网站建设 2026/4/20 3:04:29

滴滴企业版和高德企业版哪个好?2025年企业出行平台深度对比

在企业数字化转型加速的当下,企业用车管理平台的选择成为众多企业管理者关注的焦点。滴滴企业版和高德企业版作为国内主流的企业出行服务平台,各自拥有独特的产品优势与服务特色。据2025年企业出行调研报告显示,超过78%的企业在选择出行平台时…

作者头像 李华
网站建设 2026/4/23 15:21:08

wordpress原生主题二次开发常用到的一些知识点

WordPress原生主题二次开发时,下面这些“高频知识点”建议先吃透。它们既能帮你快速定位要改的文件,也能避免破坏升级路径,90%的日常需求都能覆盖。 模板层级(Template Hierarchy) 先判断“WordPress现在会加载谁?”——同一类页面可以有多…

作者头像 李华
网站建设 2026/4/23 13:14:02

专项智能练习(新课程改革的课程结构)

1.在下列课程中,不属于高中阶段综合实践活动的课程是(D )。 A.研究性学习 B.社区服务 C.社会实践 D.地区特色文化 解析本题考查综合实践活动课。从小学至高中设置综合实践活动并作为必修课程。强调学生通过实践,增强探究和创新意识…

作者头像 李华
网站建设 2026/4/20 0:05:13

探索配电网仿真世界:基于Simulink的IEEE33节点模型

标准IEEE33节点配电网, simulink建模,有参考文献,有数据来源。 可输出节点电压、电流数据,适用于潮流计算,在此基础上可实现风光并网研究。 在电力系统分析领域,配电网的运行特性研究一直是最受关注的热点问…

作者头像 李华
网站建设 2026/4/18 20:44:10

为什么90%的智能Agent日志在Docker中丢失?真相终于被揭开

第一章:智能 Agent 的 Docker 日志收集在现代微服务架构中,智能 Agent 被广泛用于监控、采集和预处理运行时数据。其中,Docker 容器的日志收集是保障系统可观测性的关键环节。智能 Agent 通常以 Sidecar 或 DaemonSet 模式部署,负…

作者头像 李华