news 2026/6/5 1:45:29

【LLM基础教程】统计语言模型N-gram

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【LLM基础教程】统计语言模型N-gram

​ 在深度学习语言模型(LSTM、Transformer)出现之前,统计语言模型(Statistical Language Model, SLM)长期占据 NLP 主流地位。它们通过对大量语料进行统计,来估计词序列的概率,是最早被广泛应用于机器翻译、语音识别等系统的语言模型形式。

​ 其中最经典、最重要的统计语言模型就是n-gram 模型

1. n-gram 的基本思想

​ 根据概率论中的链式法则,长度为TTT的词序列x1,⋯ ,xTx_1, \cdots, x_Tx1,,xT的联合概率可以写成:
p(x1,⋯ ,xT)=∏t=1TP(xt∣x1:t−1) p(x_1, \cdots, x_T)=\prod_{t=1}^{T} P(x_t \mid x_{1:t-1})p(x1,,xT)=t=1TP(xtx1:t1)
​ 也就是说,如果我们能够正确建模每一个词在给定前文的情况下出现的概率,就能计算整句的概率。然而,这里会遇到一个致命问题:条件依赖长度太长!xtx_txt要依赖前面所有词,但真实语料根本不可能覆盖如此巨大的组合空间。

​ 于是,n-gram 模型引入了简化假设:马尔可夫假设

(1) 马尔可夫假设

  • 一个词的出现只依赖它前面的n−1n-1n1个词,而不是整个历史。

  • 基于这一假设,我们将复杂的条件概率近似为:
    P(xt∣x1:t−1)≈P(xt∣xt−n+1:t−1) P(x_{t}|x_{1:t-1}) \approx P(x_t|x_{t-n+1:t-1})P(xtx1:t1)P(xtxtn+1:t1)
    这样,原本需要完整上下文的模型就简化成了只依赖固定长度窗口的模型,也就是n-gram 模型

(2) n-gram 的概率估计

Maximum Likelihood Estimation

​ n-gram 的核心是计算:
P(xt∣xt−n+1,⋯ ,xt−1) P(x_t|x_{t-n+1}, \cdots, x_{t-1})P(xtxtn+1,,xt1)
​ 用最大似然估计(MLE)可以直接通过计数求得:
P(xt∣xt−n+1,⋯ ,xt−1)=Count(xt−n+1,⋯ ,xt−1,xt)Count(xt−n+1,⋯ ,xt−1) P(x_t|x_{t-n+1},\cdots,x_{t-1}) = \frac{\mathcal{Count}(x_{t-n+1}, \cdots, x_{t-1}, x_{t})}{\mathcal{Count}(x_{t-n+1}, \cdots, x_{t-1})}P(xtxtn+1,,xt1)=Count(xtn+1,,xt1)Count(xtn+1,,xt1,xt)
nnn的阶数越高,对应的依赖关系就越长。

  • 1-gram(Unigram)

    Unigram 假设所有词独立出现,因此整句概率为:
    P(x1,⋯ ,xt)=∏i=1tP(xi) P(x_1, \cdots, x_t) = \prod_{i=1}^t P(x_i)P(x1,,xt)=i=1tP(xi)
    此模型忽略了所有上下文信息,效果通常最差。

  • 2-gram(Bigram)

    基于一阶马尔可夫假设

    Bigram 是最常用的基础 n-gram 模型,它假设每个词只依赖前一个词:
    P(x1,⋯ ,xt)=P(x1)∏i=2tP(xi∣xi−1) P(x_1, \cdots, x_t) = P(x_1)\prod_{i=2}^t P(x_i|x_{i-1})P(x1,,xt)=P(x1)i=2tP(xixi1<

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/4 12:29:28

教育场景适用吗?LobeChat作为教学辅助工具的潜力

LobeChat作为教学辅助工具的潜力 在数字化教学浪潮席卷校园的今天&#xff0c;许多教师都面临一个共同困境&#xff1a;如何在有限的课时内兼顾全班学生的个性化学习需求&#xff1f;课后答疑信息刷屏、重复讲解基础概念、批改作业耗时耗力——这些琐碎却必要的工作&#xff0c…

作者头像 李华
网站建设 2026/6/2 21:43:02

LobeChat能否用于生成产品描述?电商平台文案利器

LobeChat能否用于生成产品描述&#xff1f;电商平台文案利器 在电商运营的日常中&#xff0c;你是否曾为成百上千件商品撰写描述而焦头烂额&#xff1f;一个爆款新品上线&#xff0c;团队却卡在“如何用120个字打动消费者”上迟迟无法推进。人工写得慢、外包成本高、风格还不统…

作者头像 李华
网站建设 2026/6/4 16:26:12

LobeChat能否支持图表生成?数据可视化回答呈现

LobeChat 能否支持图表生成&#xff1f;数据可视化回答的实现路径与实践洞察 在智能对话系统日益渗透企业分析、科研辅助和教育演示的今天&#xff0c;用户早已不满足于“文字复述”式的问答交互。一个真正高效的 AI 助手&#xff0c;不仅要能理解复杂问题&#xff0c;更应具备…

作者头像 李华
网站建设 2026/5/29 11:06:20

题目:字符串逆序

循环#define _CRT_SECURE_NO_WARNINGS #include <stdio.h>int main() {char arr[] "abcdef";//int sz sizeof(arr) / sizeof(arr[0]);int left 0;//int right sz - 2;int right strlen(arr) - 1;while (left<right){char tem arr[left];arr[left] ar…

作者头像 李华
网站建设 2026/6/1 11:20:11

Anything-LLM与LangChain融合构建智能体

Anything-LLM 与 LangChain 融合构建智能体&#xff1a;从个人文档助手到企业级知识协作者 在信息爆炸的时代&#xff0c;我们每天都被淹没在PDF、Word、会议纪要和项目文档中。无论是学生整理论文资料&#xff0c;还是企业维护庞大的制度流程库&#xff0c;一个共通的挑战始终…

作者头像 李华
网站建设 2026/6/1 22:37:12

云盾与WAF:构建企业网络安全的双重防线

云盾与WAF&#xff1a;构建企业网络安全的双重防线在数字化转型加速推进的今天&#xff0c;企业网络安全面临着前所未有的挑战。据Gartner数据显示&#xff0c;2023年全球企业因网络攻击造成的平均损失已达445万美元&#xff0c;其中Web应用攻击占比超过35%。作为防御体系的核心…

作者头像 李华