news 2026/4/30 12:15:56

人工智能应用- 语言理解:03. 语言模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
人工智能应用- 语言理解:03. 语言模型

当句子较短时,直接统计句子的概率还比较简单,但随着句子长度增加,词与词之间的组合方式呈指数级增长。例如,若词汇表中有 5000 个词,句子长度为 10,则可能的句子组合数目达到,这是一个无法实际计算的天文数字。

为解决这一问题,研究者提出了N 元文法(N-gram)语言模型。这种模型只考虑一个词在前面N-1 个词后出现的概率,然后将这些概率连乘起来,得到整个句子的概率。例如,二元文法(Bi-gram)语言模型统计一个词后面接另一个词的概率,如P(吗| 可以) 表示“可以”后面接“吗”的概率。如果一个句子中有M 个词,则将这 M 个词的概率相乘即可得到整个句子的概率。图31.3展示了二元文法语言模型的计算过程。

二元文法语言模型的计算过程

有了这个N 元文法模型,就可以利用它来生成句子。首先随机生成一个词x1,然后根据P(x2|x1) 生成下一个词x2,以此类推,即可生成句子和段落。下面是一段话是利用三元文法生成的一段话:

我喜欢吃苹果味道很甜我是学生的身份工作人员并学习数据科学很愉快听音乐看电影总是给我很多启发一天我去学校上课和同学们讨论各种问题也喜欢动手做实验锻炼思维非常有趣。

可以看到,生成的每句话看起来还是通顺的,但当这些句子放在一起就显得杂乱无章,没有意义。这是因为仅考虑最近几个词的上下文还不足以捕捉到复杂的语言规律。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 6:57:15

降重≠换词!虎贲等考 AI:双重净化 AIGC 痕迹,查重率直降 25%+

“论文降重改到崩溃,重复率还是飙到 30%”“AI 写的初稿被导师标记‘机器感过重’”“降重后语句不通,学术逻辑全乱”—— 这是当下毕业生写论文时最头疼的两大痛点。单纯的同义词替换早已过时,既过不了查重关,还可能因 AIGC 痕迹…

作者头像 李华
网站建设 2026/5/1 6:56:50

第3天:客户分群——识别核心价值群体

核心目标:应用模型进行客户细分,找到高价值群体。 操作明细: RFM模型应用:根据客户的消费时间、频率和金额,将客户划分为重要价值客户、重要发展客户等不同群体。聚类分析:利用算法工具,根据标…

作者头像 李华