人工智能应用-机器听觉： 05.基于统计的语音识别-编程实验室

基于模式匹配的方法无法描述发音中的各种变动性。例如，不同人在发一个’a’或同一个人发两次‘a’时，都会存在差异。此外，人在识别声音时不仅需要听清发音，还需要有语言背景，才能理解对方说的话。我们都有这样的经验：参加一个专业性很强的报告会时，即便听清楚了演讲者的每一个发音，如果没有相关的专业背景，依然很难理解其内容。为了克服这些局限，20 世纪 80 年代，研究者引入了统计模型方法，用以对发音过程进行更精准的建模。这一方法引入了两类核心模型：声学模型——用于描述发音的各种变动性；语言模型——引入语言背景知识，帮助系统选择更合理的句子。

声学模型的目的是描述语音的生成过程。该模型将句子拆分为最基本的发音单元——音素，而每个音素再细分为三个更小的基元，称为“状态”。语音的生成过程可以看作是状态的跳转过程。

隐马尔可夫模型（Hidden Markov Model, HMM）是应用最广泛的声学模型。如图所示，每个音素（如b、p、m、f 等）被表示为一个独立的 HMM，这些音素的 HMM 前后连接组成句子。本质上，一个 HMM 是一个状态序列，包含若干状态（图中是 3 个）。状态之间可以顺序跳转（图中圈与圈之间的连接），也可以在同一个状态内部循环（圈上的自环连接）。每个状态都对应一个概率分布函数，描述其可能生成的声学特征（如共振峰）。通过这种状态跳转和生成，隐马尔可夫模型可以描述一个完整的发音过程，并且可以计算模型对一段语音的生成概率。

隐马尔可夫模型（HMM）描述语音的生成过程。每个圆圈代表一个状态，每三个状态代表一个发音单元（音素）。

在为每个音素建立了对应的 HMM 模型后，即可对音素进行识别。具体方法：将待识别的语音送入每个音素的HMM；计算每个HMM 生成该语音的概率；选择生成概率最高的HMM，其对应的音素即为识别结果。对于连续语音识别，情况更加复杂，因为需要考虑音素之间在时间上的拼接顺序，并选择生成整段语音概率最大的拼接方式。

HMM 是一种生成模型，旨在描述语音的生成过程。这一模型的识别过程本质上是对语音生成过程的一种反向推理。在 2012 年之前，HMM 一直是语音识别领域的主流技术，直到深度学习技术的兴起才逐渐被取代。

语言模型在语音识别中，除了声学信息，语言信息同样重要。语言信息可以通过语言模型引入，用来选择更合理的句子。图展示了一个例子。在这个例子中，待识别的句子在发音上比较模糊，声学模型难以区分“鱼刺”、“鱼翅”和“鱼池”这三个词。此时，语言模型可以发挥作用。根据语言背景知识，“我被鱼刺卡了”更符合常理，语言模型赋予其更高的概率（0.80）。因此，基本上可以断定句子里说的是“鱼刺”。

不同句子的语言模型分数不同

SQL注入核心知识到实操，从零基础入门到精通，收藏这一篇就够了！

SQL注入核心知识到实操 SQL基础知识数据库相关核心概念数据（Data）：图像、语音、文字等各类可被计算机处理的信息。数据库（Database）：按数据结构组织、存储和管理数据的“仓库”，MySQL&am…

李华

HW，到底对00后就业有什么用？从零基础入门到精通，收藏这一篇就够了！

HW，到底对00后就业有什么用？ 在网络安全领域，HW行动是由公安部组织的国家级网络安全攻防演练，旨在检验政府、企事业单位等机构的网络安全防御能力。红队模拟黑客攻击，蓝队负责防守，通过实战对抗提升整体安…

李华

收藏！小白也能秒懂的AI Agent主流设计模式全解析

这篇文章系统介绍了AI Agent的主流设计模式，包括ReAct、Plan & Execute、ReWOO、LLM Compiler及反思增强类架构。文章分析了各模式的核心原理、优缺点及应用场景，强调ReAct通过"思想-行动-观察"循环实现实时反馈，而其他架构则侧…

李华

AI量化模型解析贵金属异动：白银单日波动率超10%的技术驱动与黄金突破5100美元的市场逻辑

摘要：本文通过AI多维度市场分析模型，结合全球地缘局势、宏观经济数据、市场资金流向以及外汇波动等多源数据，分析白银盘中上涨超10%、黄金涨破5100美元并创四十年最大月涨的背后驱动因素及未来走势。一、市场异动背景：地缘风险与…

李华

springboot大学生创新创业项目

目录项目背景项目目标技术方案创新点预期成果团队成员社会价值开发技术源码文档获取/同行可拿货,招校园代理 ：文章底部获取博主联系方式！ 项目背景大学生创新创业项目旨在通过实践培养学生的创新能力和创业意识。Spring Boot作为轻量级Java框架&…

李华

吉瑞替尼Gilteritinib常见副作用指南：分化综合征与肝毒性的识别处理

SQL注入核心知识到实操，从零基础入门到精通，收藏这一篇就够了！

HW，到底对00后就业有什么用？从零基础入门到精通，收藏这一篇就够了！

收藏！小白也能秒懂的AI Agent主流设计模式全解析

AI量化模型解析贵金属异动：白银单日波动率超10%的技术驱动与黄金突破5100美元的市场逻辑

springboot大学生创新创业项目