news 2026/6/15 14:43:34

人工智能应用-机器听觉:2.人是如何发音的

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
人工智能应用-机器听觉:2.人是如何发音的

要让机器发声,首先需要理解人类是如何发声的。在上一节中我们了解到,人类发音的机理是:声带的振动在口腔和鼻腔中产生谐振。其中,声带及相关振动生成器官统称为“声门”,口腔、鼻腔、唇齿等声音传导器官统称为“声道”。

为了更好地描述这一过程,科学家提出了一种称为“源-滤波模型”的人类发音模型。根据该模型,声门首先产生激励信号e(n)。对于元音和浊辅音,e(n) 表现为周期性的脉冲信号;对于清辅音,e(n) 则是一段白噪声信号。激励信号e(n) 经过声道h(n) 传导后发生了变化(这一过程称为调制),最终得到的输出信号x(n) 就是我们实际听到的声音。对于一个线性时不变系统来说,激励信号e(n) 经过声道h(n) 的调制过程本质上是一个卷积过程,即x(n) =e(n) ∗h(n)。

源-滤波模型示意图。图中“*”表示卷积操作

源-滤波模型为语音合成提供了理论基础:只要能够构造出合理的激励信号e(n) 和声道特性h(n),就可以基于这一模型合成人声。源-滤波模型为传统语音合成技术奠定了基础。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 11:10:12

GLM-4V-9B惊艳效果展示:复杂图表中多类信息同步识别与推理回答

GLM-4V-9B惊艳效果展示:复杂图表中多类信息同步识别与推理回答 1. 为什么这张图能让模型“看懂”又“想明白” 你有没有试过把一张密密麻麻的财务报表、带标注的医学影像,或者嵌套了折线图柱状图文字说明的行业分析图,直接丢给AI问&#xf…

作者头像 李华
网站建设 2026/6/15 10:23:21

Qwen-Image-2512-SDNQ效果对比展示:不同aspect_ratio下构图质量实测报告

Qwen-Image-2512-SDNQ效果对比展示:不同aspect_ratio下构图质量实测报告 1. 这不是“随便调个参数”的测试,而是真实构图能力的硬核检验 你有没有试过这样一种情况:明明写好了特别精准的提示词,生成的图片内容也基本符合预期&am…

作者头像 李华
网站建设 2026/6/15 10:25:42

开箱即用!Clawdbot汉化版企业微信接入完整操作指南

开箱即用!Clawdbot汉化版企业微信接入完整操作指南 Clawdbot 汉化版不是另一个需要复杂配置的AI中转服务,而是一个真正“装好就能用”的本地智能助手。它把大模型能力直接塞进你熟悉的通讯工具里——这次,我们重点打通企业微信这条高频办公通…

作者头像 李华
网站建设 2026/6/14 20:02:27

SenseVoice SmallWebUI交互细节展示:上传/播放/识别/复制一站式体验

SenseVoice SmallWebUI交互细节展示:上传/播放/识别/复制一站式体验 1. 为什么是SenseVoice Small? 语音转文字这件事,听起来简单,做起来却常踩坑。你可能试过几个开源ASR工具,结果卡在模型加载失败、路径报错、GPU不…

作者头像 李华
网站建设 2026/6/15 10:24:00

SiameseUIE GPU部署避坑指南:nvidia-smi监控+显存泄漏排查全流程

SiameseUIE GPU部署避坑指南:nvidia-smi监控显存泄漏排查全流程 在实际生产环境中部署SiameseUIE这类基于StructBERT的孪生网络模型时,很多开发者会遇到一个看似简单却极其棘手的问题:服务运行初期一切正常,但随着请求量增加&…

作者头像 李华