news 2026/6/15 15:35:58

如何构建高表现力的语音合成模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
如何构建高表现力的语音合成模型

六月,Alexa宣布了一项名为“阅读伙伴”的新功能,它通过让孩子与Alexa轮流朗读来帮助他们成长为自信的读者,同时Alexa会给予鼓励和支持。为了使这一体验更具吸引力和趣味性,某中心的文本转语音团队开发了一版Alexa语音,该语音比标准的中性语速更慢,表现力更丰富。

由于表现力强的语音比中性语音更具可变性,因此表现力语音模型容易出现稳定性问题,例如突然停顿或生硬的语调变化。为了解决这个问题,模型开发者可能会收集代表特定风格的数据,但这成本高昂且耗时。他们也可能部署一个不基于“注意力机制”的模型,即模型在处理当前词语时,不特别关注先前输入的特定词语。然而,无注意力模型通常更复杂,部署需要更多精力,并且常常会导致额外的延迟。目标是在不增加数据收集或模型部署负担的情况下,开发出高表现力的语音。这通过两种方式实现:开发新的数据预处理方法,以及提供适应表现力语音的模型。此外,还与用户体验研究人员在模型构建前后进行了密切合作。

为了确定收集何种训练数据,在项目开始前进行了一项用户体验研究,让儿童及其父母聆听一个合成叙述性段落的基线语音。结果表明,较慢的语速和更强的表现力将改善客户体验。在录制训练数据时,主动控制了语速和表现力水平。在构建模型后,进行了第二次用户体验研究,发现在故事朗读方面,受试者对新语音的偏好是标准Alexa语音的两倍。

数据整理
高表现力语音模型的不稳定性是由于“极端韵律”造成的,这在儿童读物的朗读中很常见。韵律是语音的节奏、重音、旋律、时长和响度;成年人在给幼儿朗读时,经常会夸张地改变语调,大幅度改变音量,并延长或缩短词语的持续时间,以传达含义并吸引听者的注意力。

虽然希望数据集能捕捉到广泛的表现力范围,但有些话语可能过于极端。开发了一种新的训练数据预处理方法,可以剔除此类异常值。对于每个话语,会计算“说话人嵌入”——这是一个向量表示,用于捕捉说话人声音的韵律特征。如果某个说话人嵌入与平均嵌入之间的距离过大,就会将该话语从训练集中丢弃。

接下来,从每个语音样本中,移除那些无法从音频自动转录为文本的片段。由于大多数此类片段是无声停顿,移除它们可以防止模型在词语之间停顿时间过长。

建模
在建模方面,使用正则化和数据增强来提高稳定性。基于神经网络的文本转语音系统由两个部分组成:1)梅尔频谱图生成器 和 2)声码器。梅尔频谱图生成器将一系列音素(最短的语音单位)作为输入,并输出信号在可听频率上的幅度。它负责语音的韵律。声码器将相位信息添加到梅尔频谱图中,以创建合成语音信号。没有相位信息,语音听起来会很机械。团队先前开发的通用声码器在此应用中效果良好。

在训练期间,对梅尔频谱图生成器的权重应用L2惩罚;即,偏离平均值的权重在训练期间会受到惩罚,惩罚的大小与偏差的平方成正比。这是一种正则化形式,可以减少对录音数据的过拟合。

还使用了数据增强来改善输出语音。将中性录音添加到训练录音中,为模型提供了不那么极端的韵律轨迹供其学习。

作为额外的输入,对于两种类型的训练数据,都为模型提供了一个风格标识符,这有助于模型学会区分讲故事风格与Alexa提供的其他风格。录音、处理和正则化的结合使模型变得稳定。

评估
为了评估“阅读伙伴”语音,邀请了成年众包测试者选择他们更喜欢哪种语音为儿童朗读故事。以标准Alexa语音作为基线。测试了100个平均时长约15秒的短段落,每个段落由不同的众包测试者评估30次。测试者是英语母语者;对测试者选择没有施加其他限制。

结果表明,“阅读伙伴”语音以较大优势胜出(61.16%对比基线的30.46%,P<.001),特别是考虑到众包评估的噪音性质以及没有丢弃任何收到的数据。

感谢Marco Nicolis和Arnaud Joly对此研究的贡献。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/5 9:23:42

手撕PMSM双闭环:当暴脾气滞环遇上佛系PI

PMSM永磁同步电机滞环电流控制PI双闭环 Matlab/Simulink仿真模型&#xff08;成品&#xff09; 1、包含永磁同步电机(PMSM)、滞环控制器(PWMInverter)、PI控制器、Park反变换模块、测量模块等构成&#xff1b; 2、采用转速、电流双闭环控制&#xff1b; 3、转速外环采用PI控制器…

作者头像 李华
网站建设 2026/6/15 14:44:55

初学者必备:rs232和rs485的区别操作指南

RS232 vs RS485&#xff1a;嵌入式通信选型避坑指南你有没有遇到过这种情况&#xff1f;调试一台设备&#xff0c;串口线一接上&#xff0c;PC端却收不到任何数据。查了半天代码&#xff0c;最后发现是接口类型搞错了——本该用RS485的地方用了RS232的线&#xff0c;或者反过来…

作者头像 李华
网站建设 2026/6/15 11:43:06

LLaMAPro增量预训练实战:从7B到13B的平滑升级路径

LLaMAPro增量预训练实战&#xff1a;从7B到13B的平滑升级路径 在大模型技术快速演进的今天&#xff0c;企业与研究团队面临的不再是“有没有模型可用”&#xff0c;而是“如何高效迭代已有模型”。全量预训练一个13B级别的语言模型动辄需要数百万美元算力投入和数月时间&#x…

作者头像 李华
网站建设 2026/6/15 14:30:28

网盘直链下载助手助力大模型权重分发提速10倍

网盘直链下载助手助力大模型权重分发提速10倍 在AI研发一线工作的人都知道&#xff0c;真正让人头疼的往往不是模型结构设计或算法调优&#xff0c;而是——等它下载完。 一个70B的大语言模型动辄上百GB&#xff0c;通过HuggingFace或社区平台的标准接口拉取&#xff0c;在高峰…

作者头像 李华
网站建设 2026/6/15 11:42:47

YOLOFuse训练速度优化:利用GPU加速双流网络收敛

YOLOFuse训练速度优化&#xff1a;利用GPU加速双流网络收敛 在智能安防、自动驾驶和夜间监控等现实场景中&#xff0c;单一可见光摄像头在低光照、烟雾或恶劣天气下常常“看不清”。这时候&#xff0c;红外&#xff08;IR&#xff09;图像的热辐射信息就显得尤为珍贵——它不依…

作者头像 李华
网站建设 2026/6/15 11:44:59

为什么顶尖科技公司都在用Clang做代码检测?真相令人震惊

第一章&#xff1a;为什么顶尖科技公司都在用Clang做代码检测&#xff1f;真相令人震惊Clang 作为 LLVM 项目的核心组件之一&#xff0c;正逐渐成为 Google、Apple、Microsoft 等科技巨头在静态代码分析领域的首选工具。其高效、模块化的设计不仅提升了编译速度&#xff0c;更通…

作者头像 李华