如何构建高表现力的语音合成模型-编程实验室

六月，Alexa宣布了一项名为“阅读伙伴”的新功能，它通过让孩子与Alexa轮流朗读来帮助他们成长为自信的读者，同时Alexa会给予鼓励和支持。为了使这一体验更具吸引力和趣味性，某中心的文本转语音团队开发了一版Alexa语音，该语音比标准的中性语速更慢，表现力更丰富。

由于表现力强的语音比中性语音更具可变性，因此表现力语音模型容易出现稳定性问题，例如突然停顿或生硬的语调变化。为了解决这个问题，模型开发者可能会收集代表特定风格的数据，但这成本高昂且耗时。他们也可能部署一个不基于“注意力机制”的模型，即模型在处理当前词语时，不特别关注先前输入的特定词语。然而，无注意力模型通常更复杂，部署需要更多精力，并且常常会导致额外的延迟。目标是在不增加数据收集或模型部署负担的情况下，开发出高表现力的语音。这通过两种方式实现：开发新的数据预处理方法，以及提供适应表现力语音的模型。此外，还与用户体验研究人员在模型构建前后进行了密切合作。

为了确定收集何种训练数据，在项目开始前进行了一项用户体验研究，让儿童及其父母聆听一个合成叙述性段落的基线语音。结果表明，较慢的语速和更强的表现力将改善客户体验。在录制训练数据时，主动控制了语速和表现力水平。在构建模型后，进行了第二次用户体验研究，发现在故事朗读方面，受试者对新语音的偏好是标准Alexa语音的两倍。

数据整理
高表现力语音模型的不稳定性是由于“极端韵律”造成的，这在儿童读物的朗读中很常见。韵律是语音的节奏、重音、旋律、时长和响度；成年人在给幼儿朗读时，经常会夸张地改变语调，大幅度改变音量，并延长或缩短词语的持续时间，以传达含义并吸引听者的注意力。

虽然希望数据集能捕捉到广泛的表现力范围，但有些话语可能过于极端。开发了一种新的训练数据预处理方法，可以剔除此类异常值。对于每个话语，会计算“说话人嵌入”——这是一个向量表示，用于捕捉说话人声音的韵律特征。如果某个说话人嵌入与平均嵌入之间的距离过大，就会将该话语从训练集中丢弃。

接下来，从每个语音样本中，移除那些无法从音频自动转录为文本的片段。由于大多数此类片段是无声停顿，移除它们可以防止模型在词语之间停顿时间过长。

建模
在建模方面，使用正则化和数据增强来提高稳定性。基于神经网络的文本转语音系统由两个部分组成：1）梅尔频谱图生成器和 2）声码器。梅尔频谱图生成器将一系列音素（最短的语音单位）作为输入，并输出信号在可听频率上的幅度。它负责语音的韵律。声码器将相位信息添加到梅尔频谱图中，以创建合成语音信号。没有相位信息，语音听起来会很机械。团队先前开发的通用声码器在此应用中效果良好。

在训练期间，对梅尔频谱图生成器的权重应用L2惩罚；即，偏离平均值的权重在训练期间会受到惩罚，惩罚的大小与偏差的平方成正比。这是一种正则化形式，可以减少对录音数据的过拟合。

还使用了数据增强来改善输出语音。将中性录音添加到训练录音中，为模型提供了不那么极端的韵律轨迹供其学习。

作为额外的输入，对于两种类型的训练数据，都为模型提供了一个风格标识符，这有助于模型学会区分讲故事风格与Alexa提供的其他风格。录音、处理和正则化的结合使模型变得稳定。

评估
为了评估“阅读伙伴”语音，邀请了成年众包测试者选择他们更喜欢哪种语音为儿童朗读故事。以标准Alexa语音作为基线。测试了100个平均时长约15秒的短段落，每个段落由不同的众包测试者评估30次。测试者是英语母语者；对测试者选择没有施加其他限制。

结果表明，“阅读伙伴”语音以较大优势胜出（61.16%对比基线的30.46%，P<.001），特别是考虑到众包评估的噪音性质以及没有丢弃任何收到的数据。

感谢Marco Nicolis和Arnaud Joly对此研究的贡献。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

手撕PMSM双闭环：当暴脾气滞环遇上佛系PI

PMSM永磁同步电机滞环电流控制PI双闭环 Matlab/Simulink仿真模型（成品） 1、包含永磁同步电机(PMSM)、滞环控制器(PWMInverter)、PI控制器、Park反变换模块、测量模块等构成； 2、采用转速、电流双闭环控制； 3、转速外环采用PI控制器…

李华

初学者必备：rs232和rs485的区别操作指南

RS232 vs RS485：嵌入式通信选型避坑指南你有没有遇到过这种情况？调试一台设备，串口线一接上，PC端却收不到任何数据。查了半天代码，最后发现是接口类型搞错了——本该用RS485的地方用了RS232的线，或者反过来…

李华

LLaMAPro增量预训练实战：从7B到13B的平滑升级路径

LLaMAPro增量预训练实战：从7B到13B的平滑升级路径在大模型技术快速演进的今天，企业与研究团队面临的不再是“有没有模型可用”，而是“如何高效迭代已有模型”。全量预训练一个13B级别的语言模型动辄需要数百万美元算力投入和数月时间&#x…

李华

网盘直链下载助手助力大模型权重分发提速10倍

网盘直链下载助手助力大模型权重分发提速10倍在AI研发一线工作的人都知道，真正让人头疼的往往不是模型结构设计或算法调优，而是——等它下载完。一个70B的大语言模型动辄上百GB，通过HuggingFace或社区平台的标准接口拉取，在高峰…

李华

YOLOFuse训练速度优化：利用GPU加速双流网络收敛

YOLOFuse训练速度优化：利用GPU加速双流网络收敛在智能安防、自动驾驶和夜间监控等现实场景中，单一可见光摄像头在低光照、烟雾或恶劣天气下常常“看不清”。这时候，红外（IR）图像的热辐射信息就显得尤为珍贵——它不依…

李华

为什么顶尖科技公司都在用Clang做代码检测？真相令人震惊

第一章：为什么顶尖科技公司都在用Clang做代码检测？真相令人震惊Clang 作为 LLVM 项目的核心组件之一，正逐渐成为 Google、Apple、Microsoft 等科技巨头在静态代码分析领域的首选工具。其高效、模块化的设计不仅提升了编译速度，更通…

李华