GLM-TTS 发布：3 秒音色复刻 + 工业级语音合成，模型权重已开源-编程实验室

智谱 AI 正式发布工业级语音合成系统 GLM-TTS，并宣布在Hugging Face和ModelScope 上开放模型权重。

作为智谱在语音领域的最新力作，GLM-TTS 基于在数据筛选、基础模型结构、精品音色监督微调（SFT）及强化学习（RL）等多方面的技术创新。仅在 10w 小时数据上训练，便具备了“3秒”音色复刻和超强文本理解能力，在多个开源测试集上实现 SOTA 。

全能情感复刻：模型能根据文本内容的情绪，自动匹配对应的语音情感。在权威测试集（CV3-eval-emotion）中，GLM-TTS 在 Happy（开心）、Sad（悲伤）、Angry（愤怒）三类情感维度均取得“最佳表现” 。
碾压商用模型：数据显示，相比 Qwen3-TTS、豆包 TTS-2.0 等商用模型在负向情感（如悲伤、愤怒）上得分多为 0 的情况，GLM-TTS 的平均情感得分高达 0.51，展现了极强的拟人化能力。
方言与极速克隆：支持四川话、东北话等方言克隆，且仅需3秒提示音频即可完成高保真音色复刻。

评测数据显示，GLM-TTS在悲伤、愤怒等高难度负向情感上全面领先商用模型

GLM-TTS 是一套基于两阶段生成范式（Text-to-token & Token-to-wav）的高质量系统。为了解决传统 TTS 的痛点，智谱此次带来了多项“黑科技”：

引入强化学习 (RL)：这是本次最大的技术亮点之一。GLM-TTS 创新引入 GRPO 算法框架，融合了 CER（字错误率）、相似度、情感及笑声（Laughter）的多维度奖励机制。通过动态采样与梯度裁剪，显著提升了语音的拟人化程度，让 AI 学会了“呼吸”和“笑” 。
低成本 LoRA 定制：传统全参微调成本高昂，而 GLM-TTS 优化的 LoRA 范式仅需微调 15% 的参数，配合约 1 小时的单一说话人数据，即可达到与全参微调相当的效果。
精准发音控制 (Phoneme-in)：针对“行（xíng/háng）”等多音字和生僻字难题，提出了“Hybrid Phoneme + Text”混合输入形式，实现了对发音的精准定向控制，完美适配教育评测等高精度场景。

系统采用“Text-to-token + Token-to-wav”两阶段生成范式，配合自研2D-Vocos声码器，确保了高保真的语音合成效果

一切用数据说话。在各项权威评测中，GLM-TTS 均展现出了“霸榜”级的实力：

CER 击穿底线：在 seed-tts-eval 中文测试集中，GLM-TTS_RL 的字错误率（CER）低至 0.89% 。
超越开源 SOTA：这一成绩显著优于 CosyVoice2 (1.38%)、VoxCPM (0.93%)、IndexTTS2 (1.03%) 等主流开源模型，甚至逼近闭源模型的顶尖水平。
音色高保真：在保证极低错误率的同时，音色相似度（Sim）提升至 76.4，实现了“发音精准+音色相似”的双重领先。

GLM-TTS_RL以0.89%的极低字错误率（CER）超越CosyVoice2等主流模型，成功刷新开源 SOTA 记录

GLM-TTS 现已全面开放，开发者和企业用户可以通过以下方式即刻上手：

💻 在线体验：

👨‍💻 模型下载与开源：

☁️ API 调用：企业用户可通过开放平台 BigModel 直接调用模型 API，支持从 Demo 试用到生产级大规模调用的多种配置

LobeChat能否集成海洋数据？渔业资源与生态保护建议在东海某渔政站的办公室里，一位基层管理人员正面对一份刚传回的浮标监测报告——密密麻麻的数据表格、温度曲线和盐度变化趋势让他皱起了眉头。他需要判断当前水温是否会影响小黄鱼的产卵周期&#xff…

李华

GPT-SoVITS本地部署与AI音色克隆完整指南在语音合成技术飞速发展的今天，个性化TTS（文本转语音）已不再是大厂专属。一款名为 GPT-SoVITS 的开源项目正悄然掀起变革——仅需1分钟真实录音，就能复刻你的声音，生成自然流…

李华

LobeChat能否实现AI造纸匠？传统工艺复兴与材料创新建议在一座江南小镇的作坊里，老师傅正用竹帘从纸浆中“抄”起一张湿漉漉的薄片。阳光透过窗棂洒在泛黄的手稿上，上面写着“青檀皮七分，稻草三分”。可这样的场景正逐年减少——掌…

李华

Linux下安装TensorFlow-GPU及CUDA配置指南在深度学习项目中，GPU加速几乎成了标配。然而，当面对NVIDIA驱动、CUDA、cuDNN和TensorFlow之间错综复杂的版本依赖时，即便是有经验的开发者也常常被“劝退”。尤其是从零开始搭建一个稳定可用的Lin…

李华

STM32-S107-图像识别颜色分类数量统计手动自动阈值TFT彩屏声光提醒按键(无线方式选择)产品功能描述：本系统由STM32F103C8T6单片机核心板、OLED屏、（无线蓝牙/无线WIFI/无线视频监控/联网云平台模块-可选）、摄像头模块、舵机模块、蜂鸣器报警、…

李华

是gift102好耶… 本来是在自己摸索与学习，然后前两天反应过来马上有朋友过生日，于是放下手里还在捏的oc想弄一个小小游戏送给朋友， 分为blender部分记录和ue部分记录因为还在课上坐牢所以暂时发不了博客先写知乎，感觉自己有点…

李华