LangChain自定义工具：封装TTS能力供Agent调用-编程实验室

LangChain自定义工具：封装TTS能力供Agent调用

🎯 业务场景与痛点分析

在构建面向用户的智能对话系统时，语音输出能力是提升交互体验的关键一环。传统的文本回复虽然高效，但在教育、陪伴机器人、无障碍服务等场景中，自然流畅的语音播报能显著增强用户沉浸感。

然而，在使用LangChain开发智能Agent时，其原生工具链并未内置高质量中文语音合成（TTS）功能。尽管社区存在一些TTS集成方案，但普遍存在以下问题： - 情感单一，语音机械生硬 - 依赖复杂，环境冲突频发（如numpy、scipy版本不兼容） - 缺乏稳定API接口，难以与Agent无缝对接

为此，我们基于ModelScope平台的Sambert-Hifigan中文多情感语音合成模型，封装了一个可被LangChain Agent直接调用的自定义工具，实现“文字→情感化语音”的自动化生成，并通过Flask暴露标准HTTP API，确保高可用性与工程稳定性。

本文将详细介绍如何将该TTS服务集成为LangChain中的可执行工具，助力Agent具备拟人化语音表达能力。

🧩 技术选型与核心优势

为什么选择 Sambert-Hifigan？

| 特性 | 说明 | |------|------| |端到端合成| 基于Sambert（音素到梅尔谱）+ HiFi-GAN（声码器）架构，无需中间特征手工处理 | |多情感支持| 支持开心、悲伤、愤怒、害怕、惊讶等多种情绪语调，提升语音表现力 | |中文优化| 针对普通话语序和发音习惯进行专项训练，自然度远超通用英文模型 | |轻量部署| 可在CPU上运行，适合边缘设备或低资源服务器 |

✅已解决关键依赖冲突：
原始ModelScope示例常因datasets==2.13.0与scipy<1.13冲突导致导入失败。我们通过锁定版本组合numpy==1.23.5,scipy==1.12.0,torch==1.13.1实现零报错启动。

🛠️ 封装思路：从API到LangChain Tool

要让LangChain Agent能够调用外部TTS服务，需完成两个核心步骤： 1.搭建稳定的远程TTS服务（后端）2.定义符合规范的LangChain工具（前端）

我们将采用“远程API调用 + 自定义Tool类”的方式，解耦模型服务与Agent逻辑，便于维护与扩展。

🌐 后端服务：Flask驱动的TTS API

以下是基于ModelScope Sambert-Hifigan模型封装的Flask应用核心代码：

# app.py from flask import Flask, request, jsonify, send_file from modelscope.pipelines import pipeline from modelscope.utils.constant import Tasks import numpy as np import soundfile as sf import os import tempfile app = Flask(__name__) # 初始化TTS推理管道 tts_pipeline = pipeline( task=Tasks.text_to_speech, model='damo/speech_sambert-hifigan_tts_zh-cn_pretrain_16k' ) # 临时文件存储目录 TEMP_DIR = tempfile.mkdtemp() @app.route('/tts', methods=['POST']) def text_to_speech(): data = request.get_json() text = data.get('text', '').strip() emotion = data.get('emotion', 'happy') # 支持情绪参数 if not text: return jsonify({'error': 'Missing text'}), 400 try: # 执行语音合成 output = tts_pipeline(input=text, voice=emotion) waveform = output['output_wav'] # 保存为WAV文件 wav_path = os.path.join(TEMP_DIR, f"tts_{hash(text)%10000}.wav") sf.write(wav_path, np.frombuffer(waveform, dtype=np.int16), 16000) return send_file(wav_path, mimetype='audio/wav', as_attachment=True, download_name='speech.wav') except Exception as e: return jsonify({'error': str(e)}), 500 @app.route('/') def index(): return ''' <h2>🎙️ Sambert-HifiGan 中文多情感语音合成</h2> <form id="ttsForm"> <textarea name="text" placeholder="请输入要合成的中文文本..." style="width:100%;height:100px"></textarea><br/> <select name="emotion"> <option value="happy">开心</option> <option value="sad">悲伤</option> <option value="angry">愤怒</option> <option value="fear">害怕</option> <option value="surprise">惊讶</option> </select> <button type="submit">开始合成语音</button> </form> <audio id="player" controls></audio> <script> document.getElementById('ttsForm').onsubmit = async (e) => { e.preventDefault(); const form = e.target; const resp = await fetch('/tts', { method: 'POST', headers: {'Content-Type': 'application/json'}, body: JSON.stringify({ text: form.text.value, emotion: form.emotion.value }) }); if (resp.ok) { const url = URL.createObjectURL(await resp.blob()); document.getElementById('player').src = url; } else { alert("合成失败：" + await resp.text()); } }; </script> ''' if __name__ == '__main__': app.run(host='0.0.0.0', port=8080)

🔍 关键点解析

pipeline(task='text_to_speech', ...)：加载ModelScope预训练模型，自动处理分词、音高预测、声码器解码全流程。
情感控制 (voice=emotion)：通过voice参数传入情感标签，激活不同语调风格。
二进制流返回：使用send_file直接传输.wav音频，兼容浏览器播放与下载。
WebUI集成：内嵌HTML页面支持在线测试，降低调试门槛。

🤖 前端集成：定义LangChain自定义工具

接下来，我们在LangChain中创建一个可调用的TTSTool，使其能被Agent识别并调度。

# tools/tts_tool.py from langchain.tools import BaseTool from pydantic import BaseModel, Field import requests import os class TTSToolInput(BaseModel): text: str = Field(..., description="需要合成的中文文本内容") emotion: str = Field(default="happy", description="语音情感类型：happy/sad/angry/fear/surprise") class TTSTool(BaseTool): name = "text_to_speech" description = "将中文文本转换为带有指定情感的语音音频，适用于需要语音播报的场景" args_schema = TTSToolInput def _run(self, text: str, emotion: str = "happy") -> str: """ 调用远程TTS服务并保存音频 返回音频文件的本地路径或访问链接 """ api_url = "http://localhost:8080/tts" # 对接上述Flask服务 try: response = requests.post( api_url, json={'text': text, 'emotion': emotion}, timeout=30 ) response.raise_for_status() # 保存音频到本地 output_dir = "outputs/tts" os.makedirs(output_dir, exist_ok=True) output_path = os.path.join(output_dir, "response.wav") with open(output_path, 'wb') as f: f.write(response.content) return f"✅ 语音已生成：{output_path}，可通过播放器收听。" except requests.exceptions.RequestException as e: return f"❌ 语音合成失败：{str(e)}" async def _arun(self, text: str, emotion: str = "happy") -> str: raise NotImplementedError("异步模式暂不支持")

📦 使用说明

确保Flask TTS服务正在运行（python app.py）
将TTSTool注册到LangChain Agent中：

from langchain.agents import initialize_agent, AgentType from langchain.llms import OpenAI llm = OpenAI(model="gpt-3.5-turbo-instruct", temperature=0.7) agent = initialize_agent( tools=[TTSTool()], llm=llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True ) # 示例调用 agent.run("请用开心的语气说：欢迎来到智能语音助手的世界！")

🧪 实际运行效果示例

当Agent接收到如下指令：

“你现在是一个儿童故事主播，请用悲伤的语气朗读这句话：‘小熊找不到妈妈了，它坐在树下哭了。’”

LangChain会自动解析意图，提取文本与情感要求，调用TTSTool生成对应语音文件，最终输出：

✅ 语音已生成：outputs/tts/response.wav，可通过播放器收听。

同时，音频内容具有明显的情感起伏，接近真人朗读效果。

⚙️ 工程优化建议

1.性能优化

使用gunicorn+gevent部署Flask服务，支持并发请求
添加Redis缓存机制，对重复文本跳过合成，直接返回历史音频

2.安全性增强

限制单次输入长度（如≤500字），防止DoS攻击
校验emotion参数白名单，避免非法值导致崩溃

3.日志与监控

记录每次TTS调用的text、emotion、耗时、IP地址
集成Prometheus指标上报，监控QPS与平均延迟

4.跨平台适配

在移动端App中嵌入WebView调用WebUI
提供WebSocket接口实现实时流式语音返回

🔄 架构整合图示

+------------------+ +---------------------+ | LangChain Agent | ----> | TTSTool (Custom) | +------------------+ +----------+----------+ | v +-----------+-----------+ | Flask TTS API Server | | (Sambert-Hifigan) | +-----------+-----------+ | v +--------------+--------------+ | ModelScope Pretrained Model | | - Text → Mel → Waveform | +-----------------------------+

整个系统实现了逻辑分离、职责清晰、易于维护的设计目标。

🧭 总结与实践建议

✅ 核心价值总结

情感丰富：突破传统TTS“机器音”局限，支持多情绪表达
开箱即用：修复依赖冲突，提供稳定运行环境
双模访问：既可通过WebUI人工操作，也可通过API程序化调用
无缝集成：轻松接入LangChain生态，赋能Agent语音能力

💡 最佳实践建议

优先部署独立服务：将TTS模块作为微服务运行，避免阻塞主Agent进程
设置超时熔断：网络调用添加timeout=30s，防止单次合成卡死
结合SSML扩展：未来可升级支持SSML标记语言，实现更精细的语调控制

🚀 下一步方向

接入语音克隆功能，实现个性化声音定制
结合ASR（语音识别）构建完整“语音对话闭环”
在智能音箱、车载系统中落地应用，打造全双工语音交互体验

通过本次封装，我们不仅打通了LangChain与高质量TTS的能力链路，更为下一代拟人化Agent提供了重要的感官延伸——让AI真正“开口说话”。

LangChain自定义工具：封装TTS能力供Agent调用