FSMN VAD JSON结果导出：批量分析数据接口调用示例-编程实验室

FSMN VAD JSON结果导出：批量分析数据接口调用示例

1. 背景与需求分析

随着语音处理技术在会议记录、电话质检、音频内容审核等场景中的广泛应用，高效准确地识别语音活动片段（Voice Activity Detection, VAD）成为关键前置步骤。阿里达摩院开源的FSMN VAD模型凭借其轻量级结构和高精度表现，已成为工业界广泛采用的解决方案之一。

本文聚焦于实际工程落地中一个典型需求：如何通过程序化方式批量调用 FSMN VAD WebUI 提供的功能，并将检测结果以结构化的 JSON 格式导出，用于后续的数据分析或系统集成。该流程特别适用于需要对大量历史录音文件进行离线处理的业务场景。

当前 FSMN VAD 的 WebUI 版本已支持单文件上传与实时参数调节，但尚未提供原生的批量 API 接口。因此，我们需基于其前端交互机制，构建一套可复用的自动化调用方案。

2. 系统架构与接口原理

2.1 FSMN VAD WebUI 工作机制解析

FSMN VAD WebUI 基于 Gradio 框架构建，所有功能模块均通过 HTTP 请求与后端服务通信。当用户点击“开始处理”按钮时，前端会向/predict端点发起 POST 请求，携带音频数据及配置参数，服务端返回 JSON 格式的语音片段列表。

Gradio 默认使用以下路径进行预测请求：

http://localhost:7860/api/predict/

该接口遵循标准的 JSON-RPC 协议格式，请求体包含三个核心字段：

fn_index: 函数索引号，标识调用的具体处理函数
data: 输入数据数组，包括音频文件和参数
session_hash: 会话标识符（可选）

通过浏览器开发者工具抓包分析可知，在“批量处理”页面中，“开始处理”的fn_index为1。

2.2 数据输入结构解析

data字段是一个有序数组，对应界面控件的输入顺序：

[ "audio_file", // 音频文件（base64 编码或上传对象） "audio_url", // 可选：音频 URL false, // 是否启用高级参数（布尔值） 800, // max_end_silence_time（尾部静音阈值） 0.6 // speech_noise_thres（语音-噪声阈值） ]

若未上传本地文件而使用 URL，则第一个元素为null，第二个为字符串形式的 URL。

3. 批量调用实现方案

3.1 技术选型与依赖库

本方案采用 Python 实现，主要依赖如下库：

requests: 发起 HTTP 请求
json: 处理 JSON 数据
os,glob: 文件系统操作
time: 控制请求间隔避免过载

安装命令：

pip install requests

3.2 核心代码实现

以下为完整可运行的批量调用脚本示例：

import os import glob import json import time import requests from typing import List, Dict # 配置项 VAD_API_URL = "http://localhost:7860/api/predict/" AUDIO_DIR = "./audio_files" # 音频文件目录 OUTPUT_FILE = "vad_results.jsonl" # 输出文件（每行一个 JSON 记录） SUPPORTED_FORMATS = ('*.wav', '*.mp3', '*.flac', '*.ogg') # VAD 参数配置 MAX_END_SILENCE_TIME = 800 # 尾部静音阈值（ms） SPEECH_NOISE_THRES = 0.6 # 语音-噪声阈值 def upload_and_process(audio_path: str) -> Dict: """ 上传音频并调用 FSMN VAD 进行处理 Args: audio_path: 音频文件路径 Returns: 包含检测结果的字典 """ with open(audio_path, 'rb') as f: files = {'file': (os.path.basename(audio_path), f, 'audio/wav')} response = requests.post(f"{VAD_API_URL.replace('/api/predict/', '/upload/')}", files=files) uploaded_file = response.json() # 构造 predict 请求数据 data = { "fn_index": 1, "data": [ uploaded_file, # 上传后的文件引用 None, # 不使用 URL True, # 启用高级参数 MAX_END_SILENCE_TIME, SPEECH_NOISE_THRES ], "session_hash": "batch_run_" + str(int(time.time())) } headers = {"Content-Type": "application/json"} response = requests.post(VAD_API_URL, data=json.dumps(data), headers=headers) if response.status_code == 200: result = response.json() return { "filename": os.path.basename(audio_path), "status": "success", "segments": result["data"][0] # 返回 JSON 结果数组 } else: return { "filename": os.path.basename(audio_path), "status": "error", "message": f"HTTP {response.status_code}: {response.text}" } def batch_process_directory() -> None: """ 批量处理指定目录下的所有音频文件 """ audio_files = [] for ext in SUPPORTED_FORMATS: audio_files.extend(glob.glob(os.path.join(AUDIO_DIR, ext))) print(f"发现 {len(audio_files)} 个音频文件，开始批量处理...") with open(OUTPUT_FILE, 'w', encoding='utf-8') as out_f: for idx, file_path in enumerate(audio_files): print(f"[{idx+1}/{len(audio_files)}] 正在处理: {file_path}") try: result = upload_and_process(file_path) out_f.write(json.dumps(result, ensure_ascii=False) + "\n") out_f.flush() # 立即写入磁盘 except Exception as e: error_record = { "filename": os.path.basename(file_path), "status": "exception", "message": str(e) } out_f.write(json.dumps(error_record, ensure_ascii=False) + "\n") out_f.flush() print(f"处理失败: {e}") # 避免服务器压力过大 time.sleep(0.5) if __name__ == "__main__": if not os.path.exists(AUDIO_DIR): raise FileNotFoundError(f"音频目录不存在: {AUDIO_DIR}") start_time = time.time() batch_process_directory() elapsed = time.time() - start_time print(f"✅ 批量处理完成！共耗时 {elapsed:.2f} 秒") print(f"📊 结果已保存至: {OUTPUT_FILE}")

3.3 代码说明与关键点解析

文件上传机制

Gradio 使用/upload接口接收文件上传请求。脚本首先将本地音频以multipart/form-data形式上传，获取服务端返回的临时文件路径引用，再将其作为data[0]提交至/predict接口。

JSONL 格式输出

输出文件采用.jsonl（JSON Lines）格式，即每行为独立的 JSON 对象。这种格式便于流式读取、增量写入和大数据集处理，适合后续使用 Spark、Pandas 或日志分析工具进一步加工。

错误处理与健壮性

异常捕获确保单个文件失败不影响整体流程
每次写入后调用flush()防止程序中断导致数据丢失
添加time.sleep(0.5)避免高频请求压垮服务

4. 输出结果示例与后续处理

4.1 导出文件样例

执行脚本后生成的vad_results.jsonl内容如下：

{"filename": "meeting_001.wav", "status": "success", "segments": [{"start": 70, "end": 2340, "confidence": 1.0}, {"start": 2590, "end": 5180, "confidence": 1.0}]} {"filename": "call_002.mp3", "status": "success", "segments": [{"start": 120, "end": 3100, "confidence": 1.0}]} {"filename": "noise_only.flac", "status": "success", "segments": []}