语音识别结果导出功能：Paraformer+Gradio JSON输出教程-编程实验室

语音识别结果导出功能：Paraformer+Gradio JSON输出教程

1. 背景与需求分析

随着语音识别技术在会议记录、访谈转录、教育辅助等场景中的广泛应用，用户不仅需要实时查看识别结果，还希望将结果以结构化格式保存，便于后续处理和归档。当前基于 Paraformer-large 和 Gradio 构建的语音识别系统虽然提供了直观的 Web 界面，但默认仅支持文本展示，缺乏对结果导出功能的支持。

本文将在此基础上进行功能扩展，实现JSON 格式的结果导出功能，使识别结果包含原始音频信息、时间戳（来自 VAD）、逐句文本及标点恢复内容，并通过 Gradio 提供一键下载能力。该方案适用于长音频离线转写场景，具备高可用性和工程落地价值。

2. 功能设计与核心逻辑

2.1 需求拆解

目标是在原有app.py基础上新增以下能力：

保留原有语音上传与实时转写功能
在识别完成后生成结构化的 JSON 输出，包括：
- 原始文件名
- 总时长
- 完整识别文本
- 分段结果（每段含开始/结束时间、文本）
提供“下载结果”按钮，触发 JSON 文件生成与浏览器下载
兼容长音频自动切分机制（由 FunASR 内部 VAD 实现）

2.2 技术选型依据

组件	作用
`funasr.AutoModel.generate()`	支持返回带时间戳的分段结果（需设置`output_timestamp=True`）
`json`模块	构建标准 JSON 结构
`gr.File`组件	实现文件下载接口
`os.path`,`wave`	获取音频元数据（如时长）

关键提示：Paraformer-large 模型在启用vad+punc配置后，可通过generate方法返回带有时间戳的句子级分割结果，这是实现结构化输出的基础。

3. 代码实现与功能集成

3.1 修改模型加载与推理参数

为获取时间戳信息，需在调用model.generate时显式开启output_timestamp选项。

def asr_process(audio_path): if audio_path is None: return "请先上传音频文件", None # 推理识别，启用时间戳输出 res = model.generate( input=audio_path, batch_size_s=300, output_timestamp=True # 关键参数：返回时间戳 ) if len(res) == 0: return "识别失败，请检查音频格式", None full_text = res[0]['text'] timestamp_segments = res[0].get('timestamp', []) # 可能为空，取决于VAD效果

3.2 构建结构化 JSON 数据

封装一个函数用于生成标准化的输出对象：

import json import wave from datetime import timedelta def build_output_json(audio_path, result): """构建包含完整元信息的JSON输出""" # 获取音频时长 try: with wave.open(audio_path, 'r') as f: frames = f.getnframes() rate = f.getframerate() duration = round(frames / float(rate), 2) except Exception: duration = None # 提取分段时间戳（FunASR 返回的是 [start, end] 列表） segments = [] if 'timestamp' in result and result['timestamp']: for i, (start, end) in enumerate(result['timestamp']): segments.append({ "id": i + 1, "start": round(start, 2), "end": round(end, 2), "text": result['text'].split('。')[i] + '。' if i < len(result['text'].split('。')) - 1 else result['text'].split('。')[-1] }) else: # 回退方案：无时间戳时返回整体文本 segments.append({ "id": 1, "start": 0.0, "end": duration or 0.0, "text": result['text'] }) output_data = { "audio_file": os.path.basename(audio_path), "duration_seconds": duration, "sample_rate": 16000, "language": "zh-cn", "transcription": { "full_text": result['text'], "segments": segments }, "metadata": { "model": "iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch", "generated_at": datetime.now().isoformat() } } return output_data

3.3 添加文件下载功能

使用临时文件方式生成可下载的 JSON 文件：

import tempfile from datetime import datetime def export_result(audio_path): if audio_path is None: return None res = model.generate( input=audio_path, batch_size_s=300, output_timestamp=True ) if not res: return None json_data = build_output_json(audio_path, res[0]) # 写入临时文件 temp_file = tempfile.NamedTemporaryFile(mode='w', suffix='.json', delete=False, encoding='utf-8') json.dump(json_data, temp_file, ensure_ascii=False, indent=2) temp_file.close() return temp_file.name # 返回路径供 Gradio 下载

3.4 更新 Gradio 界面组件

在原界面基础上增加“下载结果”按钮和文件输出区域：

with gr.Blocks(title="Paraformer 语音转文字控制台") as demo: gr.Markdown("# 🎤 Paraformer 离线语音识别转写") gr.Markdown("支持长音频上传，自动添加标点符号和端点检测。") with gr.Row(): with gr.Column(): audio_input = gr.Audio(type="filepath", label="上传音频或直接录音") submit_btn = gr.Button("开始转写", variant="primary") download_btn = gr.Button("下载JSON结果", variant="secondary") with gr.Column(): text_output = gr.Textbox(label="识别结果", lines=10) file_output = gr.File(label="结构化结果下载", visible=True) # 原有转写逻辑 submit_btn.click(fn=asr_process, inputs=audio_input, outputs=[text_output, gr.State()]) # 新增下载逻辑 download_btn.click( fn=export_result, inputs=audio_input, outputs=file_output )

4. 使用说明与部署建议

4.1 启动服务脚本更新

确保app.py已包含上述所有修改，并正确导入依赖库：

import gradio as gr from funasr import AutoModel import os import json import tempfile import wave from datetime import datetime

启动命令保持不变：

source /opt/miniconda3/bin/activate torch25 && cd /root/workspace && python app.py

4.2 访问与使用流程

执行 SSH 隧道映射端口：

ssh -L 6006:127.0.0.1:6006 -p [SSH_PORT] root@[INSTANCE_IP]

浏览器访问：http://127.0.0.1:6006
操作步骤：
- 上传.wav或.mp3音频文件
- 点击【开始转写】查看文本结果
- 点击【下载JSON结果】获取结构化数据文件

4.3 输出示例（JSON）

{ "audio_file": "interview.wav", "duration_seconds": 327.4, "sample_rate": 16000, "language": "zh-cn", "transcription": { "full_text": "今天我们讨论人工智能的发展趋势。它正在深刻改变各行各业……", "segments": [ { "id": 1, "start": 0.85, "end": 5.32, "text": "今天我们讨论人工智能的发展趋势。" }, { "id": 2, "start": 5.32, "end": 12.11, "text": "它正在深刻改变各行各业。" } ] }, "metadata": { "model": "iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch", "generated_at": "2025-04-05T10:23:45.123456" } }