FunASR语音识别WebUI使用指南｜附科哥定制镜像实践案例-编程实验室

FunASR语音识别WebUI使用指南｜附科哥定制镜像实践案例

1. 快速开始与环境准备

1.1 镜像信息概览

本文基于由开发者“科哥”二次开发的 FunASR 定制镜像进行实践说明，该镜像在原始 FunASR 框架基础上集成了speech_ngram_lm_zh-cn语言模型，并优化了 WebUI 交互体验。适用于中文语音识别场景，支持多格式音频上传、实时录音识别及结果导出。

镜像名称：FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥
核心功能增强：
- 集成 N-gram 语言模型提升中文识别准确率
- 提供直观 WebUI 界面，降低使用门槛
- 支持标点恢复、VAD（语音活动检测）、时间戳输出等高级功能
- 多种结果导出格式（TXT、JSON、SRT）

1.2 启动服务与访问方式

启动容器后，可通过以下地址访问 WebUI 界面：

http://localhost:7860

若需远程访问，请替换为服务器 IP 地址：

http://<服务器IP>:7860

提示：确保防火墙已开放 7860 端口，或关闭防火墙以避免连接问题。

2. WebUI 界面详解

2.1 头部区域说明

页面顶部展示系统基本信息：

标题：FunASR 语音识别 WebUI
描述：基于 FunASR 的中文语音识别系统
版权信息：webUI二次开发 by 科哥 | 微信：312088415

此部分为固定信息，保留开发者署名，承诺永久开源使用。

2.2 控制面板功能解析（左侧栏）

2.2.1 模型选择

提供两种主流 ASR 模型选项：

Paraformer-Large：大参数量模型，识别精度高，适合对准确性要求高的场景（可选）
SenseVoice-Small：轻量级模型，默认启用，响应速度快，适合实时交互场景

可根据实际需求切换模型，在精度与速度之间权衡。

2.2.2 设备运行模式

CUDA：启用 GPU 加速，显著提升识别效率，推荐有显卡用户使用（自动检测并默认选中）
CPU：纯 CPU 推理模式，兼容无独立显卡设备，性能相对较低但通用性强

2.2.3 功能开关配置

三项关键辅助功能可自由启停：

启用标点恢复 (PUNC)：自动为识别文本添加逗号、句号等标点符号，提升可读性
启用语音活动检测 (VAD)：自动分割长音频中的有效语音段，过滤静音和噪声
输出时间戳：在结果中附加每句话的时间起止信息，便于后期编辑或字幕制作

2.2.4 模型状态显示

实时反馈当前模型加载情况：

✓ 模型已成功加载
✗ 模型未加载或加载失败

点击“刷新”按钮可更新状态，“加载模型”用于手动触发模型重载。

2.2.5 操作按钮

加载模型：主动加载所选模型至内存
刷新：重新获取当前状态信息

3. 使用流程详解

3.1 方式一：上传音频文件识别

3.1.1 音频格式支持与建议

支持以下常见音频格式：

WAV (.wav)
MP3 (.mp3)
M4A (.m4a)
FLAC (.flac)
OGG (.ogg)
PCM (.pcm)

推荐采样率：16kHz，单声道，符合大多数 ASR 模型输入标准。

3.1.2 文件上传步骤

在主界面“ASR 语音识别”区域点击“上传音频”
从本地选择符合格式的音频文件
等待上传完成（进度条显示）

3.1.3 参数配置

批量大小（秒）：默认 300 秒（5 分钟），最大支持 600 秒。用于控制分块处理长度。
识别语言：
- auto：自动检测语言（推荐）
- zh：强制识别为中文
- en：英文
- yue：粤语
- ja：日语
- ko：韩语

混合语种内容建议使用auto模式。

3.1.4 开始识别

点击“开始识别”按钮，系统将根据配置调用模型进行推理。

处理时间取决于音频长度、模型大小及硬件性能。

3.1.5 查看识别结果

识别完成后，结果以三个标签页形式呈现：

标签页	内容说明
文本结果	清晰可复制的纯文本输出
详细信息	JSON 结构化数据，包含置信度、时间戳等元信息
时间戳	按词/句划分的时间区间列表

示例输出如下：

[001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s)

3.2 方式二：浏览器实时录音识别

3.2.1 录音权限申请

点击“麦克风录音”按钮
浏览器弹出权限请求，点击“允许”

若未出现提示，请检查浏览器设置是否禁用了麦克风权限。

3.2.2 录音与停止

对着麦克风清晰说话
点击“停止录音”结束录制

系统会自动保存临时音频文件并准备识别。

3.2.3 开始识别与查看结果

同“上传音频”流程，点击“开始识别”即可获取转录结果。

适用于会议记录、课堂笔记等即时转写场景。

4. 识别结果下载与管理

4.1 下载功能说明

识别完成后，可通过三个按钮导出不同格式的结果：

按钮	输出格式	典型用途
下载文本	.txt	直接复制粘贴使用
下载 JSON	.json	程序解析、二次开发
下载 SRT	.srt	视频字幕嵌入

4.2 文件存储路径

所有输出文件统一保存在：

outputs/outputs_YYYYMMDDHHMMSS/

每次识别生成一个带时间戳的独立目录，结构如下：

outputs/outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # JSON 格式完整结果 ├── text_001.txt # 纯文本结果 └── subtitle_001.srt # SRT 字幕文件

建议定期清理旧目录，防止磁盘空间占用过多。

5. 高级功能配置指南

5.1 批量大小调整策略

默认值：300 秒（5 分钟）
可调范围：60 ~ 600 秒

应用场景建议：

小批量（60~120s）：适用于低内存环境或高实时性需求
中批量（300s）：平衡性能与资源消耗，通用推荐
大批量（600s）：适合离线批处理，减少 I/O 开销

过大的批次可能导致内存溢出，尤其在 CPU 模式下应谨慎设置。

5.2 语言识别设置技巧

正确选择语言是提高识别准确率的关键：

场景	推荐设置
纯中文内容	`zh`
纯英文内容	`en`
中英混合	`auto`
粤语、日语、韩语	对应语言代码

使用auto模式时，系统会通过声学特征判断语种，但可能误判方言或口音较重的内容。

5.3 时间戳输出应用

启用“输出时间戳”后，可用于：

视频字幕同步：配合 SRT 导出实现精准对齐
音频剪辑定位：快速跳转到特定语句位置
教学分析：统计学生发言时段分布

时间戳精度可达毫秒级，满足专业编辑需求。

6. 实践案例：基于科哥定制镜像的部署流程

6.1 部署前准备

硬件要求：

硬盘剩余空间 ≥ 40GB（含模型缓存）
内存 ≥ 8GB（推荐），最低 4GB 可运行 CPU 模式
显卡（可选）：NVIDIA GPU + CUDA 驱动，用于加速推理

软件依赖：

Docker 已安装并正常运行
浏览器支持 WebRTC（Chrome/Firefox 推荐）

6.2 镜像拉取与运行

拉取镜像命令（amd64 架构）

docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.9

arm64 架构专用拉取命令

docker pull --platform=linux/arm64 registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.9

创建挂载目录

mkdir -p ./funasr-runtime-resources/models

启动容器

docker run -p 7860:7860 -itd --privileged=true \ -v $(pwd)/funasr-runtime-resources/models:/workspace/models \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.9

注意：此处映射端口为 7860，与 WebUI 默认端口一致。

6.3 进入容器并启动服务

docker attach <容器ID> cd /workspace/FunASR/runtime

执行启动脚本：

nohup bash run_server_2pass.sh \ --download-model-dir /workspace/models \ --vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \ --model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \ --online-model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online-onnx \ --punc-dir damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx \ --lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \ --itn-dir thuduj12/fst_itn_zh \ --hotword /workspace/models/hotwords.txt > log.txt 2>&1 &

此命令将自动下载所需模型至/workspace/models目录，并启动双路 WebSocket 服务。

6.4 内网部署方案

对于无法联网的内网服务器，建议采用“外网预下载 + 内网迁移”策略：

在可联网服务器上运行上述命令，完成模型下载

打包models目录：

docker save -o funasr-arm64.tar <IMAGE_ID> tar -czf models.tar.gz ./funasr-runtime-resources/models

将models.tar.gz上传至内网服务器对应路径
解压并启动容器，无需再次下载模型

7. 常见问题与解决方案

7.1 识别结果不准确

排查方向：

检查是否选择了正确的语言模式
确认音频质量良好，避免背景噪音过大
尝试更换模型（如从 SenseVoice-Small 切换至 Paraformer-Large）
使用hotwords.txt添加热词提升专有名词识别率

示例热词配置：
阿里巴巴 20 大模型 15 FunASR 18

7.2 识别速度慢

优化建议：

启用 CUDA 模式，利用 GPU 加速
减小“批量大小”以降低单次处理负载
使用轻量模型（SenseVoice-Small）
分段处理超长音频（>10分钟）

7.3 无法上传音频文件

检查项：

文件格式是否在支持列表中（优先使用 WAV 或 MP3）
文件大小是否超过浏览器限制（建议 < 100MB）
网络连接是否稳定，是否存在传输中断

7.4 录音无声或权限拒绝

解决方法：

确保浏览器已授予麦克风权限
检查操作系统音频设置，确认麦克风工作正常
更换浏览器测试（推荐 Chrome 最新版）

7.5 结果乱码或编码异常

处理方式：

确保输出文件以 UTF-8 编码打开
检查音频编码格式是否标准（避免非标准 PCM）
重新转换音频为标准 WAV 格式再试

7.6 如何提升整体识别准确率

综合建议：

使用 16kHz 采样率、单声道音频
保持安静环境，减少背景干扰
发音清晰，避免过快语速
合理配置热词文件增强领域词汇识别
启用 PUNC 和 VAD 提升上下文理解能力

8. 总结

本文围绕“FunASR 语音识别基于 speech_ngram_lm_zh-cn 二次开发构建 by 科哥”这一定制镜像，系统介绍了其 WebUI 的使用方法与工程实践路径。通过图形化界面降低了技术门槛，使得非专业用户也能轻松完成语音转文字任务。

核心价值体现在：

开箱即用：集成 N-gram 语言模型，提升中文识别效果
操作便捷：支持上传与实时录音双模式，适配多种场景
输出丰富：提供 TXT、JSON、SRT 多种格式导出
部署灵活：支持 Docker 容器化部署，兼顾内外网环境

无论是个人学习、企业办公还是教育科研，该方案均具备较强的实用性和扩展潜力。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。