用Fun-ASR搭建会议纪要系统，真实体验分享-编程实验室

用Fun-ASR搭建会议纪要系统，真实体验分享

在远程办公和异步协作日益普及的今天，高效生成会议纪要已成为提升团队生产力的关键环节。传统方式依赖人工记录与整理，耗时且易遗漏重点。为此，我尝试使用 Fun-ASR 钉钉联合通义推出的语音识别大模型，结合本地部署方案，构建了一套完整的会议纪要自动化处理系统。经过多轮实际会议录音测试，整体流程稳定、识别准确率高，尤其对中文场景优化出色。本文将从实践角度出发，详细介绍如何基于 Fun-ASR WebUI 快速搭建并优化这一系统，并分享我在落地过程中的核心经验与避坑指南。

1. 系统选型背景与技术优势

1.1 为什么选择 Fun-ASR？

当前主流语音识别方案主要分为两类：云服务 API（如阿里云智能语音交互、讯飞开放平台）和本地化模型（如 Whisper、Fun-ASR）。虽然云服务具备高精度和易接入的优势，但在企业级应用中面临数据隐私、网络依赖和长期成本等问题。

相比之下，Fun-ASR 是由钉钉与通义实验室联合推出的轻量级端到端语音识别模型，专为中文场景深度优化，具备以下显著优势：

本地部署，数据可控：所有音频和文本处理均在内网完成，避免敏感信息外泄。
支持热词增强与 ITN 规整：可自定义业务术语，自动转换“二零二五年”为“2025年”等格式。
低资源消耗，推理高效：funasr-nano-2512模型仅约 2GB 显存即可运行，在 GPU 上接近 1x 实时速度。
提供完整 WebUI 界面：无需开发前端，开箱即用，支持批量处理与历史管理。

这些特性使其非常适合用于企业内部会议录音转写、培训课程归档等场景。

1.2 核心架构解析

Fun-ASR 的底层采用 Conformer 编码器结构，结合 CTC + Attention 解码机制，实现高质量的端到端语音识别。其典型推理流程如下：

音频预处理：将输入的 WAV/MP3 文件转换为梅尔频谱图；
声学建模：通过神经网络提取语音特征并映射到子词单元；
解码输出：利用 beam search 生成初步文本序列；
后处理规整（ITN）：启用后可标准化数字、日期、单位等表达形式。

整个链路高度集成，开发者只需调用 SDK 或 WebUI 接口即可完成全流程处理。

2. 环境部署与镜像加速技巧

2.1 部署准备

为了确保系统稳定性，建议采用以下软硬件配置：

项目	推荐配置
操作系统	Ubuntu 20.04 LTS 或 CentOS 7+
Python 版本	3.9+（推荐使用 conda 虚拟环境）
GPU	NVIDIA 显卡（至少 8GB 显存），CUDA 11.8 或 12.x
存储	SSD，预留 10GB 以上空间用于模型与缓存

2.2 加速模型下载：国内镜像实战

直接从 HuggingFace 官方仓库拉取funasr/funasr-nano-2512模型常因网络问题导致超时或极慢下载。解决方法是使用国内镜像站点进行加速。

最有效的方式是设置环境变量：

export HF_ENDPOINT=https://hf-mirror.com

该配置会全局重定向所有 HuggingFace 请求至 hf-mirror.com，下载速度可提升至数 MB/s。

随后执行命令行下载：

huggingface-cli download funasr/funasr-nano-2512 \ --local-dir ./models/funasr-nano-2512 \ --revision main

提示：首次使用前建议清理本地缓存以避免损坏文件影响续传：
rm -rf ~/.cache/huggingface

若只使用 PyTorch 模型，可通过ignore_patterns参数跳过 ONNX、TensorFlow 等冗余格式，节省磁盘空间：

from huggingface_hub import snapshot_download snapshot_download( repo_id="funasr/funasr-nano-2512", local_dir="./models/funasr-nano-2512", revision="main", ignore_patterns=["*.onnx", "*.bin"] )

2.3 启动 WebUI 服务

下载完成后，进入项目目录并启动应用：

bash start_app.sh

访问地址：

本地访问：http://localhost:7860
远程访问：http://服务器IP:7860

页面加载成功后即可开始上传音频、配置参数并执行识别任务。

3. 会议纪要系统的构建与优化

3.1 功能模块详解

Fun-ASR WebUI 提供六大核心功能，其中多个模块可直接服务于会议纪要生成流程：

功能	在会议纪要中的作用
语音识别	单个会议录音文件转文字
批量处理	多场会议集中处理
实时流式识别	模拟实时字幕（实验性）
VAD 检测	切分长录音中的有效语音段
识别历史	查看、导出过往会议记录
系统设置	配置 GPU 加速与模型参数

3.2 构建完整工作流

以下是基于 Fun-ASR 的会议纪要自动化处理流程设计：

步骤 1：音频采集与预处理

会议结束后，收集原始录音文件（支持 MP3、WAV、M4A 等格式）。建议提前统一命名规则，例如：

2025-04-05_产品需求评审会.mp3 2025-04-06_周例会_全员参会.mp3

对于超过 30 分钟的长录音，建议先进行 VAD 检测切分，避免显存溢出。

步骤 2：VAD 切分有效语音段

进入「VAD 检测」模块，上传音频并设置最大单段时长（默认 30 秒），系统将自动检测出有声片段及其起止时间戳。

此步骤有助于：

过滤长时间静音或背景噪音；
提升后续识别效率；
便于后期按段落添加发言人标签。

步骤 3：批量语音识别

进入「批量处理」模块，一次性上传多场会议录音，统一配置以下参数：

目标语言：中文
启用 ITN：✔️ 开启（自动规整数字、日期）

热词列表：

产品需求 排期计划 技术方案 用户反馈 下周上线

点击“开始批量处理”，系统将依次识别每段音频，并实时显示进度条。

步骤 4：结果查看与导出

识别完成后，可在界面查看每条记录的原始文本与规整后文本。支持导出为 CSV 或 JSON 格式，便于后续导入文档系统或知识库。

此外，可通过「识别历史」模块搜索关键词（如“排期”、“上线”），快速定位关键决策点。

4. 实践问题与优化策略

4.1 常见问题及解决方案

问题现象	可能原因	解决方案
识别速度慢	使用 CPU 模式	在「系统设置」中切换为 CUDA (GPU)
出现 OOM 错误	显存不足	清理 GPU 缓存或改用 CPU 模式
麦克风无法使用	浏览器未授权	允许浏览器麦克风权限，推荐 Chrome/Edge
批量处理卡顿	并发过多	改为串行处理，控制并发数为 1
专业术语识别错误	缺少热词	添加相关词汇至热词列表

4.2 性能优化建议

优先使用 GPU 加速
在「系统设置」中选择CUDA (GPU)设备，可使推理速度提升至接近 1x 实时。例如，一段 60 分钟的会议录音，GPU 模式下约 60~70 分钟完成识别，而 CPU 模式可能需 2 小时以上。
合理使用热词增强
热词并非越多越好，建议控制在 10~20 个以内，聚焦高频业务术语。过多热词可能导致其他词汇识别失衡。
定期清理历史记录
识别历史存储于webui/data/history.db，长期积累可能占用大量磁盘空间。建议每月备份一次数据库后清空旧记录。
避免大文件直接处理
对于超过 1 小时的录音，建议先用 VAD 分段后再识别，防止内存压力过大。

5. 工程化部署建议

5.1 自动化服务封装

为实现长期稳定运行，建议将start_app.sh封装为 systemd 服务：

# /etc/systemd/system/funasr-webui.service [Unit] Description=FunASR WebUI Service After=network.target [Service] User=your-user WorkingDirectory=/path/to/funasr-webui ExecStart=/usr/bin/python app.py --device cuda --host 0.0.0.0 --port 7860 Restart=always [Install] WantedBy=multi-user.target

启用服务：

sudo systemctl enable funasr-webui sudo systemctl start funasr-webui

实现开机自启与崩溃自动重启。

5.2 安全与远程访问

如需外部访问，应配置 Nginx 反向代理并启用 HTTPS：

server { listen 443 ssl; server_name asr.yourcompany.com; ssl_certificate /path/to/cert.pem; ssl_certificate_key /path/to/key.pem; location / { proxy_pass http://127.0.0.1:7860; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; } }

同时可结合 basic auth 实现简单认证，保障接口安全。

6. 总结

通过本次实践，我成功将 Fun-ASR 应用于企业内部会议纪要生成系统，实现了从“人工听写 → 自动转录 → 结构化归档”的全流程升级。整个系统部署简便、响应迅速，尤其在中文口语理解、数字规整和热词适配方面表现优异。

总结几点核心收获：

国内镜像是关键突破口：放弃直连 HuggingFace，改用HF_ENDPOINT=https://hf-mirror.com可实现秒级拉取模型。
GPU 加速不可忽视：合理配置 CUDA 环境，能显著提升处理效率，尤其适合批量任务。
热词+ITN 提升实用性：针对业务场景定制热词列表，配合文本规整功能，输出更贴近正式文档要求。
工程化思维决定成败：从服务封装、日志监控到权限控制，只有系统化部署才能支撑长期运行。

未来还可进一步拓展功能，如结合 LLM 对识别文本做摘要提炼，自动生成会议要点与待办事项，真正实现“录音进，纪要出”的智能闭环。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

用Fun-ASR搭建会议纪要系统，真实体验分享