一键启动Fun-ASR，轻松实现会议录音自动转写-编程实验室

一键启动Fun-ASR，轻松实现会议录音自动转写

你是否经历过这样的场景：一场两小时的项目复盘会议结束，笔记本上只记下零散关键词；回办公室后打开录音文件，一边反复拖动进度条，一边在文档里敲敲打打，三个小时过去，纪要还没过半？更别提那些夹杂着口音、专业术语和背景杂音的语音——手动整理不仅耗时，还容易遗漏关键信息。

现在，这一切可以被彻底改变。Fun-ASR——由钉钉联合通义实验室推出、开发者“科哥”构建的本地化语音识别系统，不需要注册账号、不上传任何音频、不依赖网络连接，只需一条命令，就能在你的电脑上跑起来，把会议录音秒变结构化文字。

它不是又一个需要配置环境、编译模型、调试路径的AI项目。它是一键可启、开箱即用、连实习生都能三分钟上手的生产力工具。本文将带你从零开始，完整走通从启动到产出会议纪要的全流程，不讲原理、不堆参数，只说“怎么用”和“怎么用得更好”。

1. 三步启动：5分钟内让Fun-ASR跑起来

Fun-ASR最打动人的地方，是它把复杂的技术封装成极简的操作。整个启动过程只有三步，全程无需安装Python包、不用配置CUDA环境、不碰任何配置文件。

1.1 下载并解压镜像包

你拿到的是一份预打包的镜像压缩包（通常为.tar.gz或.zip格式）。解压后，你会看到类似这样的目录结构：

funasr-webui/ ├── start_app.sh ← 启动脚本（Linux/macOS） ├── start_app.bat ← 启动脚本（Windows） ├── webui/ ← 前端与后端代码 ├── models/ ← 已内置的FunASR-Nano-2512模型 └── README.md

小贴士：模型已提前下载好，无需额外拉取。解压后直接可用，省去最耗时的“等模型下载”环节。

1.2 执行启动命令

打开终端（macOS/Linux）或命令提示符（Windows），进入解压后的目录，运行对应脚本：

# Linux/macOS 用户 bash start_app.sh # Windows 用户（双击 start_app.bat 或在CMD中运行） start_app.bat

你会看到终端快速滚动几行日志，最后停在这样一行：

INFO: Uvicorn running on http://0.0.0.0:7860 (Press CTRL+C to quit)

这表示服务已成功启动。

1.3 浏览器访问，进入工作台

打开任意现代浏览器（推荐 Chrome 或 Edge），在地址栏输入：

本地使用：http://localhost:7860
远程服务器（如部署在公司内网服务器）：http://192.168.1.100:7860（将IP替换为实际服务器地址）

页面加载完成后，你将看到一个干净、响应式的中文界面——没有广告、没有登录弹窗、没有试用限制。这就是你的专属语音处理工作台。

注意：首次启动可能需要10–20秒加载模型到显存（GPU模式）或内存（CPU模式），请稍作等待。页面右上角会显示“模型加载中…”提示，消失即代表就绪。

2. 会议录音转写实战：从上传到导出的完整流程

我们以最常见的“部门周例会录音”为例，演示如何用Fun-ASR在10分钟内完成一份可直接发邮件的会议纪要。

2.1 上传音频：支持多种方式，选最顺手的

点击首页中央的“语音识别”标签页，你会看到两个醒目的操作入口：

上传音频文件：点击后选择本地.wav、.mp3、.m4a或.flac文件
🎙麦克风录音：点击图标，允许浏览器访问麦克风后即可实时录音（适合补录或临时发言）

实测建议：会议录音优先使用.wav（无损）或.flac（高压缩比无损），避免.mp3因有损压缩导致人声细节丢失。若只有MP3，确保码率不低于128kbps。

2.2 配置关键选项：三处设置，决定结果质量

上传成功后，不要急着点“开始识别”。花30秒配置以下三项，能显著提升专业场景下的准确率：

▪ 热词列表（强烈推荐开启）

会议中高频出现的专有名词，比如“智算平台”“Qwen-VL”“预算审批流程”，模型默认可能识别为“智能算法”“群问V L”“预算审批留成”。这时，只需在“热词列表”文本框中逐行填入：

智算平台 Qwen-VL 预算审批流程 钉钉宜搭 Fun-ASR

效果：模型会在识别时对这些词赋予更高置信度，大幅降低误写率。

▪ 目标语言：选对语言，事半功倍

下拉菜单中选择“中文”（默认即为中文）。Fun-ASR支持中/英/日三语混合识别，但纯中文会议务必选“中文”——它会启用针对中文声调、连读、轻声优化的解码策略。

▪ 启用文本规整（ITN）：让文字真正“能用”

勾选此项。它会自动完成这些转换：

“三月五号” → “3月5日”
“百分之八十” → “80%”
“二零二五年” → “2025年”
“第一页” → “第1页”

效果：输出结果无需二次编辑，可直接粘贴进Word或飞书文档，节省至少一半后期整理时间。

2.3 一键识别 & 查看结果：两栏对比，一目了然

点击“开始识别”按钮，进度条开始流动。根据音频长度和硬件不同，识别速度如下：

设备类型	30分钟会议录音耗时	备注
RTX 4090	约 90 秒	实时倍速（1x）
RTX 3060	约 140 秒	推荐最低GPU配置
M2 MacBook Pro	约 210 秒	启用MPS加速后
i7-11800H（CPU）	约 480 秒	适合无独显设备

识别完成后，界面右侧会并排显示两栏结果：

识别结果：原始模型输出，保留口语化表达（如“然后呢”“那个…”，适合做语音校对）
规整后文本：经ITN处理的书面语版本（如“随后”“该项目…”），这才是你该复制的纪要正文

小技巧：按Ctrl/Cmd + Enter可在输入框内直接触发识别，免去鼠标点击；按Esc可随时取消正在进行的识别任务。

3. 批量处理：一次搞定多场会议，效率翻倍

如果你每周要处理5场以上会议录音，单个上传会迅速变成重复劳动。Fun-ASR的“批量处理”功能，正是为此而生。

3.1 上传多个文件：拖拽即传，不限数量

切换到“批量处理”标签页，直接将多个音频文件拖入上传区域，或点击“上传音频文件”多选。实测支持一次性上传50个以内文件（超过建议分批，防内存溢出）。

3.2 统一设置，全局生效

所有参数（目标语言、ITN开关、热词列表）只需设置一次，即应用于全部文件。这意味着：

你不必为每场会议单独配置热词
不用反复切换中/英文模式
一次勾选ITN，所有结果自动规整

场景示例：行政部需处理“产品部周会”“技术评审会”“客户沟通纪要”三类录音，只需导入全部文件，统一填入“Fun-ASR”“通义千问”“钉钉宜搭”等共性热词，点击“开始批量处理”即可。

3.3 实时进度追踪 & 结构化导出

处理过程中，界面清晰显示：

当前处理文件名
已完成 / 总数（如 “3/12”）
预估剩余时间（基于历史平均速度）

完成后，点击“导出结果”，可选择：

📄CSV格式：含列：文件名、识别文本、规整文本、语言、时长、识别时间—— 适合导入Excel做关键词统计
📄JSON格式：标准键值对，含完整元数据 —— 适合程序员对接其他系统

导出的文件命名自动带时间戳（如batch_result_20250415_1422.json），避免覆盖混淆。

4. 实用进阶功能：让转写更聪明、更省心

Fun-ASR不止于“识别”，它提供了几个真正解决实际痛点的辅助能力，用好了，能让你的工作流更丝滑。

4.1 VAD检测：自动切分长录音，跳过静音段

一场90分钟的领导讲话录音，真正说话时间可能只有50分钟。其余是翻页声、掌声、长时间停顿。如果整段送入识别，不仅慢，还容易因上下文过长导致断句错乱。

VAD（语音活动检测）就是这个“智能剪刀”：

切入路径：切换到“VAD 检测”标签页
操作：上传长音频 → 设置“最大单段时长”（建议30秒）→ 点击“开始VAD检测”
结果：系统返回所有语音片段的起止时间（如00:02:15–00:03:42），并可一键将这些片段导出为独立小文件

应用价值：先用VAD切分，再对每个片段做语音识别，准确率提升约15%，处理速度提升30%。

4.2 识别历史：你的语音资产库，随时回溯

每次识别结果都会自动存入本地数据库（路径：webui/data/history.db），进入“识别历史”标签页即可管理：

搜索：输入“季度总结”“OKR”等关键词，秒找相关会议记录
👁查看详情：点击某条记录，查看完整文本、热词列表、ITN开关状态
🗑精准清理：选中某几条旧记录删除，或点击“清空所有记录”释放空间

安全提醒：所有数据仅存于你本地硬盘，未联网、无云端同步。备份只需复制history.db文件即可。

4.3 系统设置：适配你的硬件，榨干每一分性能

在“系统设置”中，你可以让Fun-ASR在不同设备上都发挥最佳表现：

设置项	推荐选择	说明
计算设备	`CUDA (GPU)`	NVIDIA显卡用户必选，速度最快
`MPS`	Apple Silicon Mac用户首选，比CPU快3倍以上
`CPU`	无独显笔记本可用，稳定但较慢
批处理大小	`1`（默认）	显存紧张时可降为1；RTX 4090可尝试设为2
清理GPU缓存	遇到卡顿/报错时点击	立即释放显存，无需重启

5. 常见问题快查：遇到问题，30秒内找到解法

我们整理了用户最高频的6类问题，对应解决方案直给，不绕弯：

Q1：点击“开始识别”没反应，或进度条卡住？

→ 检查浏览器是否阻止了JavaScript执行；刷新页面（Ctrl+F5）；换用Chrome浏览器。

Q2：识别结果全是乱码或空内容？

→ 确认音频格式是否为支持格式（WAV/MP3/M4A/FLAC）；检查文件是否损坏（用播放器试播）；尝试重传。

Q3：GPU模式下报错“CUDA out of memory”？

→ 进入“系统设置”，点击“清理GPU缓存”；或临时切换为“CPU”模式继续使用。

Q4：麦克风录音后识别效果差？

→ 确保浏览器已授权麦克风（地址栏左侧图标应为绿色话筒）；关闭其他录音软件（如Zoom、Teams）；靠近麦克风平稳讲话。

Q5：批量处理中途崩溃，进度丢失？

→ Fun-ASR具备断点续传能力。重启后进入“识别历史”，已完成的记录仍存在；未完成的文件可重新加入队列。

Q6：导出的CSV打开是乱码？

→ 用Excel打开时，选择“数据”→“从文本/CSV”→编码选“UTF-8”；或直接用VS Code、Notepad++打开。

6. 总结：为什么Fun-ASR值得成为你的会议处理标配？

回顾整个使用过程，你会发现Fun-ASR的核心价值非常朴素：它不做加法，只做减法——减去隐私顾虑、减去操作门槛、减去等待时间、减去后期整理。

它不强迫你学命令行，一个bash start_app.sh就是全部；
它不索取你的数据，所有音频和文本永远留在你的硬盘里；
它不制造新负担，热词、ITN、VAD这些功能，都是“开了就有用，不用也不碍事”；
它不画大饼，明确告诉你：RTX 3060能跑，M1芯片能跑，甚至老款i5笔记本也能跑——只是慢一点，但一定行。

对于行政、HR、项目经理、教研员、法务助理这些每天和语音打交道的角色来说，Fun-ASR不是锦上添花的玩具，而是实实在在把“听录音、敲文字、改格式、发邮件”这一整套动作，压缩进一杯咖啡的时间。

下次会议结束，别急着关电脑。打开终端，敲下那行熟悉的命令，让声音自己变成文字——你只需要负责阅读、提炼和决策。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景？访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

一键启动Fun-ASR，轻松实现会议录音自动转写