基于FunASR与Qwen2的智能音视频笔记生成系统部署与实战-编程实验室

1. 项目概述：从音视频到结构化笔记的自动化之路

在信息爆炸的时代，我们每天都会接触到大量的音视频内容——会议录音、课程讲座、播客访谈、技术分享。这些内容蕴含着宝贵的知识，但直接消化它们却效率低下：你需要反复回放、手动记录关键点，最后还得花时间整理成可读的文档。作为一名长期与各类媒体内容打交道的从业者，我一直在寻找一种能够“听懂”并“理解”音视频，然后自动为我生成清晰笔记的工具。传统的语音转文字（ASR）服务虽然能提供文字稿，但那只是一堆未经整理的文本，离真正的“知识提炼”还有很远的距离。

直到我遇到了AudioNotes这个项目，它精准地切中了这个痛点。AudioNotes 不是一个简单的转录工具，而是一个集成了前沿自动语音识别（ASR）和大语言模型（LLM）的智能系统。它的核心工作流非常直观：你喂给它一段音频或视频，它先用FunASR（一个高效、高精度的开源ASR工具）将语音内容转为文字稿；然后，这份文字稿会被送入Qwen2（阿里通义千问开源大模型）进行深度处理。模型会像一位经验丰富的助理，自动总结要点、提炼章节、归纳行动项，最终输出一份结构清晰、可直接使用的 Markdown 格式笔记。

更酷的是，它不仅仅生成笔记。基于完整的对话上下文，你还可以直接针对这段音视频内容进行提问，比如“演讲者提到的第三个解决方案具体是什么？”或者“关于项目时间线，有哪些关键日期？”，系统能基于转录文本给出精准回答。这相当于为你的音视频资料库配备了一个随时待命的智能搜索引擎。对于需要频繁复盘会议、学习课程或分析访谈内容的朋友来说，这无疑是一个生产力利器。接下来，我将带你深入拆解这个项目的设计思路、部署细节以及我在实际使用中积累的一系列实战经验。

2. 核心架构与工具选型解析

一个系统的能力边界，很大程度上由其核心组件决定。AudioNotes 选择了 FunASR 和 Qwen2 作为技术栈的基石，这个组合背后有着非常务实的工程考量。

2.1 为什么是 FunASR 而不是 Whisper？

提到开源ASR，很多人第一个想到的是 OpenAI 的 Whisper。它确实强大，但 AudioNotes 选择FunASR自有其道理。FunASR 是由阿里巴巴达摩院开源的高性能语音识别工具包，它在设计之初就充分考虑了对中文场景的优化，特别是在嘈杂环境、多人对话和领域专有名词的识别上，表现往往更稳定。

从部署角度看，FunASR 提供了更灵活的模型选择。你可以根据对精度和速度的需求，选择从参数量小的模型到巨大的工业级模型。对于 AudioNotes 这种可能部署在个人服务器或边缘设备上的应用，FunASR 的“Paraformer”流式模型是一个亮点，它能在资源消耗和识别延迟之间取得很好的平衡。相比之下，Whisper 的模型体积相对固定，且在对长音频进行推理时，内存占用可能成为一个瓶颈。此外，FunASR 集成了标点恢复、数字规整等后处理模块，这些对于生成可读性高的文本初稿至关重要，为后续的大模型处理打下了良好基础。

实操心得：在测试中，对于带有技术术语的中文技术分享视频，FunASR 的准确率明显优于同等体积的 Whisper 模型。它的热词增强功能非常实用，你可以提前输入一些项目特有的缩写或专业名词，能显著提升相关词汇的识别率。

2.2 Qwen2 模型在知识提炼中的角色

得到文字稿只是第一步，如何从冗长的文字中提取有价值的结构化信息，才是挑战所在。这就是Qwen2大模型登场的时候。Qwen2 是阿里通义千问第二代开源模型，我选择它的 7B（70亿参数）版本，是基于性能和资源的综合权衡。

7B 参数量的模型，在消费级显卡（如 RTX 4060 16GB 或 RTX 3090 24GB）上已经可以流畅地进行推理，同时保持了相当不错的语言理解和生成能力。它的核心任务是对 ASR 产出的文本进行“理解-重构”。这个过程不仅仅是总结，还包括：

篇章结构分析：识别出内容的内在逻辑，如“引言-问题分析-解决方案-总结”。
关键信息抽取：找出核心观点、数据、结论、待办事项等。
语言润色与重组：将口语化的、可能带有重复和冗余的转录文本，改写为书面化、精炼的笔记。
格式生成：按照预设的模板，输出带有标题、列表、加粗重点的 Markdown 文档。

选择 Qwen2 而非其他同类模型，一方面是因为其出色的中文能力，另一方面是其友好的开源协议和活跃的社区支持。通过Ollama这个工具来管理和运行 Qwen2，极大地简化了本地部署大模型的复杂度，它解决了模型下载、环境配置、API 服务化等一系列繁琐问题。

2.3 系统工作流全景图

理解了核心组件，我们来看它们是如何协同工作的。AudioNotes 的系统流程可以清晰地分为以下几个阶段：

输入与预处理：系统接受音频（mp3, wav）或视频（mp4, mov）文件。如果是视频，会先使用ffmpeg等工具提取音频轨道。
语音转写：提取出的音频被送入 FunASR 服务。FunASR 进行语音活动检测（VAD，区分人声和静音）、分句，并对每一句进行语音识别，最终生成带时间戳的完整文本。
文本后处理与切片：原始的 ASR 文本可能很长。为了适应大模型的上下文长度限制，并保持语义完整性，系统会按自然段落或固定长度（如 2000 字符）对文本进行智能切片。
大模型理解与汇总：每个文本切片被依次发送给 Qwen2 模型。模型接收的提示词（Prompt）经过了精心设计，会要求模型以“笔记整理专家”的身份，提取该片段的核心内容。所有片段的结果会被汇总。
结构化合成与输出：汇总后的内容被再次送入 Qwen2，但这次的任务是进行全局整合，生成一份统一的、结构化的 Markdown 笔记。这份笔记通常包含标题、摘要、详细要点、行动项等部分。
对话接口就绪：整个转录和笔记生成过程中，所有文本切片及其元数据（如来源时间戳）会被存入数据库（PostgreSQL）。当用户在前端针对内容提问时，系统会先将问题转化为嵌入向量，在数据库中进行语义检索，找到最相关的文本片段，然后将“片段+问题”组合成新的提示词交给 Qwen2 生成答案。

这个流程将 ASR 的“听觉”能力和 LLM 的“认知”能力无缝衔接，实现了从原始媒体到结构化知识的自动化流水线。

3. 详细部署指南与避坑实践

理论清晰后，实战部署是下一个关键。AudioNotes 提供了 Docker 和本地两种部署方式，我强烈推荐Docker 部署，它能最大程度地避免环境依赖冲突，实现一键启动。下面是我在多次部署中总结的详细步骤和注意事项。

3.1 基础环境准备与 Ollama 配置

无论选择哪种部署方式，Ollama 都是必须独立安装和配置的，因为它负责运行最核心的 Qwen2 大模型。

第一步：安装 Ollama访问 Ollama 官网下载页，选择对应你操作系统的安装包。对于 Linux/macOS，也可以使用一行命令安装：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，在终端运行ollama --version确认安装成功。

第二步：拉取并运行 Qwen2 模型官方示例使用的是qwen2:7b版本。在终端执行：

ollama pull qwen2:7b

这个过程会下载约 4.2GB 的模型文件，耗时取决于你的网络速度。

模型拉取完成后，你可以立即运行它进行简单测试：

ollama run qwen2:7b

在出现的提示符后，输入“你好，请介绍一下你自己”，看模型是否能正常回复。测试成功后，按Ctrl+D退出。

关键配置：默认情况下，Ollama 的 API 服务运行在http://localhost:11434。AudioNotes 正是通过这个地址与 Qwen2 通信。你需要确保这个端口没有被其他程序占用。

3.2 Docker 一站式部署（推荐方案）

这是最省心、最不容易出错的方式。项目作者提供了完整的docker-compose.yml文件，它定义了两个服务：一个是 AudioNotes 主应用，另一个是 PostgreSQL 数据库。

第一步：获取部署文件在你的服务器或本地电脑上，创建一个专门的项目目录，例如audionotes，然后进入该目录，下载编排文件。

mkdir audionotes && cd audionotes curl -fsSL https://github.com/harry0703/AudioNotes/raw/main/docker-compose.yml -o docker-compose.yml

第二步：审查与修改配置（重要！）在启动前，强烈建议你用文本编辑器打开docker-compose.yml文件。你需要关注以下几个关键配置：

数据库密码：在postgres服务部分，环境变量POSTGRES_PASSWORD默认可能是空或简单密码。务必修改为一个强密码。
Ollama 地址：在audionotes服务部分，环境变量OLLAMA_BASE_URL默认为http://host.docker.internal:11434。这个地址允许 Docker 容器访问宿主机上的 Ollama 服务。如果你的 Ollama 安装在另一台机器上，需要将此地址改为那台机器的 IP，如http://192.168.1.100:11434。
管理员密码：环境变量ADMIN_PASSWORD定义了 Web 界面的登录密码，默认是admin。出于安全考虑，应在部署到公网前修改它。

一个修改后的关键部分示例如下：

environment: - OLLAMA_BASE_URL=http://host.docker.internal:11434 - ADMIN_PASSWORD=YourStrongPasswordHere # 修改为你的强密码

第三步：启动服务在包含docker-compose.yml的目录下，执行：

docker-compose up -d

-d参数表示在后台运行。首次运行会拉取 AudioNotes 的 Docker 镜像和 PostgreSQL 镜像，需要一些时间。

第四步：验证服务使用docker-compose logs -f audionotes查看应用日志，当看到类似 “Application startup complete.” 或 Chainlit/Uvicorn 服务在指定端口监听的日志时，说明启动成功。然后，在浏览器中访问http://你的服务器IP:15433。如果一切正常，你将看到登录界面。使用用户名admin和你设置的密码登录。

3.3 本地源码部署详解

如果你需要深度定制代码，或者你的环境无法使用 Docker，可以选择本地部署。这个过程稍显复杂，需要手动处理 Python 环境、依赖和数据库。

第一步：准备 Python 环境使用 Conda 或 venv 创建独立的 Python 环境，能有效避免包冲突。这里以 Conda 为例：

conda create -n audionotes python=3.10 -y conda activate audionotes

第二步：克隆代码与安装依赖

git clone https://github.com/harry0703/AudioNotes.git cd AudioNotes pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple # 使用国内源加速

安装过程中，特别注意funasr和modelscope这些包，它们可能包含一些底层语音库，在 Windows 上可能需要额外安装 Visual C++ 构建工具。

第三步：配置数据库与环境变量AudioNotes 依赖 PostgreSQL。你需要本地安装并运行一个 PostgreSQL 实例（版本 12 以上），并创建一个空数据库，例如名为audionotes_db。然后，复制环境变量模板文件并进行配置：

cp .env.example .env

编辑.env文件，关键配置项如下：

DATABASE_URL=postgresql://username:yourpassword@localhost:5432/audionotes_db OLLAMA_BASE_URL=http://localhost:11434 ADMIN_PASSWORD=YourStrongPasswordHere

请将username,yourpassword,audionotes_db替换为你的实际数据库用户名、密码和数据库名。

第四步：数据库初始化与启动在启动应用前，通常需要运行数据库迁移（如果项目使用了 ORM 如 SQLAlchemy）。查看项目根目录是否有alembic或类似的迁移工具。如果没有明确的迁移命令，有时应用会在首次启动时自动创建表。最后，启动应用：

chainlit run main.py

Chainlit 是一个用于构建 LLM 应用 UI 的框架。启动后，访问http://localhost:8000即可。

避坑指南：
端口冲突：如果 8000 或 15433 端口被占用，可以在启动命令中指定新端口，如chainlit run main.py --port 8001，或在.env中配置。
Ollama 连接失败：确保 Ollama 服务正在运行 (ollama serve)，并且 AudioNotes 配置的OLLAMA_BASE_URL能正确访问到该服务。在 Docker 部署中，host.docker.internal在 macOS 和 Windows 的 Docker Desktop 上有效，但在 Linux 原生 Docker 中可能无效，需改为宿主机的真实 IP。
FunASR 模型下载慢：首次运行时会自动从 ModelScope 下载 FunASR 模型，国内网络可能较慢。可以尝试设置环境变量MODELSCOPE_CACHE到本地目录，并考虑使用代理或镜像源。
GPU 内存不足：运行 Qwen2:7B 需要约 8-10GB 的 GPU 显存。如果显存不足，可以考虑使用量化版本，例如qwen2:7b-q4_0（约 4GB），在 Ollama 中执行ollama pull qwen2:7b-q4_0，并在 AudioNotes 配置中指定此模型名。但请注意，量化可能会轻微影响输出质量。

4. 核心功能实操与效果调优

成功部署后，我们进入最激动人心的环节：实际使用并榨干这个工具的所有潜力。AudioNotes 的 Web 界面设计简洁，主要功能围绕“项目”展开。

4.1 创建项目与上传媒体文件

登录系统后，点击“新建项目”，输入一个项目名称（例如“2024-05-20 团队周会”）。创建后，进入项目详情页，你会看到文件上传区域。系统支持直接拖放音频或视频文件。

文件处理幕后过程：当你上传一个视频文件（如meeting.mp4）后，系统后台会执行以下操作：

调用ffmpeg提取音频流，通常转换为wav或mp3格式，以便 FunASR 处理。
将音频文件发送到 FunASR 服务端点。FunASR 会进行一系列处理：首先进行语音端点检测，切除静音段；然后使用预训练模型进行声学特征提取和解码，将语音波形转化为文本符号；最后通过语言模型进行纠错和顺滑，并添加标点。
转录完成的文本会连同时间戳一起返回，并保存到数据库中。

这个过程中，你可以在界面上看到实时的处理进度。对于一小时的会议录音，在配有 GPU 的服务器上，转录过程通常在几分钟内完成。

4.2 生成与精修结构化笔记

转录完成后，点击“生成笔记”按钮。这时，系统会将完整的转录文本（可能被切分成块）发送给 Qwen2 模型。发送的提示词（Prompt）至关重要，它直接决定了输出笔记的质量和格式。

AudioNotes 内置的 Prompt 大致是这样的角色扮演指令：“你是一个专业的笔记整理助手。请将以下会议录音文本整理成结构清晰的 Markdown 格式笔记。要求包括：会议主题、参会人员、讨论要点（分议题阐述）、做出的决策、待办事项（Action Items）以及后续计划。请保持语言精炼，使用列表和加粗强调重点。”

点击生成后，你需要耐心等待。大模型推理耗时与文本长度和模型大小成正比。对于一小时的会议内容，Qwen2:7B 可能需要 1-3 分钟来生成完整的笔记。

生成结果示例：

# 2024-05-20 团队周会纪要 **会议时间：** 2024年5月20日 14:00-15:30 **参会人：** 张三、李四、王五、赵六（远程） ## 一、项目A进度同步 * **前端开发（李四）**：用户登录模块已开发完成，正在进行单元测试。 * **后端开发（王五）**：API 接口文档已更新至 V1.2 版本，与前端联调中发现**分页参数传递存在歧义**，需明确规范。 * **决策**：统一采用 `page` 和 `size` 作为分页查询参数。 ## 二、下季度规划讨论 ... ## 三、行动项（Action Items） 1. [负责人：王五] 本周五前，修正 API 文档中的分页参数说明。 2. [负责人：张三] 调研第三方支付接口，下周一给出选型报告。

你可以直接复制这份 Markdown 笔记，粘贴到你的笔记软件（如 Obsidian、Notion）或知识库中，立即投入使用。

4.3 与内容对话：激活你的音视频知识库

这是 AudioNotes 区别于普通转录工具的杀手级功能。笔记生成后，在界面的对话框中，你可以直接针对这段会议内容提问。

示例对话：

你问：“刚才会议上，关于分页参数的歧义具体是什么？”
系统答：“根据会议录音，后端开发者王五指出，当前 API 文档中对于分页参数的描述不够清晰，前端传递pageNum而后端期望page，这导致了联调错误。会议决定统一使用page和size作为标准参数名。”
你问：“李四负责的任务进度如何？”
系统答：“李四负责的前端用户登录模块已经开发完成，目前正处于单元测试阶段。”

这个功能的实现依赖于“检索增强生成”（RAG）技术。你的问题会被转化为向量，然后与数据库中存储的、带有时间戳的文本片段向量进行相似度搜索，找到最相关的上下文，再连同问题一起送给 Qwen2 生成答案。这确保了答案严格来源于你的音视频内容，不会胡编乱造。

4.4 效果调优与高级技巧

默认设置可能无法在所有场景下都达到最优效果。以下是我总结的调优技巧：

1. 优化转录准确性：

音频预处理：如果原始音视频质量差（背景噪音大、音量小），建议先用 Audacity 等工具进行降噪、归一化处理，再上传。
使用热词：如果内容涉及大量专业术语、产品名、人名（如“TensorFlow”、“张小明”），可以在 FunASR 的配置中（如果项目暴露了接口）或前期准备一个热词列表文件，能显著提升这些关键词的识别率。
选择合适模型：FunASR 提供了多种模型。对于中文会议，paraformer-zh系列是通用选择。如果场景是英文为主，可以寻找并替换为英文优化模型。

2. 提升笔记质量：

定制 Prompt：这是最有效的调优手段。AudioNotes 的 Prompt 模板通常可以在代码中的prompts.py或类似文件里找到。你可以根据你的笔记风格修改它。例如，如果你需要更详细的“争论观点记录”，可以在 Prompt 里强调“请记录下不同参会者的主要分歧和论据”。
分段处理：对于超长内容（如 3 小时以上的培训），可以考虑手动按议题或时间点，将音频切割成多个片段，分别生成笔记，最后再人工或让模型进行一次汇总，效果可能比一次性处理整个长音频更好。
后编辑：AI 生成的笔记是优秀的初稿，但并非完美。养成快速浏览并修正的习惯，特别是纠正关键数据、人名和技术术语。这个过程比从零开始记录要轻松得多。

3. 优化性能与成本：

模型量化：如前所述，使用qwen2:7b-q4_0或qwen2:7b-q8_0等量化版本，可以大幅减少 GPU 显存占用和推理时间，对输出质量的影响在多数笔记场景下可以接受。
异步处理：对于批量处理大量历史录音，可以研究项目的代码，将上传和生成笔记的任务改造成队列（如使用 Celery + Redis），避免阻塞 Web 界面。
缓存策略：相同的音视频文件，其转录文本是不变的。可以确保数据库设计合理，避免重复进行 ASR 转录，节省计算资源。

5. 常见问题排查与实战经验录

即使按照指南部署，在实际运行中也可能遇到各种问题。下面是我和社区遇到的一些典型问题及解决方案，希望能帮你快速排雷。

5.1 部署与启动问题

问题一：Docker 启动时，audionotes 服务不断重启，日志显示数据库连接失败。

排查：使用docker-compose logs postgres查看数据库容器日志。常见原因是数据库初始化未完成，应用就已经尝试连接。
解决：在docker-compose.yml中，为audionotes服务添加依赖等待。可以修改配置，使用healthcheck或depends_on配合condition: service_healthy，确保数据库就绪后再启动应用。一个更简单粗暴的方法是，先单独启动数据库docker-compose up -d postgres，等待十几秒后再启动应用docker-compose up -d audionotes。

问题二：访问 Web 界面时，提示“Internal Server Error”或模型调用失败。

排查：查看应用日志docker-compose logs -f audionotes。重点寻找Connection refused、Timeout或Model not found等错误信息。
解决：
- 连接拒绝：检查OLLAMA_BASE_URL配置。在 Docker 内，localhost指向容器自身，而非宿主机。必须使用host.docker.internal（Mac/Windows）或宿主机实际 IP（Linux）。
- 超时：可能是 Ollama 服务未启动，或模型未加载。在宿主机执行ollama list确认模型存在，执行ollama run qwen2:7b测试模型是否能正常响应。
- 模型未找到：确认 AudioNotes 配置中调用的模型名称与 Ollama 中的完全一致，包括标签（如qwen2:7b和qwen2:7b:latest是等价的）。

问题三：转录或生成笔记速度非常慢。

排查：首先确认硬件资源。使用nvidia-smi（GPU）或htop（CPU）查看资源占用率。
解决：
- 无 GPU 加速：FunASR 和 Qwen2 在纯 CPU 上运行会非常慢。确保你的 Docker 或本地环境能正确访问 GPU。对于 Docker，需要安装 NVIDIA Container Toolkit 并在docker-compose.yml中声明runtime: nvidia。
- 内存/显存不足：长音频或大模型可能导致 OOM（内存溢出）。尝试处理更短的音频，或换用更小的量化模型。
- 网络延迟：如果 Ollama 部署在远程服务器，网络延迟会影响每次 API 调用。考虑将 Ollama 和 AudioNotes 部署在同一台机器或局域网内。

5.2 功能使用与效果问题

问题四：转录文本的中文乱码或全是标点符号。

原因：这通常是 FunASR 模型加载或音频格式问题。
解决：
1. 检查音频文件的编码格式。尝试将音频转换为标准的单声道、16kHz 采样率的 WAV 格式再上传。
2. 查看 FunASR 服务日志，确认是否正确加载了中文模型（如paraformer-zh）。
3. 如果是自定义部署，确保系统 locale 和 Python 环境支持 UTF-8 编码。

问题五：生成的笔记内容空洞，只是简单罗列了转录文本，没有总结和结构。

原因：大模型 Prompt 指令不够明确，或者输入的转录文本质量太差（如识别错误太多、没有分段）。
解决：
1. 修改 Prompt：找到项目中控制笔记生成的 Prompt 模板，强化指令。例如，明确要求“忽略口语化赘述”、“将分散在不同段落的同一议题内容合并”、“使用二级标题组织不同板块”。
2. 提升输入质量：确保转录文本尽可能准确。可以尝试先对转录稿进行简单的人工校对，修正明显的错误和专有名词，再将校对后的文本提交给模型生成笔记。
3. 尝试不同模型：Qwen2:7B 能力可能有限。如果你有足够的资源，可以尝试拉取并切换为qwen2:14b或qwen2:72b模型，理解能力和生成质量通常会更好。

问题六：与内容对话时，AI 的回答“胡言乱语”，答非所问。

原因：RAG 检索环节出了问题，没有找到正确的上下文片段，或者检索到的片段不相关，导致模型基于错误信息生成答案。
解决：
1. 检查数据库里是否成功存储了带时间戳的文本片段。
2. 优化检索策略。默认可能是简单的余弦相似度搜索。可以尝试在项目中引入更高级的检索器，比如使用BM25结合向量搜索（混合搜索），或者对检索结果进行重排序（rerank）。
3. 在 Prompt 中加强指令，要求模型“严格根据提供的上下文回答问题，如果上下文没有相关信息，就回答‘根据资料，未提及相关内容’”。

5.3 安全与维护建议

数据安全：AudioNotes 处理的是可能是敏感的会议录音或内部培训资料。在部署时务必注意：

将默认的admin/admin密码修改为强密码。
如果部署在公网，务必使用 HTTPS（可以通过 Nginx 反向代理配置 SSL 证书）。
定期备份 PostgreSQL 数据库。
考虑对上传的音视频文件进行加密存储。

资源监控与成本控制：长期运行大模型服务会消耗可观的电力和算力。

为 Ollama 设置启动参数，限制其使用的 GPU 内存和线程数。
对于不常用的历史项目，可以考虑在数据库中归档相关数据，或者定期清理旧的音频文件和转录文本以节省存储空间。
使用docker-compose down和docker-compose up -d来重启服务，可以释放一些缓存。

这个项目打开了一扇门，让我看到了 AIGC 技术如何实实在在地提升信息处理的效率。从手动记笔记到自动化生成，节省下来的时间可以用在更深入的思考和创新上。当然，它目前还不是完美的，比如对快速对话、多人同时发言的区分还有提升空间，生成笔记的风格有时也需要人工微调。但作为一个开源项目，它提供了一个极佳的起点。你可以基于它的架构，替换更强的 ASR 模型（如 Whisper Large-v3），集成更强大的 LLM（如 DeepSeek、GLM），或者定制更符合你公司文化的笔记模板。技术的意义在于工具，而工具的价值在于使用。希望这篇详细的解析和实战指南，能帮助你顺利部署并驾驭 AudioNotes，让它成为你个人或团队知识管理中的得力助手。如果在使用中发现了新的技巧或遇到了独特的挑战，不妨回馈给开源社区，这正是开源精神迷人的地方。