如何用SenseVoice Small识别语音并标注情感？一文讲透-编程实验室

如何用SenseVoice Small识别语音并标注情感？一文讲透

你有没有遇到过这样的场景：一段客户投诉录音，你想快速知道他说了什么、情绪是愤怒还是委屈？或者一段访谈音频，想自动提取关键语句的同时判断受访者的情绪倾向？传统语音识别只能转文字，而SenseVoice Small不仅能听懂内容，还能“读懂”语气和情感。

本文将带你全面掌握如何使用SenseVoice Small（二次开发版 by 科哥）实现语音到文本的精准转换，并自动标注说话人的情感状态与背景事件。无需复杂编程，通过WebUI即可完成操作，适合新手快速上手，也适合开发者集成进自己的系统。

1. 什么是SenseVoice Small？

SenseVoice Small 是基于 FunAudioLLM 开源项目优化的小型语音识别模型，专为高效、低资源运行设计。它不仅能将语音转为文字，还具备两大核心能力：

情感识别：判断说话人的情绪是开心、生气、伤心还是中性。
事件检测：识别音频中的非语音事件，如掌声、笑声、咳嗽、背景音乐等。

这个由“科哥”二次开发的版本，封装了完整的 WebUI 界面，极大降低了使用门槛——你不需要写一行代码，上传音频就能看到带情感标签的文字结果。

核心优势一览

能力	说明
多语言支持	中文、英文、粤语、日语、韩语等，支持自动语言检测
情感标注	自动在句尾添加 😊 😡 😔 等表情符号，对应 HAPPY、ANGRY、SAD 等情绪
事件标记	在句首标注 🎼 😀 等图标，表示背景音乐、掌声、笑声等
高速识别	1分钟音频约3-5秒完成，本地部署无网络延迟
易用性强	提供图形化界面，支持拖拽上传、麦克风录音

2. 快速部署与启动

本镜像已预装所有依赖环境，只需简单几步即可运行。

启动方式

如果你是在 JupyterLab 或容器环境中使用该镜像，请执行以下命令重启服务：

/bin/bash /root/run.sh

这会启动 SenseVoice 的 WebUI 服务。

访问地址

服务启动后，在浏览器中打开：

http://localhost:7860

即可进入操作界面。如果远程访问受限，请确保端口已映射或防火墙放行。

3. 界面功能详解

SenseVoice WebUI 界面简洁直观，分为左右两大区域：

┌─────────────────────────────────────────────────────────┐ │ [紫蓝渐变标题] SenseVoice WebUI │ │ webUI二次开发 by 科哥 | 微信：312088415 │ ├─────────────────────────────────────────────────────────┤ │ 使用说明 │ ├──────────────────────┬──────────────────────────────────┤ │ 🎤 上传音频 │ 示例音频 │ │ 语言选择 │ - zh.mp3 (中文) │ │ ⚙ 配置选项 │ - en.mp3 (英文) │ │ 开始识别 │ - ja.mp3 (日语) │ │ 识别结果 │ - ko.mp3 (韩语) │ └──────────────────────┴──────────────────────────────────┘

功能模块说明

🎤 上传音频

支持两种方式输入音频：

文件上传：点击区域选择.mp3、.wav、.m4a等常见格式
麦克风录音：点击右侧麦克风图标，允许权限后即可实时录制

语言选择

下拉菜单可选：

auto：推荐，自动识别语言
zh：中文
en：英文
yue：粤语
ja：日语
ko：韩语
nospeech：无语音模式

对于多语种混合或不确定语种的情况，建议选择auto。

⚙ 配置选项（高级）

展开后可调整以下参数（一般无需修改）：

参数	默认值	说明
use_itn	True	是否启用逆文本正则化（如“50”读作“五十”）
merge_vad	True	是否合并语音活动检测分段
batch_size_s	60	动态批处理时间长度（秒）

这些设置影响识别精度与速度，普通用户保持默认即可。

开始识别

点击按钮后，系统开始处理音频，进度条显示处理状态。

识别结果

输出包含三部分信息：

文本内容：识别出的原始文字
情感标签：出现在句末的表情符号 + 括号内英文标识
事件标签：出现在句首的图标，表示背景音事件

4. 实际操作全流程演示

我们以一段中文客服对话为例，演示完整识别流程。

步骤 1：上传音频文件

点击左侧“🎤 上传音频”区域，选择一个名为customer_complaint.wav的音频文件。上传完成后，界面上会显示文件名和波形图预览。

小贴士：推荐使用采样率 16kHz 以上的 WAV 或 MP3 文件，背景噪音越小，识别准确率越高。

步骤 2：选择识别语言

由于是中文对话，我们可以选择zh或直接使用auto。这里选择auto，让模型自动判断。

步骤 3：点击“ 开始识别”

等待几秒钟（根据音频时长），识别结果就会出现在右侧文本框中。

步骤 4：查看识别结果

假设原始音频内容是：

“你们的服务太差了！我一直等到现在都没有人处理我的订单！😡”

识别结果可能如下：

你们的服务太差了！我一直等到现在都没有人处理我的订单！😡 (ANGRY)

再比如一段节目开场白：

（背景音乐响起，主持人笑着说）“欢迎收听本期节目，我是主持人小明。”

识别结果可能是：

🎼😀欢迎收听本期节目，我是主持人小明。😊 (HAPPY)

🎼 表示背景音乐
😀 表示笑声
😊 表示说话人情绪为开心

是不是非常直观？

5. 示例音频体验指南

为了方便用户快速测试，系统内置了多个示例音频，点击右侧“ 示例音频”列表即可加载：

示例文件	特点
`zh.mp3`	中文日常对话，测试基础识别能力
`yue.mp3`	粤语语音，检验方言识别效果
`en.mp3`	英文朗读，验证多语言支持
`ja.mp3`	日语新闻播报
`ko.mp3`	韩语对话片段
`emo_1.wav`	情感识别专项测试，包含多种情绪变化
`rich_1.wav`	综合场景测试，含背景音乐、笑声、多情绪切换

建议新手先从emo_1.wav和rich_1.wav入手，感受情感与事件标签的实际效果。

6. 识别结果格式解析

理解输出格式有助于后续的数据分析与自动化处理。

标准输出结构

[事件标签][文本内容][情感标签]

事件标签（前置）

图标	含义	英文标识
🎼	背景音乐	BGM
掌声	Applause
😀	笑声	Laughter
😭	哭声	Cry
🤧	咳嗽/喷嚏	Cough/Sneeze
📞	电话铃声	Ringtone
🚗	引擎声	Engine
🚶	脚步声	Footsteps
🚪	开门声	Door Open
🚨	警报声	Alarm
⌨	键盘声	Keyboard
🖱	鼠标声	Mouse Click

情感标签（后置）

表情	情绪	英文标识
😊	开心	HAPPY
😡	生气/激动	ANGRY
😔	伤心	SAD
😰	恐惧	FEARFUL
🤢	厌恶	DISGUSTED
😮	惊讶	SURPRISED
(无)	中性	NEUTRAL

注意：情感标签只对有语义的语句生效，纯背景音不会标注情绪。

7. 提高识别准确率的实用技巧

虽然 SenseVoice Small 已经很智能，但以下几点能进一步提升识别质量：

音频质量优化

格式优先级：WAV > MP3 > M4A（WAV 无损压缩，最佳选择）
采样率：不低于 16kHz，理想为 44.1kHz
声道数：单声道即可，减少数据冗余
文件大小：建议控制在 30MB 以内，避免加载卡顿

录音环境建议

在安静环境下录制，避免空调、风扇等持续噪音
使用指向性麦克风，减少环境干扰
说话人距离麦克风 10–30 厘米为宜
语速适中，避免连读或吞音

语言选择策略

场景	推荐设置
单一语言明确	直接选择对应语言（如`zh`）
多语言混杂	使用`auto`自动检测
方言较多（如四川话、东北话）	使用`auto`，模型泛化能力更强
纯背景音	选择`nospeech`，避免误识别

批量处理建议

目前 WebUI 不支持批量上传，但可通过脚本调用底层 API 实现自动化处理。例如使用 Python 请求接口：

import requests url = "http://localhost:7860/api/predict/" data = { "data": [ "/path/to/audio.mp3", # 音频路径 "auto", # 语言 True, # use_itn True, # merge_vad 60 # batch_size_s ] } response = requests.post(url, json=data) result = response.json()["data"][0] print(result)

返回的就是带情感和事件标签的文本结果。

8. 典型应用场景推荐

SenseVoice Small 不只是一个玩具工具，它能在多个实际业务场景中发挥价值。

场景 1：客服质检自动化

传统客服录音需要人工抽检，耗时费力。使用 SenseVoice 可实现：

自动转录通话内容
标注客户情绪（是否愤怒、不满）
检测是否有长时间沉默、争吵、挂断等异常事件
生成摘要报告，辅助绩效考核

效果：效率提升 10 倍以上，问题发现率提高 40%

场景 2：访谈与调研分析

在用户访谈、市场调研中，研究人员常需反复听录音记笔记。现在可以：

一键转文字 + 情绪标注
快速定位“生气”、“惊讶”等关键节点
结合事件标签判断受访者反应真实性（如有无笑声配合正面评价）

场景 3：直播内容管理

用于直播回放分析：

识别主播说了什么
判断其情绪状态（是否疲惫、兴奋）
检测观众鼓掌、欢呼等互动时刻
自动生成精彩片段剪辑点

场景 4：教育与心理评估

教师可用它分析学生发言：

回答时是否紧张（声音颤抖+恐惧标签）
表达是否自信（清晰+开心情绪）
是否有咳嗽、停顿过多等异常表现

心理咨询师也可用于非侵入式情绪追踪。

9. 常见问题与解决方案

Q1：上传音频后没反应？

可能原因：

文件损坏或格式不支持
浏览器缓存问题

解决方法：

换一个播放正常的音频文件重试
清除浏览器缓存或更换浏览器（推荐 Chrome）

Q2：识别结果不准确？

检查项：

音频是否清晰？有无严重噪音？
是否选择了正确的语言？
是否为远场录音（距离麦克风太远）？

建议：

使用auto模式尝试
更换高质量音频重新上传

Q3：识别速度慢？

影响因素：

音频过长（超过5分钟）
CPU/GPU 资源不足
批处理参数过大

优化建议：

分段处理长音频（每段3分钟以内）
关闭其他占用资源的程序
检查服务器负载情况

Q4：如何复制识别结果？

点击“ 识别结果”文本框右侧的复制按钮（图标），即可一键复制带标签的完整文本。

10. 总结

SenseVoice Small by 科哥这款二次开发镜像，真正做到了“开箱即用”。它不仅继承了原版模型强大的语音识别能力，更通过 WebUI 界面让情感识别和事件检测变得极其简单。

无论你是产品经理想做用户体验分析，还是运营人员需要处理大量语音素材，亦或是开发者希望集成语音情感分析功能，这款工具都能帮你省下大量时间和成本。

一句话总结它的价值：
不只是把声音变成文字，更是让你“听见”情绪，“看见”氛围。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。