电话销售复盘实战：用SenseVoiceSmall提取对话情绪趋势-编程实验室

电话销售复盘实战：用SenseVoiceSmall提取对话情绪趋势

1. 引言：从传统复盘到智能洞察

1.1 电话销售复盘的痛点与挑战

在电销业务中，通话质量直接影响成单率。传统的复盘方式依赖人工回听录音、手动标注关键节点，存在三大核心问题：

效率低下：1小时通话平均需20分钟回放分析；
主观性强：不同主管对“客户兴趣度”的判断标准不一；
信息遗漏：难以捕捉语气变化、情绪波动等非文本信号。

尽管ASR（自动语音识别）技术已广泛应用于转录，但仅提供文字内容仍不足以支撑深度复盘。真正影响成交的关键因素——客户情绪起伏、语调变化、环境干扰——往往隐藏在声音细节之中。

1.2 情绪感知型语音理解的价值

随着多模态AI的发展，语音理解正从“听清”迈向“听懂”。阿里达摩院开源的SenseVoiceSmall模型，正是这一趋势的代表性成果。它不仅支持中、英、日、韩、粤五种语言高精度识别，更具备以下差异化能力：

✅情感识别：可检测开心（HAPPY）、愤怒（ANGRY）、悲伤（SAD）等情绪标签；
✅声音事件检测：自动标注背景音乐（BGM）、掌声、笑声、哭声等；
✅富文本输出：将原始音频中的非语言信息结构化呈现。

本文将以电销场景为切入点，展示如何利用SenseVoiceSmall 多语言语音理解模型镜像，构建一套自动化的情绪趋势分析系统，实现从“听录音”到“看情绪曲线”的升级。

2. 技术方案设计与选型依据

2.1 核心需求拆解

针对电销复盘场景，我们提出如下功能目标：

功能维度	具体要求
多语言支持	支持普通话为主，兼顾粤语客户群体
实时性	单通30分钟通话处理时间 < 60秒
情绪粒度	至少区分积极/中性/消极三类情绪
可视化输出	提供带时间戳的情绪标签序列
易用性	非技术人员可通过Web界面操作

2.2 方案对比：传统ASR vs 富文本语音模型

对比项	Paraformer（传统ASR）	SenseVoiceSmall（富文本版）
转录准确率	高	高
是否支持情感识别	否	✅ 是
声音事件检测	否	✅ 笑声/BGM/掌声等
推理延迟	中等（自回归）	低（非自回归架构）
输出格式	纯文本	带标签富文本（如 `<
适用场景	文字归档	情绪分析、行为洞察

结论：对于需要挖掘“语气背后的情绪”的电销复盘任务，SenseVoiceSmall 是更优选择。

3. 系统部署与接口调用实践

3.1 镜像环境准备

本实验基于预装SenseVoiceSmall 多语言语音理解模型的GPU镜像环境，其主要依赖如下：

# Python 版本 Python 3.11 # 核心库 torch==2.5 funasr==0.1.0 modelscope==1.14.0 gradio==4.27.1 av==10.0.0 # 音频解码支持

该镜像已集成ffmpeg系统级音频处理工具，支持常见格式（WAV、MP3、M4A）自动重采样至16kHz，适配模型输入要求。

3.2 WebUI服务启动流程

步骤1：创建应用脚本`app_sensevoice.py`

import gradio as gr from funasr import AutoModel from funasr.utils.postprocess_utils import rich_transcription_postprocess # 初始化模型（首次运行会自动下载权重） model = AutoModel( model="iic/SenseVoiceSmall", trust_remote_code=True, device="cuda:0", # 使用GPU加速 vad_model="fsmn-vad", vad_kwargs={"max_single_segment_time": 30000} )

步骤2：定义处理函数

def sensevoice_process(audio_path, language): if audio_path is None: return "请上传音频文件" res = model.generate( input=audio_path, language=language, use_itn=True, batch_size_s=60, merge_vad=True, merge_length_s=15 ) raw_text = res[0]["text"] clean_text = rich_transcription_postprocess(raw_text) return clean_text

步骤3：构建Gradio交互界面

with gr.Blocks(title="SenseVoice 智能语音识别") as demo: gr.Markdown("# 🎙️ 电销对话情绪分析平台") with gr.Row(): audio_input = gr.Audio(type="filepath", label="上传通话录音") lang_dropdown = gr.Dropdown( choices=["auto", "zh", "en", "yue", "ja", "ko"], value="auto", label="语言选择" ) submit_btn = gr.Button("开始分析", variant="primary") text_output = gr.Textbox(label="含情绪标签的转录结果", lines=15) submit_btn.click( fn=sensevoice_process, inputs=[audio_input, lang_dropdown], outputs=text_output ) demo.launch(server_name="0.0.0.0", server_port=6006)

步骤4：本地访问配置

由于云服务器安全组限制，需通过SSH隧道映射端口：

ssh -L 6006:127.0.0.1:6006 -p [PORT] root@[IP_ADDRESS]

成功后访问：http://127.0.0.1:6006

4. 电销对话情绪趋势提取实战

4.1 数据准备与测试样本

选取一段真实电销录音（时长：8分12秒），内容为保险产品推销过程。客户前期态度冷淡，中期表现出兴趣，后期因价格犹豫最终未成交。

原始音频格式：MP3 / 44.1kHz / 单声道

模型自动完成重采样与VAD（语音活动检测），无需预处理。

4.2 情绪标签解析示例

模型输出片段如下：

你好 <|HAPPY|> ，我是平安保险的小李 <|HAPPY|> ，想跟您聊聊家庭保障方案 <|NEUTRAL|> 。 最近有没有关注过意外险呢？<|QUESTION|><|NEUTRAL|> 哦这样啊 <|SAD|> ，确实现在经济压力比较大 <|SAD|> ... 哈哈 <|LAUGHTER|> 这个价格您觉得有点高是吧 <|ANGRY|> ？

经rich_transcription_postprocess清洗后可转换为结构化文本或JSON格式，便于后续分析。

4.3 构建情绪时间序列

编写脚本提取每句话的时间戳与对应情绪标签，生成趋势图数据：

import re from datetime import timedelta def extract_emotion_timeline(text_with_tags): pattern = r'<\|([A-Z]+)\|>' lines = text_with_tags.split('\n') timeline = [] current_time = 0 # 初始时间偏移（秒） for line in lines: emotions = re.findall(pattern, line) if emotions: main_emotion = max(set(emotions), key=emotions.count) # 取出现最多的情绪 timeline.append({ 'time': str(timedelta(seconds=current_time)), 'emotion': main_emotion, 'content': re.sub(pattern, '', line).strip() }) current_time += len(line.split()) * 0.3 # 简单估算语速（词/秒） return timeline

输出结果示例：

时间点	情绪状态	对话语句摘要
00:01:23	HAPPY	销售开场问候，语气热情
00:03:15	SAD	客户表示预算紧张
00:05:40	ANGRY	讨论价格时客户不满
00:07:10	NEUTRAL	提供替代方案，气氛缓和

5. 分析报告生成与复盘建议

5.1 情绪分布统计

对整通电话进行情绪分类统计：

emotion_counter = { 'HAPPY': 3, 'SAD': 5, 'ANGRY': 4, 'NEUTRAL': 12, 'LAUGHTER': 1 }

可视化图表显示：

客户负面情绪（SAD + ANGRY）占比达45%
关键转折点出现在报价环节（00:05:40），情绪由中性突变为愤怒

5.2 复盘改进建议

基于情绪趋势分析，得出以下三条优化建议：

调整报价时机：避免在未建立信任前直接提及价格，建议先了解客户需求再引导；
增强共情表达：当客户流露“SAD”情绪时，应使用更多安抚性语言（如“我理解您的顾虑”）；
控制语速节奏：销售方平均语速达280字/分钟，高于舒适沟通区间（180–220字），易引发压迫感。

6. 总结

6.1 技术价值总结

通过集成SenseVoiceSmall 多语言语音理解模型，我们实现了电销对话的“情绪可视化”：

✅ 将不可量化的“语气感受”转化为可分析的结构化数据；
✅ 支持多语言、多情绪类型自动识别，降低人工标注成本；
✅ 结合Gradio快速搭建Web分析平台，提升团队协作效率。

相比传统ASR仅提供文字记录，SenseVoiceSmall 的富文本能力让企业能够深入挖掘客户真实心理状态，推动服务质量持续优化。

6.2 应用扩展方向

未来可在以下方向进一步深化应用：

实时情绪预警：在坐席通话过程中实时提示客户情绪恶化；
智能话术推荐：根据当前情绪自动推送应对策略；
培训素材生成：自动剪辑典型情绪片段用于新人培训。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

电话销售复盘实战：用SenseVoiceSmall提取对话情绪趋势