市场调研访谈整理：焦点小组情绪变化图谱生成-编程实验室

市场调研访谈整理：焦点小组情绪变化图谱生成

1. 为什么传统访谈整理正在失效？

你有没有经历过这样的场景：一场90分钟的焦点小组访谈结束，录音文件有327MB，转录文字稿长达1.8万字，但真正能用上的“情绪洞察”却只有三行——“用户对价格敏感”“提到竞品时语气变冷”“说到新功能时笑了两次”。

这不是你不够专业，而是工具没跟上需求。

市场调研的核心从来不是“说了什么”，而是“怎么说的”。语速加快、停顿延长、笑声突兀、语气下沉……这些声音里的微表情，才是用户真实态度的开关。可过去我们只能靠人工听、靠笔记猜、靠回放反复确认——效率低、主观强、难量化。

直到现在，一个轻量级但能力扎实的语音理解模型，让这件事第一次变得可批量、可复现、可图谱化。

它不叫“语音转文字”，它叫声音理解引擎——能听懂语言，更能读懂情绪和环境。而今天要聊的，就是如何用它把一次焦点小组访谈，变成一张清晰的情绪变化图谱。

2. SenseVoiceSmall 是什么？它和普通ASR有什么不一样？

2.1 不是又一个“语音转文字”工具

SenseVoiceSmall 是阿里巴巴达摩院开源的轻量级语音理解模型，但它干的活远超传统ASR（自动语音识别）。

你可以把它想象成一位经验丰富的调研主持人：

听完一段话，不仅能记下“用户说‘这个价格太高了’”，还能立刻标注出——
- 语气：[ANGRY]
- 停顿：[PAUSE:1.2s]
- 环境音：[APPLAUSE]（旁边有人附和）
- 副语言信号：[LAUGHTER]（说完后自己笑了）

这些标签不是附加功能，而是模型原生输出的一部分。它不需要额外训练、不依赖后处理规则、不靠人工打标——从第一帧音频输入开始，就同步推理语言、情感、事件三重信息。

2.2 它为什么特别适合市场调研场景？

能力维度	传统ASR	SenseVoiceSmall	对调研的价值
语言支持	多数只支持中文或中英双语	中、英、日、韩、粤五语种自动识别	跨区域消费者访谈无需换模型
输出内容	纯文本（“我觉得不太值”）	富文本（“<	SAD
响应速度	长音频需分段+排队	4090D上单次推理平均1.3秒（含情感/事件）	一小时录音5分钟内出完整带标签约稿
部署门槛	常需GPU+多服务协同	单镜像+Gradio WebUI，开箱即用	实习生也能当天上手，无需Python基础

关键在于：它不把“情绪”当作附加分析项，而是作为语音理解的基本单元。就像人听对话时，不会先转成文字再判断情绪——它是同步发生的。

3. 焦点小组情绪图谱，到底怎么生成？

3.1 图谱不是“画个折线图”，而是重建对话脉络

所谓“情绪变化图谱”，不是简单统计“开心出现几次、愤怒出现几次”，而是按时间轴还原整场访谈的情绪流动：

时间00:12:34 → 用户A说“上次活动我抢不到券” → [ANGRY] + [PAUSE:1.5s]
时间00:12:41 → 用户B插话“我也一样！” → [ANGRY] + [APPLAUSE]
时间00:12:45 → 主持人回应“我们正在优化系统” → [NEUTRAL] + [BGM:faint_chime]
时间00:12:48 → 用户A语气放缓：“那…下次能提前通知吗？” → [HAPPY] + [LAUGHTER]

这才是真实的用户情绪曲线：有触发、有传染、有转折、有缓释。

而SenseVoiceSmall的富文本输出，天然就是这种结构化时间戳数据。

3.2 三步生成可交付的情绪图谱

第一步：上传音频，一键获取带标签原始稿

打开WebUI界面（http://127.0.0.1:6006），上传焦点小组录音（MP3/WAV/MP4均可），选择语言为“auto”（自动识别），点击“开始AI识别”。

几秒后，你会看到类似这样的结果：

<|zh|><|HAPPY|>大家好，我是李明，做电商运营的<|PAUSE:0.3s|> <|SAD|>最近我们团队在推一个新会员体系<|PAUSE:1.1s|> <|ANGRY|>但用户反馈说“积分规则太复杂了”<|APPLAUSE|> <|NEUTRAL|>我们内部也讨论过简化方案<|BGM:office_typing|>

注意：所有<|xxx|>都是模型原生识别结果，不是人工添加的注释。

第二步：用Python脚本提取结构化情绪事件

不需要写复杂代码。只需一段12行的解析脚本，就能把原始输出转成CSV表格：

import re import pandas as pd def parse_sensevoice_output(text): events = [] lines = text.strip().split('\n') for i, line in enumerate(lines): # 提取所有<|xxx|>标签及位置 tags = re.findall(r'<\|(.*?)\|>', line) # 计算当前行在全文中的大致时间（按每行≈3秒粗略估算） time_sec = i * 3 for tag in tags: if tag in ['HAPPY', 'ANGRY', 'SAD', 'NEUTRAL']: events.append({'time_sec': time_sec, 'type': 'emotion', 'value': tag}) elif tag in ['APPLAUSE', 'LAUGHTER', 'CRY', 'BGM']: events.append({'time_sec': time_sec, 'type': 'event', 'value': tag}) return pd.DataFrame(events) # 示例使用 raw_text = """<|HAPPY|>大家好...<|ANGRY|>积分规则太复杂了<|APPLAUSE|>""" df = parse_sensevoice_output(raw_text) print(df.head())

输出效果：

time_sec	type	value
0	emotion	HAPPY
3	emotion	ANGRY
3	event	APPLAUSE

第三步：用Excel或Python绘图，生成动态图谱

将CSV导入Excel，插入“折线图”或“散点图”，横轴为time_sec，纵轴按type分组，不同情绪用不同颜色标记——一张专业的焦点小组情绪图谱就完成了。

更进一步，你可以用Python加几行代码生成交互式图表：

import plotly.express as px fig = px.scatter(df, x='time_sec', y='type', color='value', title="焦点小组情绪与事件时间分布图", labels={'time_sec': '时间（秒）', 'value': '情绪/事件类型'}) fig.update_traces(marker_size=12) fig.show()

你会得到一张清晰的时间轴图谱：哪里集体愤怒、哪里突然共鸣、哪里出现沉默真空、哪里背景音乐暗示情绪缓和……所有洞察，都来自声音本身。

4. 实战技巧：让情绪图谱真正有用，而不是好看

4.1 别只看“高频情绪”，重点抓“情绪转折点”

很多团队拿到图谱后，第一反应是统计“愤怒出现最多”，然后写报告：“用户对价格最不满”。

这容易误判。真正关键的是转折点——比如：

在主持人介绍“新会员权益”后，连续3位用户说出“听起来不错”，但第4位用户接了一句“不过…上次说的返现也没兑现”，随即全场沉默2.3秒，接着出现[ANGRY] + [PAUSE:1.8s]。

这个沉默+愤怒的组合，比单独10次“生气”更有诊断价值。它说明：用户不是反对新政策，而是信任已受损。

SenseVoiceSmall的[PAUSE]标签，正是帮你捕获这类沉默信号的关键。

4.2 把“声音事件”当用户行为证据链

掌声、笑声、背景音乐，不是噪音，而是行为佐证：

[APPLAUSE]出现在某功能描述后 → 用户集体认可
[LAUGHTER]出现在吐槽竞品时 → 情绪释放，非真实抵触
[BGM:light_jazz]持续30秒以上 → 主持人可能在引导放松氛围，此时回答更真实

把这些事件和情绪标签交叉分析，你能构建出比纯文字更立体的用户行为证据链。

4.3 小心“自动识别”的边界，人工校验仍不可少

SenseVoiceSmall虽强，但仍有局限：

对极快语速（>220字/分钟）的粤语识别准确率略降
方言混合普通话时，建议手动指定language="yue"而非auto
远场录音（会议室麦克风）中，[PAUSE]时长可能偏短0.2–0.5秒

建议做法：对关键片段（如争议话题、沉默期、集体发言）导出原始音频+识别结果，由研究员快速听10秒验证。这不是质疑模型，而是用最小成本守住洞察底线。

5. 从单次图谱到长期洞察：建立你的声音数据库

一次访谈的情绪图谱是快照，但10场、50场、200场呢？

你可以用SenseVoiceSmall批量处理历史录音，构建企业专属的“用户声音数据库”：

按产品线归类：A产品发布会 vs B产品用户访谈
按人群切片：Z世代用户 vs 45岁以上用户
按渠道对比：线下焦点小组 vs 线上视频访谈

当数据积累到一定规模，你会发现隐藏模式：

所有对“隐私条款”的讨论，平均沉默时长比其他话题长1.7秒
用户提到“客服”时，[ANGRY]出现概率是其他关键词的3.2倍，但[LAUGHTER]同步出现率高达41%——说明愤怒中带着无奈自嘲
新功能介绍环节，[HAPPY]峰值总出现在第3分钟，之后迅速回落——提示讲解节奏需优化

这些，都不是问卷能问出来的。

而这一切的起点，只需要你打开那个Gradio界面，上传第一个音频文件。

6. 总结：让声音成为可测量的用户语言

我们花了十几年教AI“听懂人话”，现在终于到了教它“听懂人心”的阶段。

SenseVoiceSmall不是万能钥匙，但它是一把足够趁手的工具——轻量、开箱即用、专注声音本质。它不替代调研员的专业判断，而是把那些曾被忽略的声学信号，变成可定位、可比较、可追踪的数据点。

当你下次主持焦点小组时，不妨多留一个心眼：

录音设备是否开启？
主持人语速是否过快？
有没有背景音乐干扰？
最重要的——你准备用什么工具，去真正听见用户没说出口的部分？

技术的意义，从来不是炫技，而是让专业的人，更专注地做专业的事。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

市场调研访谈整理：焦点小组情绪变化图谱生成