广播剧创作助手：自动推荐适合当前情节的背景音乐BGM-编程实验室

广播剧创作助手：自动推荐适合当前情节的背景音乐BGM

1. 引言：广播剧创作中的音乐匹配挑战

在广播剧制作过程中，背景音乐（BGM）是营造氛围、增强情感表达的重要元素。然而，传统的工作流依赖人工挑选BGM，耗时且难以精准匹配角色情绪与场景节奏。随着AI语音理解技术的发展，我们可以通过自动化手段实现“听音识情”，进而智能推荐契合剧情发展的背景音乐。

本文介绍如何基于阿里达摩院开源的SenseVoiceSmall多语言语音理解模型，构建一个面向广播剧创作的BGM自动推荐系统。该系统不仅能高精度转写对白内容，还能识别音频中蕴含的情感状态（如开心、愤怒、悲伤）和声音事件（如掌声、笑声、BGM），为后续音乐推荐提供关键上下文信息。

本方案已在集成Gradio WebUI的镜像环境中部署，支持GPU加速推理，无需编写代码即可快速验证效果，也可进一步扩展为完整创作辅助工具链。

2. 核心技术解析：SenseVoiceSmall 模型能力详解

2.1 模型概述与架构优势

SenseVoiceSmall 是阿里巴巴达摩院iic团队推出的轻量级多语言语音理解模型，专为富文本转录（Rich Transcription）任务设计。相比传统的ASR（自动语音识别）仅输出文字，SenseVoice能够同时捕捉语音中的语义、情感与环境信息，极大提升了语音数据的理解深度。

其核心采用非自回归（Non-Autoregressive）架构，在保证高识别准确率的同时显著降低推理延迟。在NVIDIA 4090D等消费级显卡上可实现秒级长音频处理，满足实时或近实时的应用需求。

2.2 富文本识别能力拆解

🎭 情感识别（Emotion Detection）

模型内建情感分类器，可在语音片段中标注以下主要情绪标签：

<|HAPPY|>：语气轻快、语调上扬，常用于喜悦、兴奋场景
<|ANGRY|>：语速加快、音量提高，适用于冲突、争执情节
<|SAD|>：语调低沉、节奏缓慢，适合悲伤、失落的情绪表达
<|NEUTRAL|>：无明显情绪倾向，常见于叙述性对白

这些情感标签可直接作为BGM推荐系统的输入特征，例如当检测到连续出现<|SAD|>时，系统可优先推荐舒缓、忧伤风格的钢琴曲或弦乐。

🎸 声音事件检测（Sound Event Detection）

除了人声情感，模型还能识别多种非语言声音事件，包括：

<|BGM|>：当前已有背景音乐存在，提示避免重复叠加
<|APPLAUSE|>：观众鼓掌，可能出现在舞台剧式结尾或颁奖场景
<|LAUGHTER|>：角色大笑，常伴随轻松幽默的情节
<|CRY|>：哭泣声，强化悲情氛围

这一能力使得系统能感知“是否需要添加BGM”以及“当前音乐是否应淡出”，从而实现动态音乐调度。

2.3 多语言支持与适用场景

SenseVoiceSmall 支持五种语言的无缝切换：

语言	编码	典型应用场景
中文（普通话）	`zh`	国产广播剧、有声小说
英文	`en`	国际化IP改编、双语节目
粤语	`yue`	港风题材、怀旧剧集
日语	`ja`	动漫衍生广播剧
韩语	`ko`	K-drama音频版

创作者无需更换模型即可处理多语种混杂的剧本，特别适合跨国合作项目或粉丝二次创作。

3. 实践应用：搭建BGM智能推荐原型系统

3.1 系统整体架构设计

整个BGM推荐流程分为三个阶段：

[原始音频] ↓ (语音分析) SenseVoiceSmall → [情感+事件标签序列] ↓ (规则/模型映射) 音乐推荐引擎 → [候选BGM列表] ↓ (播放控制) Gradio界面展示 + 可选自动插入

系统以音频文件为输入，通过SenseVoice提取时间对齐的情感与事件序列，再结合预设的“情绪-音乐类型”映射表生成推荐结果。

3.2 关键代码实现

以下是一个完整的Gradio应用脚本，实现了从上传音频到输出带标签文本，并初步完成BGM建议的功能。

# app_bgm_recommender.py import gradio as gr from funasr import AutoModel from funasr.utils.postprocess_utils import rich_transcription_postprocess import os import json # 初始化模型 model_id = "iic/SenseVoiceSmall" model = AutoModel( model=model_id, trust_remote_code=True, vad_model="fsmn-vad", vad_kwargs={"max_single_segment_time": 30000}, device="cuda:0" if torch.cuda.is_available() else "cpu" ) # 定义情绪到BGM类型的映射规则 EMOTION_TO_BGM = { "HAPPY": ["轻快钢琴", "爵士乐", "流行 upbeat"], "ANGRY": ["紧张弦乐", "电子脉冲", "低频打击乐"], "SAD": ["慢板钢琴", "大提琴独奏", "环境音景"], "NEUTRAL": ["环境白噪音", "极简主义", "无音乐"] } def parse_emotions_and_recommend(audio_path): if not audio_path: return "请上传音频文件", "" # 调用模型进行富文本识别 res = model.generate( input=audio_path, cache={}, language="auto", use_itn=True, batch_size_s=60, merge_vad=True, merge_length_s=15 ) if not res: return "识别失败", "" raw_text = res[0]["text"] clean_text = rich_transcription_postprocess(raw_text) # 提取情感标签用于推荐 detected_emotions = [] for tag in ["<|HAPPY|>", "<|ANGRY|>", "<|SAD|>", "<|NEUTRAL|>"]: if tag in raw_text: emotion_key = tag.strip("<|>").upper() detected_emotions.extend(EMOTION_TO_BGM.get(emotion_key, [])) # 去重并格式化推荐结果 unique_recommendations = list(set(detected_emotions)) bgm_suggestions = "\n".join([f"• {m}" for m in unique_recommendations]) if unique_recommendations else "未检测到明显情绪，建议保持静音或使用环境音" return clean_text, bgm_suggestions with gr.Blocks(title="广播剧BGM智能推荐助手") as demo: gr.Markdown("# 🎧 广播剧BGM智能推荐系统") gr.Markdown(""" 本工具基于 **SenseVoiceSmall** 模型，自动分析音频中的情感与声音事件， 并为您推荐合适的背景音乐风格。无需编码，一键运行！ """) with gr.Row(): with gr.Column(scale=1): audio_input = gr.Audio(type="filepath", label="上传广播剧片段") submit_btn = gr.Button("🎧 开始分析并推荐BGM", variant="primary") with gr.Column(scale=1): transcription_output = gr.Textbox(label="识别结果（含情感/事件标签）", lines=10) recommendation_output = gr.Textbox(label="🎵 BGM推荐建议", lines=8) submit_btn.click( fn=parse_emotions_and_recommend, inputs=[audio_input], outputs=[transcription_output, recommendation_output] ) gr.Markdown(""" --- 💡 **使用提示**： - 推荐使用16kHz采样率的WAV或MP3格式； - 若已存在BGM，请注意`<|BGM|>`标签，避免音轨冲突； - 可将推荐结果导入DAW（如Audition、Reaper）进行手动配乐。 """) demo.launch(server_name="0.0.0.0", server_port=6006)

3.3 运行说明与依赖安装

确保运行环境满足以下依赖：

# 安装必要库 pip install torch==2.5.1 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install funasr modelscope gradio av

启动服务：

python app_bgm_recommender.py

若远程部署，请建立SSH隧道访问Web界面：

ssh -L 6006:127.0.0.1:6006 -p [PORT] root@[IP_ADDRESS]

访问地址：http://127.0.0.1:6006

4. 应用优化与进阶建议

4.1 提升推荐准确性策略

虽然基础规则映射已具备实用价值，但可通过以下方式进一步提升智能化水平：

引入时间窗口分析：统计每10秒内主导情绪，避免短暂笑声影响整体判断
结合对话内容关键词：联合使用NLP模型提取“死亡”、“婚礼”、“战斗”等关键词辅助决策
用户偏好学习：记录创作者的历史选择，逐步个性化推荐列表

4.2 扩展至全流程创作辅助

未来可将此模块整合进更完整的广播剧生产流水线：

剧本分镜阶段：根据文本情感预测预加载BGM资源
录音后期阶段：自动标记需配乐段落，生成待处理清单
导出交付阶段：生成包含BGM引用信息的元数据报告

4.3 性能调优建议

使用batch_size_s=60控制内存占用，防止OOM
对超长音频启用VAD（语音活动检测）切片处理
在无GPU环境下可降级使用CPU模式（速度约为GPU的1/5）

5. 总结

本文介绍了如何利用阿里开源的SenseVoiceSmall模型构建广播剧创作中的BGM智能推荐系统。通过其强大的富文本识别能力——涵盖多语言语音转写、情感识别与声音事件检测——我们实现了从“听懂情绪”到“推荐音乐”的自动化闭环。

该方案具有以下核心价值：

提升效率：减少人工试听配乐的时间成本；
增强一致性：确保音乐风格与角色情绪高度匹配；
降低门槛：让独立创作者也能获得专业级配乐建议；
可扩展性强：易于接入现有音频编辑工作流。

借助AI的力量，广播剧创作正从“经验驱动”迈向“数据驱动”。下一步，我们可以探索将推荐结果直接对接数字音频工作站（DAW），实现真正的“智能作曲助理”。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

广播剧创作助手：自动推荐适合当前情节的背景音乐BGM