news 2026/5/1 7:16:40

火热报名|Interspeech 2026 第二届音频编码器能力挑战赛正式启动

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
火热报名|Interspeech 2026 第二届音频编码器能力挑战赛正式启动

国际语音顶级会议 Interspeech 2026 将于明年 9 月在澳大利亚悉尼举行。由小米、萨里大学、清华大学、海天瑞声联合发起的第二届 Audio Encoder Capability Challenge(AECC)音频编码器能力挑战赛将同步亮相 Interspeech 2026,目前已正式开放报名。

当前,音频大语言模型(LALMs)发展迅速,但大多数主流模型在音频前端编码器上选择非常单一,几乎均基于 OpenAI Whisper Encoder。这种对单一技术的依赖不利于模型架构的多样化探索,也限制了 LALMs 整体能力的进一步提升。为应对音频理解能力不断增长的需求,本次挑战赛将聚焦于音频编码器这一核心模块,重点评估其在复杂真实场景下的理解与特征表示能力。

一、比赛介绍

1.1 评测方法

本次挑战赛采用统一的端到端训练和评估框架。参赛者只需提交预训练的编码器模型,下游任务的训练和评估由主办方完成。主办方提供了开源的评估系统 XARES-LLM (https://github.com/xiaomi-research/xares-llm)。该系统基于用户提供的音频编码器自动训练一个典型的 LALM。该系统会自动下载训练数据,训练模型,然后测试各种下游任务,并为每个任务提供分数,如下图所示。

参赛者并不需要自己运行 XARES-LLM,而只需把音频编码器按照一个简单的接口说明和示例封装,通过邮件发送给主办方即可,大模型的训练和评估由主办方完成。当然,由于 XARES-LLM 是开源的,且只需 GTX4090 即可完成训练和评估,参赛者也可以自行使用该系统训练大模型、评估待提交的编码器的性能,并和主办方提供的基线系统比较。

1.2训练数据

和大多数比赛不同,本挑战赛不仅重视模型设计和训练,也同样重视数据的收集和利用。主办方不规定具体的训练数据集。参赛者可以使用任何数据训练,包括在网络上抓取的数据,但训练数据必须是公开可访问的,不得使用私有保密数据。参赛的模型既可以基于任何开源的预训练模型参数,也可以从头训练。

同时,海天瑞声公司为比赛提供了一个补充数据集,供参赛者免费使用。该数据集从八个商用数据集(King-ASR-457、King-ASR-958 等)提取构建而成。其内容涵盖了丰富的日常环境噪声,具体包括书店、健身房、地铁、餐厅等多种室内外场景的背景噪声,以及家庭环境下的不同距离背景噪声。

此外,数据集还收录了水流、脚步声、户外窗边等特定非语音干扰声,以及地铁车厢在不同时段的运行噪声。啸叫类数据则包含了通话、游戏和直播场景下的纯净啸叫声。

车辆相关环境噪声也是其重要组成部分,如机械噪声、空调运行声和开窗风噪,还有咖啡馆、医院、市场、步行街等生活场景的实录环境声。报名参赛者可以免费访问该数据集,细节详见 :

https://dataoceanai.github.io/Interspeech2026-Audio-Encoder-Challenge/King_NonSpeech-Dataset_en_20h.html。

1.3 赛道设置

我们设置了两个赛道,赛道 A 关注大模型处理传统分类任务、输出分类标签的能力,赛道 B 关注大模型的理解和表达能力。参赛者无需选择赛道。所有提交作品将同时接受两个赛道的评估,两个赛道独立排名。

☆ ☆赛道 A :传统分类任务

领域

数据集

任务类型

指标

#

语音

Speech Commands

关键词检测

准确率

30

LibriCount

说话人计数

准确率

11

VoxLingua107

语言识别

准确率

33

VoxCeleb1-Binary

二元说话人识别

准确率

2

ASVSpoof2015

欺骗检测

准确率

2

Fluent Speech Commands

意图分类

准确率

31

VocalSound

非语音声音识别

准确率

6

CREMA-D

情感识别

准确率

5

ASV2015

欺骗检测

准确率

2

声音

ESC-50

环境声音分类

准确率

50

FSD50k

声音事件检测

平均精度

200

UrbanSound 8k

城市声音分类

准确率

10

FSD18-Kaggle

声音事件检测

平均精度

41

音乐

GTZAN Genre

流派分类

准确率

10

NSynth-Instruments

乐器分类

准确率

11

Free Music Archive Small

音乐流派分类

准确率

8

☆ ☆赛道 B :理解和表达任务

数据集

任务类型

指标

LibriSpeech-100h

语音识别

iWER

AISHELL-1-100h

语音识别

iWER

Clotho

音频描述

FENSE

The Song Describer Dataset

音乐描述

FENSE

MECAT

通用描述

DATE

二、报名参赛

2.1 报名和提交方法

  • 在2026.01.25 11:59 PM AoE 前填写报名链接:

    https://docs.google.com/forms/d/1oaTnhh0HVX8K2oRdHKXsnyZfBWb7F6Oj8xZ6yAiMI74/viewform?edit_requested=true

  • 参考https://github.com/xiaomi-research/xares-llm/tree/main/example 封装自己的编码器,并通过https://github.com/xiaomi-research/xares-llm/tree/main/scripts/audio_encoder_checker.py 工具的检查。

  • 在2026.02.12 11:59 PM AoE 前,把编码器代码和模型文件打成 zip 包,通过邮件发送给主办方。

  • 在2026.02.25 11:59 PM AoE 前,把技术报告 PDF 文件邮件发送给主办方。技术报告可以同时在 Interspeech 官方提交系统作为会议论文投稿。


2.2 联系方式

  • 主办方邮箱:

    2026interspeech-aecc@dataoceanai.com

  • 挑战赛官网:

    https://dataoceanai.github.io/Interspeech2026-Audio-Encoder-Challenge/

  • 微信群:

END

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 19:46:50

23、时间间隔表示与类型关系解析

时间间隔表示与类型关系解析 1. 持续时间管理与建模 1.1 单时间点建模 最初,人们尝试用单个时间点来表达有效性。但这种方法存在明显局限,数据存储和后续处理效率低下,因为可能出现大量重复元组。不过,当把这个时间点定义为有效性的起始点时,能对持续时间进行建模。每个…

作者头像 李华
网站建设 2026/5/1 6:56:39

32、构建可靠解决方案:避免 SQL 注入与时间戳增强

构建可靠解决方案:避免 SQL 注入与时间戳增强 1. SQL 注入问题解析 SQL 注入是一种通过用户输入扩展原始 SQL 语句代码的技术。用户不提供所需的值,而是提供可执行的 SQL 代码,这可能导致访问通常不可用(隐藏)的数据、进行未经授权的值更改或删除个别对象,严重损害系统的…

作者头像 李华
网站建设 2026/4/23 8:23:34

33、时间戳处理与跨时区转换

时间戳处理与跨时区转换 1. TIMESTAMP 与时区处理 1.1 TIMESTAMP 构造函数与时区 TIMESTAMP 构造函数本身不处理时区。不过,可以使用 FROM_TZ 函数为其添加时区信息。例如: -- 示例中展示 FROM_TZ 函数的使用 --> T1: 28.03.00 08:00:00,000000000 +03:00 --> …

作者头像 李华
网站建设 2026/4/22 21:12:38

LobeChat不再受支持的扩展程序问题解决办法

LobeChat不再受支持的扩展程序问题解决办法 在构建个人AI助手或团队知识库系统时,越来越多开发者选择开源方案替代官方闭源平台。LobeChat 作为一款现代化、高度可定制的聊天界面框架,凭借其优雅的UI设计和强大的插件生态,成为不少人的首选。…

作者头像 李华
网站建设 2026/4/28 18:53:56

英格卡与高和资本将成立不动产基金,共同持有无锡、北京、武汉荟聚三座聚会体验中心

、美通社消息:12月12日,英格卡购物中心宣布与高和资本达成战略合作,双方将携手成立一支专项不动产基金,共同持有无锡荟聚、北京荟聚、武汉荟聚三座聚会体验中心。此项合作将在获得中国相关主管部门的批准后正式生效。在这一新合作…

作者头像 李华
网站建设 2026/4/30 19:56:40

英雄联盟身份自由定制神器:LeaguePrank完整使用教程

英雄联盟身份自由定制神器:LeaguePrank完整使用教程 【免费下载链接】LeaguePrank 项目地址: https://gitcode.com/gh_mirrors/le/LeaguePrank 想要在英雄联盟中展现与众不同的个性风采吗?LeaguePrank正是你需要的完美解决方案!这款基…

作者头像 李华