news 2026/5/1 4:53:34

96%准确率!中科院提出ACLNet,攻克骨架动作识别最难问题:相似动作区

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
96%准确率!中科院提出ACLNet,攻克骨架动作识别最难问题:相似动作区

在计算机视觉领域,基于骨架的人体动作识别一直备受关注。相比传统视频流,骨架数据不仅计算高效,还对环境光照、背景干扰有着天然的免疫力。然而,骨架模型也有自己的“心病”:由于缺乏物体信息和精细的体型特征,它很难分清那些动作极其相似的行为,比如“读书”和“写字”、“喝水”和“擦嘴”。

为了解决这一难题,中国科学院、中国科学院大学、北京邮电大学以及月之暗面等机构的研究者们联合提出了一种名为 ACLNet 的新框架,全称为 亲和对比学习网络。

该研究已被IEEE生物识别、行为与身份科学汇刊(T-BIOM 2026)录用,相关代码已在GitHub开源。

论文地址:https://arxiv.org/abs/2601.16694

代码仓库:https://github.com/firework8/ACLNet


一、传统对比学习的局限

当前的骨架识别方法大多采用通用对比学习范式:让同类样本靠拢,异类样本远离。这种看似完美的方案在实际应用中存在两个关键痛点:

  1. 忽视了类间的结构共性:有些动作虽然类别不同,但运动模式高度相似。比如“读书”和“喝水”都有手部向头部靠拢的轨迹。如果只是简单地把它们推开,模型很难学到真正细微的判别特征。

  2. 类内异常样本的干扰:由于拍摄角度、动作幅度差异,同一类动作里可能存在“离群”的正样本。这些样本容易与相似类别的负样本混淆,导致模型在特征空间中产生错误的聚类。


二、ACLNet:引入“亲和力”的新视角

为了应对上述挑战,ACLNet提出了两套核心策略:类间亲和对比学习类内边缘对比学习。

  • 核心架构与流程

ACLNet的整体流程清晰明了:

输入:包含N帧、V个关节、每关节C维特征的原始骨架序列

处理:利用图卷积网络提取时空特征,通过投影层映射到256维对比特征空间

输出:一方面通过分类头输出动作预测标签,另一方面通过亲和对比学习损失函数优化特征分布

  • 创新点1:寻找“动作家族”

ACLNet的妙招在于引入亲和相似度概念,不再只看两个类别是否直接混淆,还会考察它们是否拥有共同的“朋友圈”。

具体计算分两步:

直接关联:通过混淆矩阵统计易混淆类别

间接关联:如果类别A和B都经常被误判为类别C,则A和B存在隐藏的结构共性

通过这种方式,模型将具有相似运动模式的类别聚合成一个个动作家族。在训练时,模型会针对家族内部成员进行更有针对性的对比优化。

配合这一概念,作者还设计了族群感知温度调度:当家族规模较小时,使用较小温度值放大硬负样本差异;家族规模较大时,适当放宽条件保持聚类稳定性。这种“因材施教”的策略让模型在不同粒度上都能保持敏锐。

  • 创新点2:强力分离硬样本

针对类内异常样本,ACLNet引入类内边缘对比损失。它在正负样本之间强行加入边缘约束,即使某个正样本长得很像负样本,模型也会强制拉开它们之间的距离,实现更稳健的特征分离。


三、性能表现:刷榜多项主流数据集

ACLNet在六大主流基准数据集上展现出稳健性能:

  • 动作识别任务

  • NTU RGB+D 60:X-Sub准确率93.6%,刷新SOTA记录

  • NTU RGB+D 120:X-Sub准确率90.7%,同样达到SOTA水平

  • Kinetics-Skeleton:Top-1准确率52.1%,相比之前的SOTA方法DS-GCN有明显提升

  • FineGYM:细粒度动作识别准确率达96.0%,证明其在区分极细微动作差异方面的卓越能力

  • 生物特征识别任务

  • CASIA-B步态识别:平均准确率88.5%

  • 行人重识别:N-N设置下达到82.8%


四、实验中的有趣发现

  • “动作家族”可视化

消融实验中展示了“动作家族”的直观案例。比如“读书”和“穿夹克”这两个动作,模型通过亲和力建模,精准捕捉到了它们在手部和手臂轨迹上的结构共性。

  • 超参数敏感性

模型对边缘约束和损失权重的选择非常讲究。实验表明,当边缘约束设为0.3且权重为0.1时,模型能达到最优平衡。这说明适度的约束比过度惩罚更能引导模型学习到泛化性强的特征。

  • 对噪声数据的鲁棒性

ACLNet对噪声数据表现出极强的鲁棒性。在模拟遮挡的极端情况下(如缺少双臂或双腿),ACLNet的识别准确率依然大幅领先传统模型。

例如在缺少“双手”的情况下,ACLNet仍能保持79.6%的准确率,而经典模型MS-G3D仅剩17.1%。

  • 攻克相似动作“深水区”

类间改进差异分析显示,ACLNet提升最明显的正是传统模型最头疼的“重灾区”,如“打喷嚏/咳嗽”、“读书”和“打字”。这些动作在骨架空间中极其接近,但ACLNet通过亲和力约束,在特征空间中开辟了专属领地。

t-SNE可视化显示,随着训练进行,原本混杂的相似动作在特征空间中逐渐分离,聚类变得更加紧凑清晰。


结论

本文提出ACLNet——一种基于骨架的人类活动理解亲和对比学习网络。具体而言,我们的方法通过两大创新突破了现有技术的局限:首先引入亲和相似性概念,用于建模难分类别的语义关系,并通过跨类亲和学习实现针对性优化; 其次,我们提出边缘对比策略,通过显式控制困难正样本与负样本的分离度,增强了模型对类内变异的鲁棒性。在六个基准数据集上的广泛实验验证了ACLNet在骨架动作识别、步态识别及人脸再识别任务中的有效性。所提出的亲和建模范式为精细化活动分析与行为生物特征识别开辟了新路径,在安全防护、医疗健康及人机交互领域具有广阔应用前景。


技术实现与开源

该项目已在GitHub开源,使用单张RTX 3090即可复现实验。代码结构清晰,模块化设计便于扩展和修改,为从事行为识别、步态分析或生物特征识别的研究者提供了一个扎实的基准模型。

ACLNet的突破在于告诉我们:对比学习不应只是简单地“拉近”和“推开”。通过引入“亲和力”这一维度,模型能够像人类一样理解动作之间的逻辑关联,从而在细微处见真章。

这一创新不仅提升了骨架动作识别的准确性,更为对比学习在复杂场景下的应用提供了新思路。随着相关代码的开源,我们期待看到更多研究者在此基础上开发出更加强大和智能的动作理解系统。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/30 9:03:36

书匠策AI:教育论文数据分析的“智能魔法师”,让数据开口说故事

在学术写作的江湖里,数据是“论据之王”,但如何让数据从“沉默的数字”变成“会说话的证据”?传统方法里,研究者常被SPSS报错、Python代码、Excel函数折磨得焦头烂额,更别提跨学科分析、动态可视化这些“高阶技能”了。…

作者头像 李华
网站建设 2026/4/30 20:45:20

书匠策AI:教育论文的“数据炼金术士”,让你的研究从“数字迷宫”到“逻辑金矿”

在教育研究的江湖里,数据分析是每个学者必经的“闯关游戏”。有人卡在数据清洗的“脏活累活”里,有人迷失在统计方法的“选择恐惧症”中,还有人对着满屏代码抓耳挠腮——直到书匠策AI这位“数据炼金术士”横空出世,用魔法般的智能…

作者头像 李华
网站建设 2026/4/25 9:54:33

书匠策AI:教育论文的“数据炼金术士”,让数字开口说学术故事

在教育研究的江湖里,数据是“金矿”,但如何从杂乱无章的数字中提炼出有价值的结论,却让无数研究者头疼不已。传统数据分析工具像一把笨重的镐头,需要研究者自己挥汗如雨地挖掘;而书匠策AI(官网:…

作者头像 李华
网站建设 2026/4/20 17:24:41

async/await与多进程结合的混合爬虫架构

在现代网络数据采集场景中,爬虫面临着目标站点响应速度不一、反爬策略日趋严格、海量数据并行抓取效率要求高等多重挑战。单一的异步协程或多进程爬虫架构,往往难以兼顾高并发、高稳定性与高资源利用率。基于 async/await 的异步协程模式,能够…

作者头像 李华
网站建设 2026/4/23 14:02:00

深入探索Elasticsearch:使用LangChain的向量存储管理

Elasticsearch是一个分布式、RESTful的搜索与分析引擎,能够执行矢量和词法搜索。它建立在Apache Lucene库之上,广泛用于全文搜索、日志和指标分析等领域。在本文中,我们将介绍如何使用LangChain与Elasticsearch进行向量存储的管理&#xff0c…

作者头像 李华
网站建设 2026/4/10 19:34:16

CCPA与AI测试:加州隐私法的自动化验证体系构建

——软件测试从业者的技术实践指南 一、CCPA合规性测试的核心挑战 随着《加州消费者隐私法案》(CCPA)执法力度持续加强,测试工程师面临三重技术挑战: 数据流动态追踪:需验证用户数据在系统各模块(采集、存储、处理、删除&#x…

作者头像 李华