摘要
代谢组学软件开发速度大幅提升,但目前尚无系统性研究量化该领域在计算方法、地域分布及技术应用上的演进格局。代谢组学研究界亟需紧跟免费开源计算工具与资源的快速扩张步伐。鉴于2021年以来缺乏相关综述,且离子迁移质谱、单细胞与空间代谢组学、多组学技术突飞猛进,本研究构建了精选数据库,收录了37个类别、746个基于质谱与光谱的分析工具,覆盖从数据预处理到代谢物注释的全流程。研究揭示了重塑领域发展的4大结构性转变:
❶ 工具中机器学习(ML)的应用率从2021年的10.9%升至2025年的26.6%,增长2.4倍;
❷ 注释类工具占比最高(16.8%),也是机器学习投入最多的类别,技术策略从2021年的库匹配,转向2024年的光谱预测,再到2025年的从头结构生成,逐步降低对实验光谱参考库的依赖;
❸ Python取代R成为主流编程语言,2023年出现明显拐点(与机器学习热潮同步),纯网页版工具数量大幅下降;
❹ Transformer架构应用显著增长,2025年首批基于大语言模型(LLM)及多模态代谢组学工具问世,标志着领域从专用任务分类器向预训练、可迁移表征模型转型。同时,预印本发表量增长2.5倍,基准测试与可解释性的提及次数分别增长8–18倍,反映出领域的成熟度与规范化需求持续提升。本研究的计算代谢组学数据库公开访问:
https://github.com/enveda/computational-metabolomics-review
biswa.misra@enveda.com
#计算代谢组学 #软件开发 #机器学习 #质谱 #代谢物注释 #可重复性 #基准测试
计算代谢组学资源研发的主要趋势
发表期刊与作者分布
图12021−2025年研发的软件工具的发表期刊、机构及国家分布概览
(a) 期刊分布:饼图展示代谢组学工具发表期刊的占比分布;
(b) 机构归属:柱状图对发文量最高的研究机构进行排名;
(c) 通讯作者所属国家:饼图展示通讯作者所属国家的分布情况。
编程语言使用与应用的趋势转变
图2编程语言、工具类别及注释工具概览
(a) 编程语言:饼图总结工具开发采用的主要编程语言;
(b) 工具类别:工具高级分类占比的饼图;
(c) 注释工具亚型:注释工具各亚型占比分布的饼图。
工具分类分布与引文分析
图3编程语言、工具类别发展趋势及高被引工具
(a) 历年编程语言变化趋势:折线图展示各年度不同编程语言开发的工具数量;
(b) 历年工具类别分布:堆叠柱状图展示各年度不同类别工具的数量;
(c) 历年注释工具亚型变化:堆叠柱状图追踪各年度注释工具亚型的数量变化;
(d) 2021−2025年高被引工具TOP10(截至2026年4月累计被引次数)。
详细总结
计算代谢组学发展趋势思维导图(mindmap)
参考
Anal Chem. 2026 May 31. doi: 10.1021/acs.analchem.6c00361.
Trends in Computational Metabolomics: A Perspective on Five Years of Software Development, Challenges, and Opportunities (2021-2025)
260531enveda.pdf
注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。