news 2026/6/19 6:36:38

CANN/oam-tools综合检测

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/oam-tools综合检测

综合检测

【免费下载链接】oam-tools本项目为开发者提供故障定位工具,包含故障信息收集,软硬件信息展示,AI core error报错分析等能力,提升故障问题定位效率,文档可在昇腾社区搜索“故障处理简介”(选择社区版)。项目地址: https://gitcode.com/cann/oam-tools

功能说明

包括压力检测、HBM硬件检测、CPU检测等功能。

注意事项

综合检测相关命令必须在物理机且root用户下执行。

对于Atlas 200I/500 A2 推理产品、Atlas 推理系列产品、Atlas 训练系列产品,不支持使用综合检测功能。

命令格式

# AI Core压力检测,可能需要时间较长 asys diagnose -r=stress_detect -d=deviceId --output=path # HBM检测 asys diagnose -r=hbm_detect -d=deviceId --timeout=num --output=path # CPU检测 asys diagnose -r=cpu_detect -d=deviceId --timeout=num --output=path

参数说明

  • r:必选参数,检测模式,取值如下:

    • stress_detect:AI Core压力检测

      该功能涉及执行算子,因此环境中需提前安装算子二进制包(包名为Ascend-cann-*-ops-*.run)。

      AICore压力检测涉及到对device侧部分电压调整,当压力检测正常结束时,可自行恢复;但部分压力检测异常退出时,存在电压不能自行恢复,这时用户可以根据asys环境配置功能手动恢复电压。建议在执行AI Core压力检测前、后,用户可以分别获取电压,用于判断电压是否异常、以及是否需要恢复电压。获取及恢复电压请参见环境配置。

      显示检测结果时:

      • 不指定device但device只有一个时,仅显示这个device的状态。
      • 显示所有device的检测结果时,若所有device的状态都为Pass、Warn,则直接显示Pass - All、Warn - All。
      • 若一个或多个device状态不一致时,则依次显示每个device的状态,例如4个device时,显示Pass, Warn, Warn, Warn。
      • 若检测结果为Warn,表示检测失败,可查看Host侧plog日志(默认路径为$HOME/ascend/log/run|debug/plog/plog-pid_*.log),根据关键字“[ERROR] AML”查看日志信息,并根据其中的错误码定位并排除问题:1开头的错误码表示用例执行失败、任务下发失败等;2开头的错误码表示精度比对失败;3开头的错误码表示硬件问题。
      • 若检测结果为Pass,表示检测成功。
    • hbm_detect:HBM检测

      显示检测结果时:

      • 不指定device但device只有一个时,仅显示这个device的状态。
      • 显示所有device的检测结果时,若所有device的状态都为Pass、Warn,则直接显示Pass - All、Warn - All。
      • 若一个或多个device状态不一致时,则依次显示每个device的状态,例如4个device时,显示Pass, Warn, Warn, Warn。
      • 若检测结果为Warn,表示检测失败,可查看Host侧plog日志(默认路径为$HOME/ascend/log/run|debug/plog/plog-pid_*.log),根据关键字“[ERROR] AML”查看日志信息,并根据其中的错误码定位并排除问题:1开头的错误码表示用例执行失败、任务下发失败等;4开头的错误码表示硬件问题。
      • 若检测结果为Pass,表示检测成功。针对hbm检测,若返回的数值>0,该数值表示检测后新增ECC错误的个数,用于提前激发风险地址报错并隔离,保证后续业务正常运行。
    • cpu_detect:CPU检测

      显示检测结果时:

      • 不指定device但device只有一个时,仅显示这个device的状态。
      • 显示所有device的检测结果时,若所有device的状态都为Pass、Warn、Fail,则直接显示Pass - All、Warn - All、Fail - All。
      • 若一个或多个device状态不一致时,则依次显示每个device的状态,例如4个device时,显示Pass, Warn, Warn, Fail。
      • 若检测结果为Fail,表示检测出硬件故障,需联系技术支持。
      • 若检测结果为Warn,表示检测过程中任务调度出现问题。可查看Host侧plog日志(默认路径为$HOME/ascend/log/run|debug/plog/plog-pid_*.log)中的详细信息定位问题,可先根据关键字“[ERROR] AML”筛选日志信息。
      • 若检测结果为Pass,表示检测成功。
  • d:可选参数,指定待检测的deviceId,不设置该参数,默认显示所有device的检测结果。Pass表示正常,Warn表示异常。

  • timeout:可选参数,指定硬件检测时间,单位秒。不传默认检测600秒。仅HBM检测、CPU检测时生效,HBM检测时取值范围:[0, 604800],设置为0时表示仅执行一轮HBM检测;CPU检测时取值范围:[1, 604800]。

  • output:可选参数,其值作为检测结果文件diagnose_result_{time_stamp}.txt的保存目录。命令行中不带output参数时,输出结果不落盘仅在终端屏幕显示;若output指定值为空、无效字符串、或指定路径目录无写权限、或创建目录失败,则asys工具退出执行并报错。

使用示例和输出说明

  • 不指定device,所有device正常,此处以四卡为例:

    asys diagnose -r=stress_detect +------------------------+ -----------------------+ | Group of 4 Device | Diagnostic Result | +========================+ =======================+ +--- Performance --------+ -----------------------+ | Stress Detect | Pass - All | +------------------------+ -----------------------+ asys diagnose -r=hbm_detect --timeout=3000 +------------------------+------------------------+ | Group of 4 Device | Diagnostic Result | +========================+========================+ +--- Hardware -----------+------------------------+ | HBM Detect | Pass - All | | | (0, 9, 0, 0) | +------------------------+------------------------+ asys diagnose -r=cpu_detect --timeout=3000 +------------------------+------------------------+ | Group of 4 Device | Diagnostic Result | +========================+========================+ +--- Hardware -----------+------------------------+ | CPU Detect | Pass - All | +------------------------+------------------------+
  • 不指定device,部分device正常,此处以四卡为例:

    asys diagnose -r=stress_detect +------------------------+ -----------------------+ | Group of 4 Device | Diagnostic Result | +========================+ =======================+ +--- Performance --------+ -----------------------+ | Stress Detect | Pass, Warn, Pass, Warn | +------------------------+ -----------------------+ asys diagnose -r=hbm_detect +------------------------+ -----------------------+ | Group of 4 Device | Diagnostic Result | +========================+ =======================+ +--- Hardware -----------+ -----------------------+ | HBM Detect | Pass, Warn, Pass, Warn | | | (9, 0, 5, 0) | +------------------------+ -----------------------+ asys diagnose -r=cpu_detect +------------------------+------------------------+ | Group of 4 Device | Diagnostic Result | +========================+========================+ +--- Hardware -----------+------------------------+ | CPU Detect | Pass, Warn, Pass, Fail | +------------------------+------------------------+
  • 指定device,此处以device 0为例:

    asys diagnose -d=0 -r=stress_detect +--------------------+------------------------+ | Device ID: 0 | Diagnostic Result | +====================+========================+ +--- Performance ----+------------------------+ | Stress Detect | Pass | +--------------------+------------------------+ asys diagnose -d=0 -r=hbm_detect +------------------------+------------------------+ | Device ID: 0 | Diagnostic Result | +========================+========================+ +--- Hardware -----------+------------------------+ | HBM Detect | Pass(9) | +------------------------+------------------------+ asys diagnose -d=0 -r=cpu_detect +------------------------+------------------------+ | Device ID: 0 | Diagnostic Result | +========================+========================+ +--- Hardware -----------+------------------------+ | CPU Detect | Pass | +------------------------+------------------------+

【免费下载链接】oam-tools本项目为开发者提供故障定位工具,包含故障信息收集,软硬件信息展示,AI core error报错分析等能力,提升故障问题定位效率,文档可在昇腾社区搜索“故障处理简介”(选择社区版)。项目地址: https://gitcode.com/cann/oam-tools

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/19 6:34:09

oam-tools msproftx数据采集

采集msproftx数据 【免费下载链接】oam-tools 本项目为开发者提供故障定位工具,包含故障信息收集,软硬件信息展示,AI core error报错分析等能力,提升故障问题定位效率,文档可在昇腾社区搜索“故障处理简介”&#xff0…

作者头像 李华
网站建设 2026/6/19 6:18:45

TC642 PWM风扇控制器选型、封装与PCB布局实战指南

1. 项目概述:为什么需要一份TC642的专属指南?在嵌入式系统、工控板卡或者高性能计算设备的散热设计中,PWM风扇控制器几乎是“标配”。它负责将来自MCU的微弱PWM信号,转换成功率足够的驱动信号,去精准控制一个甚至多个风…

作者头像 李华
网站建设 2026/6/19 6:17:12

2025_NIPS_Effectively Learning Initiation Sets in Hierarchical Reinforcement Learning

一、文章主要内容总结 该研究聚焦于分层强化学习(HRL)中启动集(Initiation Sets)的有效学习问题。启动集是指选项(Option)可执行的状态集合,其学习质量直接影响HRL智能体的任务性能,但传统方法因存在数据非平稳性、时间信用分配困难和悲观偏差三大核心问题,导致启动集…

作者头像 李华
网站建设 2026/6/19 6:16:12

1.顺序表

数据结构-基础篇-顺序表带入主题1线性表及其实现方式1.1线性表1.2顺序表和链表2顺序表(动态和静态)2.1静态顺序表2.2动态顺序表3代码实现(贪吃蛇方式)3.1从哪开始呢3.2 初始化3.3 销毁3.4 插入3.4.1 前面插入3.4.2 尾插3.5 删除3.…

作者头像 李华
网站建设 2026/6/19 6:15:19

mcp-blog MCP 服务说明文档

1. 服务概述 一句话简介:博客管理API的MCP服务器,提供通过Claude Code预览、发布、列出和删除博客文章的工具。 服务名称:mcp-blog版本号:1.0.0开发者/提供方:MasatoshiSano协议类型:MCP (Model Context …

作者头像 李华
网站建设 2026/6/19 6:06:14

微信多号管理太崩溃?一个界面聚合聊天,效率翻10倍!

一个微信号已经够忙了,十几个、上百个号同时管理,简直就像在打仗——但武器却还是冷兵器。 今天,就为大家带来一套真正为“多号管理”而生的解决方案——个微管理系统。它让微信管理不再是一团乱麻,而是像操作一个聊天软件一样简…

作者头像 李华