news 2026/6/26 1:27:27

华为openUBMC/长江计算 BMC服务器日志分析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
华为openUBMC/长江计算 BMC服务器日志分析

BMC为长江计算的BMC产品,源自于华为设立的openUBMC


电源故障分析

先看AppDump/event下的current_event.txt
看到目前没有告警

System in health state.

说明告警已经消除了,看下历史告警sel.txt
发现历史有多次PSU1的故障告警,且每次都是持续70秒左右

66 |2026-06-24 00:09:32 |Critical |0x0300000E |Deasserted |The AC/DC input of PSU 1 is lost or out-of-range. 65 |2026-06-24 00:08:20 |Critical |0x0300000D |Asserted |The AC/DC input of PSU 1 is lost or out-of-range. 64 |2026-06-23 00:41:16 |Critical |0x0300000E |Deasserted |The AC/DC input of PSU 1 is lost or out-of-range. 63 |2026-06-23 00:40:03 |Critical |0x0300000D |Asserted |The AC/DC input of PSU 1 is lost or out-of-range. 40 |2026-06-12 04:06:39 |Critical |0x0300000E |Deasserted |The AC/DC input of PSU 1 is lost or out-of-range. 39 |2026-06-12 04:05:27 |Critical |0x0300000D |Asserted |The AC/DC input of PSU 1 is lost or out-of-range. 38 |2026-06-12 00:46:58 |Critical |0x0300000E |Deasserted |The AC/DC input of PSU 1 is lost or out-of-range. 37 |2026-06-12 00:45:44 |Critical |0x0300000D |Asserted |The AC/DC input of PSU 1 is lost or out-of-range.

到AppDump\power_mgmt的psu_info.txt看下当前PSU电压
一切OK

Slot | presence | Manufacturer | Type | SN | Version | Rated Power | InputMode | PartNum | DeviceName | Vin | Vout 1 | present | HUAWEI | PAC2000S12-B1 | xxxxxxxxxxxxxxxxxxxx | DC:111 PFC:111 | 2000 | AC | xxxxxxxx | PSU1 | 225.00 | 12.00 2 | present | HUAWEI | PAC2000S12-B1 | xxxxxxxxxxxxxxxxxxxx | DC:111 PFC:(QB)111 | 2000 | DC | xxxxxxxx | PSU2 | 270.00 | 12.00

看下告警时间电源情况AppDump\power_strategy下的power_statistics.csv
没办法精准采集到这个时间段

这个时候就要结合外部情况来判断了
比如问下客户,告警临近时间有没有人员在施工,或者机柜在倒换测试什么的
相邻设备有没有类似告警,因为告警提示的是lost or out-of-range并非fault/fail,并且每次都是告警70秒后自动恢复
不排除也有误告警的可能性存在
如果允许可以联系电源厂商进行深度分析
或者保险起见,直接更换电源模块与电源线


CPU高温告警

一样,先看当前告警
先看AppDump/event下的current_event.txt
看到目前没有告警

System in health state.

然后再看sel日志,发现cpu2有一个瞬时高温告警

ID |Generation Time |Severity |Event Code |Status |Event Description 66 |2026-06-20 22:29:04 |Major |0x00000004 |Deasserted |CPU 2(CpuBoard1 CPU2) temperature is too high and will be underclocked. 65 |2026-06-20 22:29:03 |Major |0x00000003 |Asserted |CPU 2(CpuBoard1 CPU2) temperature is too high and will be underclocked.

我们可以再去看下cpu的温度情况AppDump\sensor下的sensor_info.txt
目前的温度很正常,才40多,距离110的阈值差远了

sensor id | sensor name | value | unit | status | lnr | lc | lnc | unc | uc | unr | phys | nhys 0x42 | CPU1_Temp | 44.000 | degrees C | ok | na | na | na | 105.000 | 110.000 | na | 2.000 | 2.000 0x4b | CPU2_Temp | 42.000 | degrees C | ok | na | na | na | 105.000 | 110.000 | na | 2.000 | 2.000

但是我们发现一个不太正常的数据
这个PCIE5网卡(实际上是DPU智能网卡),温度高达91,距离阈值差9度
如果某个时刻负荷加大,或者周围环境的温度变高(比如有人施工打开了机柜门),就有可能出发告警

0x73 | PCIe5 INIC CPU_Temp | 91.000 | degrees C | ok | na | na | na | 100.000 | na | na | 2.000 | 2.000

所以很有可能和这个DPU卡有关
了解到这种服务器的业务都是跑在DPU卡上的,温度高属于正常
且只有一次瞬时告警,可以先观察,准备好备件,并让机房注意环境


说明

免责声明与版权声明

本文内容由个人发布,仅用于学习、技术研究与经验交流。

文中涉及的软件(包括正版及第三方版本)仅供测试与学习用途,不构成任何形式的分发、破解、商业使用或侵权行为的鼓励。若您需要长期使用或商业部署,请前往官方网站购买或获取正版授权。

作者不对任何软件的使用、修改、传播及由此产生的后果承担法律责任。读者应自行判断、下载与使用软件,并遵守所在地法律法规及相关许可协议。

部分内容参考或摘录自公开资料、官方文档或其他技术文章,均已尽可能注明原作者及来源链接。若原作者或版权方认为本文存在不当引用或侵权内容,请联系作者处理,作者将在核实后及时修改或删除相关内容。


知识共享许可声明

除特别说明外,本文中的原创文字、图片、图表及资料均依据:

CC BY-NC-SA 4.0(署名-非商业性使用-相同方式共享)

许可协议发布。

您可以在遵守本协议的前提下:

  • 复制、转载和分享本文内容;
  • 对本文内容进行修改、改编和二次创作;
  • 将本文内容用于个人学习、研究和非商业用途。

同时必须满足以下条件:

  • 保留原作者署名及原文链接;
  • 明确标注内容来源;
  • 不得将本文及其衍生作品用于任何商业用途;
  • 基于本文进行修改、改编或再创作的作品,必须继续采用相同协议进行发布。

特别声明

未经作者书面授权,禁止以下行为:

  • 将本文原创内容用于商业培训、付费课程、付费社群、收费咨询等商业活动;
  • 将本文原创内容转载至以盈利为目的的网站、平台、出版物或知识付费平台;
  • 将本文原创内容批量采集、镜像、聚合或作为数据库内容进行商业运营;
  • 将本文原创内容用于人工智能模型训练、知识库构建、数据集整理或其他商业化用途;
  • 删除、修改或隐藏原作者署名、原文链接及版权声明。

对于违反上述声明的行为,作者保留依法追究相关责任的权利。


AI 辅助生成声明

本文部分内容在撰写、整理、润色或结构优化过程中使用了 AI 工具进行辅助生成。

AI 生成内容仅作为写作辅助参考,最终内容已由作者进行人工审阅、修改、校对与确认。本文观点、技术步骤、命令示例及相关说明均以作者最终发布版本为准。

读者在参考本文内容进行实际操作前,应结合自身环境进行验证,作者不因 AI 辅助生成内容可能存在的遗漏、错误或不适用情况承担额外责任。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/26 1:26:33

2026优质EMBA客观测评:高管科学择校选型指南

一、引言:EMBA择校行业痛点与测评初衷随着企业数字化转型、跨境出海需求激增,职场高管、企业创始人对EMBA深造的需求持续攀升。当前国内及港澳EMBA项目数量繁多,涵盖内地联考项目、港澳国际化项目、海外合作项目等多种类型,市场信…

作者头像 李华
网站建设 2026/6/26 1:25:12

MCP服务器:AI与外部工具安全交互的协议中枢

1. 项目概述:MCP服务器到底是什么,它解决了什么真实问题?你有没有过这种体验:花大价钱部署了一套AI推理服务,模型参数量拉满,显存堆到顶,结果一跑实际任务就卡壳?不是返回空结果&…

作者头像 李华
网站建设 2026/6/26 1:24:43

csdn怎么获取c币

CSDN获取C币主要分为‌免费任务获取‌和‌付费充值‌两类正规渠道,具体方法如下:一、免费任务获取 基础新手任务‌:完善个人资料可获得5个C币,首次绑定手机可获得5个C币。 内容创作类‌:撰写博文,单篇阅读每…

作者头像 李华
网站建设 2026/6/26 1:23:12

嵌入式测试学习第 43 天:变频冰箱主板嵌入式FCT整机测试

变频冰箱主控板嵌入式FCT整机测试拆解项目基础信息产品规格一、企业变频冰箱主板6阶段标准化测试流水线(研发产线双流程)(一)研发实验室完整6阶段流程(二)产线在线FCT工位简化流程(批量生产&…

作者头像 李华
网站建设 2026/6/26 1:21:10

安卓设备底层结构详解 + ADB完整使用教程(零基础入门)

一、前言很多开发者、测试人员、刷机爱好者每天都在使用ADB工具,但绝大多数人只停留在“会敲命令”的层面,完全不了解两个核心底层问题:1、ADB为什么能操控安卓手机?它的工作原理是什么?2、我们刷机能清数据、卡刷、线…

作者头像 李华
网站建设 2026/6/26 1:20:58

银行卡识别系统:通过图像预处理、目标检测、文本识别和结果校验等技术闭环,实现对银行卡号、发卡行等关键信息的精准提取

在数字金融高速普及的当下,银行卡信息采集、录入、核验是移动支付、金融开户、政企结算等众多场景的基础核心环节。传统人工录入模式效率低下、误差率高、人力成本高昂,已无法适配数字化、智能化的行业发展需求。一种基于AI深度学习的高精度银行卡识别系…

作者头像 李华