news 2026/5/10 7:51:03

CANN/hixl LLM-DataDist错误码

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/hixl LLM-DataDist错误码

LLM-DataDist错误码

【免费下载链接】hixlHIXL(Huawei Xfer Library)是一个灵活、高效的昇腾单边通信库,面向集群场景提供简单、可靠、高效的点对点数据传输能力。项目地址: https://gitcode.com/cann/hixl

错误码是通过如下宏定义的。

namespace llm_datadist { constexpr Status LLM_SUCCESS = 0x0U; constexpr Status LLM_FAILED = 0xFFFFFFFFU; constexpr Status LLM_WAIT_PROC_TIMEOUT = 0x5010B001U; constexpr Status LLM_KV_CACHE_NOT_EXIST = 0x5010B002U; constexpr Status LLM_PARAM_INVALID = 0x5010B005U; constexpr Status LLM_NOT_YET_LINK = 0x5010B007U; constexpr Status LLM_ALREADY_LINK = 0x5010B008U; constexpr Status LLM_LINK_FAILED = 0x5010B009U; constexpr Status LLM_UNLINK_FAILED = 0x5010B00AU; constexpr Status LLM_NOTIFY_PROMPT_UNLINK_FAILED = 0x5010B00BU; constexpr Status LLM_CLUSTER_NUM_EXCEED_LIMIT = 0x5010B00CU; constexpr Status LLM_PROCESSING_LINK = 0x5010B00DU; constexpr Status LLM_DEVICE_OUT_OF_MEMORY = 0x5010B00EU; constexpr Status LLM_EXIST_LINK = 0x5010B018U; constexpr Status LLM_FEATURE_NOT_ENABLED = 0x5010B019U; constexpr Status LLM_TIMEOUT = 0x5010B01AU; constexpr Status LLM_LINK_BUSY = 0x5010B01BU; constexpr Status LLM_OUT_OF_MEMORY = 0x5010B01CU; } // namespace llm_datadist

具体错误码含义如下。

枚举值含义是否可恢复解决办法
LLM_SUCCESS成功
LLM_FAILED通用失败保留现场,获取Host/Device日志,并备份。
LLM_WAIT_PROC_TIMEOUT处理超时- 如果是PullKvCache、PullKvBlocks等传输相关接口报该错误,该链路不可恢复,需重新建链。
- 其他接口报该异常,加大超时时间并重试。
LLM_KV_CACHE_NOT_EXISTKV不存在- 检查cache_id是否正确。
- 检查是否Cache已经释放。
- 检查对应全量侧报错日志中的请求是否完成。
- 检查是否存在重复拉取。
LLM_PARAM_INVALID参数错误基于日志排查错误原因。
LLM_NOT_YET_LINK没有建链上层排查Decode与Prompt建链情况。
LLM_ALREADY_LINK重复建链上层排查Decode与Prompt建链情况。
LLM_LINK_FAILED建链失败LinkLlmClusters第二个返回值中有该错误码时,需要检查对应集群之间的网络连接。
LLM_UNLINK_FAILED断链失败UnlinkLlmClusters第二个返回值中有该错误码时,需要检查对应集群之间的网络连接。
LLM_NOTIFY_PROMPT_UNLINK_FAILED通知Prompt侧断链失败1. 排查Decode与Prompt之间的网络连接。
2. 主动调Prompt侧的UnlinkLlmClusters接口清理残留资源。
LLM_CLUSTER_NUM_EXCEED_LIMIT集群数量超过限制检查LinkLlmClusters和UnlinkLlmClusters传入参数,clusters数量不能超过16。
LLM_PROCESSING_LINK正在处理建链当前正在执行建链或断链操作,请稍后再试。
LLM_DEVICE_OUT_OF_MEMORYDevice内存不足检查申请的内存是否没有释放。
LLM_EXIST_LINK设置角色时,存在未释放的链接检查在SetRole前是否已经调用UnlinkLlmClusters断开所有的链接。
LLM_FEATURE_NOT_ENABLED特性未使能检查初始化LLM-DataDist时是否传入了必要option。
检查是否调用了不支持的接口。
LLM_TIMEOUT处理超时保留现场,获取Host/Device日志,并备份。
LLM_LINK_BUSY链路忙预留错误码,暂不会返回。
LLM_OUT_OF_MEMORY内存不足检查内存池或系统内存是否充足。

【免费下载链接】hixlHIXL(Huawei Xfer Library)是一个灵活、高效的昇腾单边通信库,面向集群场景提供简单、可靠、高效的点对点数据传输能力。项目地址: https://gitcode.com/cann/hixl

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 7:51:02

基于GLM的端到端图文理解:从OCR到视觉问答的实践指南

1. 项目概述:当大语言模型“看懂”图片在AI应用遍地开花的今天,我们早已习惯了让模型“听懂”我们说话(语音识别)或“读懂”我们写的字(文本理解)。但一个更贴近人类直觉的需求是:如何让AI直接“…

作者头像 李华
网站建设 2026/5/10 7:47:13

3步搞定百度网盘高速下载:告别限速的Python解析方案

3步搞定百度网盘高速下载:告别限速的Python解析方案 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 还在为百度网盘下载速度慢而烦恼吗?baidu-wangpan-…

作者头像 李华
网站建设 2026/5/10 7:44:56

从零搭建现代化复合工程:ESLint、Jest与CI/CD全链路实践

1. 项目概述与核心价值最近在梳理一些工程化项目时,发现一个挺有意思的仓库:ybbms777/compound-engineering。光看这个名字,可能有点抽象——“复合工程”?这听起来不像是一个具体的工具或框架,更像是一种方法论或者最…

作者头像 李华
网站建设 2026/5/10 7:43:39

5个步骤彻底释放电脑隐藏性能:UXTU硬件调优完全指南

5个步骤彻底释放电脑隐藏性能:UXTU硬件调优完全指南 【免费下载链接】Universal-x86-Tuning-Utility Unlock the full potential of your Intel/AMD based device. 项目地址: https://gitcode.com/gh_mirrors/un/Universal-x86-Tuning-Utility 还在为电脑性能…

作者头像 李华
网站建设 2026/5/10 7:39:46

电磁屏蔽技术新挑战:阻抗泄漏与硬件安全防护

1. 电磁屏蔽与阻抗泄漏:硬件安全的新挑战在硬件安全领域,电磁屏蔽技术长期以来被视为保护敏感电子设备免受侧信道攻击的"银弹"。传统观点认为,通过使用铜、铝等导电材料构建屏蔽层,可以有效吸收或反射设备运行时产生的杂…

作者头像 李华
网站建设 2026/5/10 7:38:44

深蓝词库转换:你的终极输入法词库迁移解决方案

深蓝词库转换:你的终极输入法词库迁移解决方案 【免费下载链接】imewlconverter ”深蓝词库转换“ 一款开源免费的输入法词库转换程序 项目地址: https://gitcode.com/gh_mirrors/im/imewlconverter 你是否曾经因为更换输入法而烦恼?是否因为不同…

作者头像 李华