news 2026/5/23 23:18:42

HeteroFlow V2:提供全自动化 GPU 推理服务,兼容 OpenAI API

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
HeteroFlow V2:提供全自动化 GPU 推理服务,兼容 OpenAI API

推理服务

HeteroFlow V2 提供完整的 GPU 推理服务管理能力,支持从模型发现到 API 服务的全自动化流程。通过 TaskGroup 统一管理推理服务生命周期,内置 OpenAI 兼容网关,实现一键部署和调用。

系统架构

系统架构包含用户 / LLM 客户端(浏览器 / curl / OpenAI SDK)、HeteroFlow Server、PostgreSQL Storage 和 HeteroFlow Agent(per GPU Node)等部分。

用户 / LLM 客户端通过 Web UI (React + Vite) 或 OpenAI API 与 HeteroFlow Server 交互,HeteroFlow Server 包含 REST API、Gateway、Scheduler 和 Model Route 等组件,负责任务组 CRUD、伸缩策略、滚动更新、用户认证等职责。PostgreSQL Storage 存储任务组、任务、推理端点和模型路由等信息。HeteroFlow Agent 负责 Docker 容器生命周期、引擎路由、模型挂载等任务。

三层职责

系统分为 Server、Agent 和 Frontend 三层,各层组件有不同职责。

Server 层的组件包括 REST API、Gateway、Scheduler 和 ModelRoute,分别负责任务组 CRUD、OpenAI 兼容代理、GPU 感知调度和模型路由注册等。Agent 层的组件包括 Executor、Engine Router、Model Scanner 和 GPU Detection,负责 Docker 容器生命周期、引擎选择、本地模型发现和 GPU 检测等。Frontend 层的组件包括 InferenceList、InferenceCreateModal 和 InferenceControlPanel,负责服务列表展示、创建表单和 API Key 管理等。

核心概念

任务组 (TaskGroup)

任务组是推理服务的管理单元,包含一个或多个任务 (Task)。其状态机为 pending → scheduling → running ⇄ sleeping,还有 failed 和 completed 状态。任务组有 id、name、status 等多个字段。

任务 (Task)

任务是实际的执行单元,对应一个 Docker 容器。有 id、group_id、rank 等字段。

推理端点 (InferenceEndpoint)

对外暴露的 API 访问入口,有 id、name、task_group_id 等字段。

模型路由 (ModelRoute)

同一模型多版本/多引擎的路由规则,有 id、model_name、task_group_id 等字段。

支持的推理引擎

支持 vLLM、SGLang、llama.cpp、MINDIE、vLLM - MTT 和 Transformers 等推理引擎,不同引擎支持不同 GPU 类型,各有特点。

默认按 GPU 类型选择最优引擎,不同 GPU 类型有对应的优先级链。各引擎还有相应的启动参数。

创建推理服务

部署模式

前端选项有单卡、多卡 TP 和多卡 Split 等模式,不同模式有不同的 parallelism 值、GPU 标签和 world_size。并行策略对 GPU 分配有不同影响。

配置项详解

基本配置包括服务名称、Docker 镜像、启动命令等。API 访问配置启用后自动创建 InferenceEndpoint 和 API Key,可通过 OpenAI 兼容接口访问。路由配置包括流量权重、优先级、负载均衡和版本标签等。QoS 级别分为 Gold、Silver 和 Bronze,有不同的说明、GPU 分配和适用场景。健康检查有检查路径、检查间隔等字段。自动伸缩有最小副本数、最大副本数等配置。共调度有单卡最大模型数、预估显存占用等配置。

推理服务生命周期

创建流程

用户填写表单,前端校验后 POST /api/v1/task - groups,经过参数校验、计算 nodeCount 等步骤,Scheduler 拾取 Task 分配 GPU,Agent 启动容器。

调度流程

Scheduler 每秒查询 pending/scheduled 任务,经过 GPU 类型过滤、VRAM 感知过滤等步骤,CAS 状态更新,Agent 抢占后任务 running。

休眠/唤醒流程

运行中任务可自动休眠或手动唤醒。自动休眠时 Agent 检测空闲超时,调用 vLLM /sleep 或 docker pause,上报 sleeping 状态,Server 释放 GPU 占用计数。手动唤醒时用户点击唤醒按钮或 API 请求到达 Gateway,状态更新,调用 vLLM /wake_up 或 docker unpause,重新分配 GPU 资源。

滚动更新流程

有 rolling 和 recreate 两种策略。rolling 策略逐个替换任务,recreate 策略全量替换任务。

服务操作

服务操作包括休眠、唤醒、停止、重试、删除和扩缩等,各操作有对应的 API、显示条件和效果。

OpenAI 兼容 API

推理服务完全兼容 OpenAI API 格式,提供了 Chat Completions 和列举可用模型的 curl 示例,还有 Python SDK 的使用示例。

API 接口

任务组 API

任务组 API 包括 GET、POST、DELETE、PUT 等方法,对应不同的路径和说明。

任务 API

任务 API 包括 GET、POST 等方法,对应不同的路径和说明。

常见问题

推理服务一直 pending

可能原因有节点不在线、GPU 类型不匹配、GPU 显存不足和镜像拉取失败等,可通过相应方法排查。

GPU OOM

可使用更小的模型或量化版本、张量并行分布到多 GPU、减小上下文或降低 --gpu - memory - utilization 等方法解决。

推理速度慢

可确认 GPU 利用率、使用 vLLM、多副本部署 + 负载均衡或启用连续批处理等方法解决。

你对 HeteroFlow V2 的推理服务有什么看法呢?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/23 23:18:04

Burp Suite中文本地化工程体系:从术语翻译到安全工作流重构

1. 这不是简单的汉化包,而是一套面向实战的本地化工程体系“BurpSuiteCN”这个名字,乍一听像是某个爱好者做的界面翻译补丁——点开GitHub仓库,看到几十个中文菜单项、几段说明文字,很容易误判为“锦上添花”的小修小补。但我在连…

作者头像 李华
网站建设 2026/5/23 23:16:01

MoE混合专家架构:大模型的参数节能与算力精准调度

1. 这不是“参数越多越强”的简单故事:拆解大模型里那个被悄悄藏起来的“开关”你肯定见过这类标题:“GPT-4 参数量突破1.8万亿!”、“DeepSeek-R1 达到6710亿参数!”——光看数字,像在比谁家粮仓堆得更高。但真正懂行…

作者头像 李华
网站建设 2026/5/23 23:05:48

UE5手写HLSL实现高斯模糊:精准控制σ与采样策略

1. 这不是“调个参数就完事”的模糊——为什么UE5里手写HLSL才是高斯模糊的正解在UE5材质编辑器里拖几个“Blur”节点,调调Radius,预览框里画面立刻柔化——这确实是最快上手的方式。但上周我帮一个做影视级虚拟制片的团队优化镜头转场效果时&#xff0c…

作者头像 李华
网站建设 2026/5/23 23:05:01

Windows远程桌面CredSSP身份验证错误解决方案

1. 这个报错不是你的错,而是微软一次“安全补丁”引发的连锁反应你刚点开Windows远程桌面连接,输入IP、用户名、密码,一切看起来都很正常——直到弹出那个让人头皮一紧的红色错误框:“出现身份验证错误。要求的函数不受支持。”下…

作者头像 李华