HeteroFlow V2：提供全自动化 GPU 推理服务，兼容 OpenAI API-编程实验室

推理服务

HeteroFlow V2 提供完整的 GPU 推理服务管理能力，支持从模型发现到 API 服务的全自动化流程。通过 TaskGroup 统一管理推理服务生命周期，内置 OpenAI 兼容网关，实现一键部署和调用。

系统架构

系统架构包含用户 / LLM 客户端（浏览器 / curl / OpenAI SDK）、HeteroFlow Server、PostgreSQL Storage 和 HeteroFlow Agent（per GPU Node）等部分。

用户 / LLM 客户端通过 Web UI (React + Vite) 或 OpenAI API 与 HeteroFlow Server 交互，HeteroFlow Server 包含 REST API、Gateway、Scheduler 和 Model Route 等组件，负责任务组 CRUD、伸缩策略、滚动更新、用户认证等职责。PostgreSQL Storage 存储任务组、任务、推理端点和模型路由等信息。HeteroFlow Agent 负责 Docker 容器生命周期、引擎路由、模型挂载等任务。

三层职责

系统分为 Server、Agent 和 Frontend 三层，各层组件有不同职责。

Server 层的组件包括 REST API、Gateway、Scheduler 和 ModelRoute，分别负责任务组 CRUD、OpenAI 兼容代理、GPU 感知调度和模型路由注册等。Agent 层的组件包括 Executor、Engine Router、Model Scanner 和 GPU Detection，负责 Docker 容器生命周期、引擎选择、本地模型发现和 GPU 检测等。Frontend 层的组件包括 InferenceList、InferenceCreateModal 和 InferenceControlPanel，负责服务列表展示、创建表单和 API Key 管理等。

核心概念

任务组 (TaskGroup)

任务组是推理服务的管理单元，包含一个或多个任务 (Task)。其状态机为 pending → scheduling → running ⇄ sleeping，还有 failed 和 completed 状态。任务组有 id、name、status 等多个字段。

任务 (Task)

任务是实际的执行单元，对应一个 Docker 容器。有 id、group_id、rank 等字段。

推理端点 (InferenceEndpoint)

对外暴露的 API 访问入口，有 id、name、task_group_id 等字段。

模型路由 (ModelRoute)

同一模型多版本/多引擎的路由规则，有 id、model_name、task_group_id 等字段。

支持的推理引擎

支持 vLLM、SGLang、llama.cpp、MINDIE、vLLM - MTT 和 Transformers 等推理引擎，不同引擎支持不同 GPU 类型，各有特点。

默认按 GPU 类型选择最优引擎，不同 GPU 类型有对应的优先级链。各引擎还有相应的启动参数。

创建推理服务

部署模式

前端选项有单卡、多卡 TP 和多卡 Split 等模式，不同模式有不同的 parallelism 值、GPU 标签和 world_size。并行策略对 GPU 分配有不同影响。

配置项详解

基本配置包括服务名称、Docker 镜像、启动命令等。API 访问配置启用后自动创建 InferenceEndpoint 和 API Key，可通过 OpenAI 兼容接口访问。路由配置包括流量权重、优先级、负载均衡和版本标签等。QoS 级别分为 Gold、Silver 和 Bronze，有不同的说明、GPU 分配和适用场景。健康检查有检查路径、检查间隔等字段。自动伸缩有最小副本数、最大副本数等配置。共调度有单卡最大模型数、预估显存占用等配置。

推理服务生命周期

创建流程

用户填写表单，前端校验后 POST /api/v1/task - groups，经过参数校验、计算 nodeCount 等步骤，Scheduler 拾取 Task 分配 GPU，Agent 启动容器。

调度流程

Scheduler 每秒查询 pending/scheduled 任务，经过 GPU 类型过滤、VRAM 感知过滤等步骤，CAS 状态更新，Agent 抢占后任务 running。

休眠/唤醒流程

运行中任务可自动休眠或手动唤醒。自动休眠时 Agent 检测空闲超时，调用 vLLM /sleep 或 docker pause，上报 sleeping 状态，Server 释放 GPU 占用计数。手动唤醒时用户点击唤醒按钮或 API 请求到达 Gateway，状态更新，调用 vLLM /wake_up 或 docker unpause，重新分配 GPU 资源。

滚动更新流程

有 rolling 和 recreate 两种策略。rolling 策略逐个替换任务，recreate 策略全量替换任务。

服务操作

服务操作包括休眠、唤醒、停止、重试、删除和扩缩等，各操作有对应的 API、显示条件和效果。

OpenAI 兼容 API

推理服务完全兼容 OpenAI API 格式，提供了 Chat Completions 和列举可用模型的 curl 示例，还有 Python SDK 的使用示例。

API 接口

任务组 API

任务组 API 包括 GET、POST、DELETE、PUT 等方法，对应不同的路径和说明。

任务 API

任务 API 包括 GET、POST 等方法，对应不同的路径和说明。

常见问题

推理服务一直 pending

可能原因有节点不在线、GPU 类型不匹配、GPU 显存不足和镜像拉取失败等，可通过相应方法排查。

GPU OOM

可使用更小的模型或量化版本、张量并行分布到多 GPU、减小上下文或降低 --gpu - memory - utilization 等方法解决。

推理速度慢

可确认 GPU 利用率、使用 vLLM、多副本部署 + 负载均衡或启用连续批处理等方法解决。

你对 HeteroFlow V2 的推理服务有什么看法呢？

HeteroFlow V2：提供全自动化 GPU 推理服务，兼容 OpenAI API