库存补货建议生成系统-编程实验室

库存补货建议生成系统：基于 ms-swift 的大模型工程化实践

在零售与供应链领域，一个看似简单的问题——“今天该不该补货？补多少？”——背后却隐藏着巨大的复杂性。天气突变、促销活动、节假日消费潮、区域偏好差异……这些因素交织在一起，让传统的基于历史均值或固定阈值的补货规则频频失效。运营人员常常陷入两难：补少了断货影响销售，补多了又积压库存、增加仓储成本。

有没有一种方式，能让系统像经验丰富的采购经理一样，综合判断多重因素，给出既精准又可解释的补货建议？近年来，随着大语言模型（LLM）在上下文理解与推理能力上的突破，这一设想正逐步成为现实。而真正将模型能力转化为可用系统的，往往是那些不那么“炫酷”但极其关键的工程框架——比如ms-swift。

它不是最出名的大模型，也不是参数最多的那个，但它可能是目前最适合把大模型“落地到业务流程里”的工具之一。

以我们构建的智能库存补货建议系统为例，整个技术路径并不是简单地“用Qwen3-7B写一段补货建议”，而是围绕“如何让AI做出可信、高效、可持续优化的决策”展开的一整套工程设计。在这个过程中，ms-swift 扮演了核心支撑角色，从训练、微调、对齐到部署，几乎贯穿全链路。

先看一个典型场景：北京某连锁便利店希望为旗下200家门店自动生成下周冷饮类商品的补货建议。输入包括过去两周的日销量、当前库存、天气预报、周边竞品门店动态、是否临近周末等信息。输出不仅要给出“建议补货量”，还要附带理由，例如：“因未来一周气温将上升至35°C以上，预计冷饮需求增长30%，建议A店补货120箱。”

这样的任务，仅靠传统机器学习很难处理非结构化的外部信号（如天气趋势描述），也无法自然生成人类可读的解释文本。而纯生成式大模型虽然能“写出来”，但如果未经针对性训练，其建议可能脱离实际、甚至违反业务约束。

于是，我们的方案没有选择“一个模型打天下”，而是采用分层架构：

Embedding 模型先把所有商品、门店、时间窗口编码成向量；
利用向量数据库做初步召回，找出“可能需要补货的商品候选集”；
再由Reranker 模型对候选建议进行精细化打分排序；
最终交由微调后的生成模型输出结构化建议和解释文本；
整个过程还引入了人类反馈数据，通过偏好学习不断校准模型输出。

这套流程听起来复杂，但如果每个环节都要从头搭建训练 pipeline，开发周期可能长达数月。而借助 ms-swift，我们只用了不到三周时间就完成了原型构建，并在一个GPU节点上跑通全流程。

为什么能做到这么快？

首先，ms-swift 对主流模型的支持几乎是“开箱即用”。无论是 Qwen3、Llama4 还是多模态的 Qwen-VL，都已经完成了参数映射、tokenizer 适配和训练脚本封装。你不需要再花几天时间去调试 Hugging Face 模型加载失败的问题。更别说它还内置了超过150个数据集模板，我们只需定义好字段映射关系，stock_replenishment_v1数据集就能直接接入训练流程。

其次，在资源受限的情况下，轻量微调成了关键。我们最终选择了QLoRA方案，在单张 A10G（24GB）显卡上完成了 Qwen3-7B 的指令微调。这在以前几乎是不可想象的——7B 模型全参微调通常需要8张A100起步。而通过 LoRA 低秩适配 + 4-bit 量化 + 梯度检查点，显存占用被压缩到了9GB以内。

swift sft \ --model_type qwen3-7b \ --train_type qlora \ --dataset stock_replenishment_v1 \ --torch_dtype bfloat16 \ --max_length 8192 \ --lora_rank 64 \ --lora_alpha 16 \ --batch_size 1 \ --num_train_epochs 3 \ --learning_rate 2e-4 \ --use_flash_attn true \ --gradient_checkpointing true

这段命令看着简洁，背后却是多种前沿技术的集成：Flash Attention 2 加速长序列计算，Ulysses 和 Ring-Attention 支持超长上下文输入（>8k tokens），完全满足我们对两周销售序列建模的需求。更重要的是，整个训练过程稳定、可复现，没有出现常见的OOM或梯度爆炸问题。

当然，光会“生成”还不够。在真实业务中，我们需要确保建议的相关性和优先级。这就引出了两个常被忽视但至关重要的组件：Embedding 模型和Reranker 模型。

举个例子：当系统检测到某款矿泉水销量下滑时，是否应该触发补货提醒？如果只是孤立看这个商品，答案可能是“否”。但如果结合 Embedding 向量发现它与近期热销的功能饮料属于同一消费群体，且后者库存充足，则可以推测前者是暂时滞销而非需求消失，此时反而应保持补货节奏。

为此，我们使用 ms-swift 提供的专用训练模板，分别构建了：

一个 Sentence-BERT 风格的双塔模型用于商品向量化，支持 Faiss 实现毫秒级近似最近邻检索；
一个 Cross-Encoder 结构的 Reranker 模型，对(query, candidate)对进行细粒度打分。

from swift import Swift config = { "model_type": "qwen3-reranker-base", "task_type": "ranking", "train_dataset": "replenishment_ranking_v2", "loss_type": "contrastive", "max_length": 2048, "per_device_train_batch_size": 4, "num_train_epochs": 2, "learning_rate": 1e-5, "warmup_ratio": 0.1, "eval_steps": 100, } trainer = Swift(config) trainer.train()

这个 Reranker 训练任务的核心在于构造高质量的正负样本。我们将运营人员采纳的建议作为正例，系统曾推荐但被拒绝的作为负例，配合对比学习损失函数（InfoNCE），显著提升了排序效果。训练完成后，模型导出为 ONNX 格式，通过 vLLM 批处理引擎提供高并发服务，P99 延迟控制在 400ms 以内。

面对更大规模的场景，比如全国上千个仓库、百万级SKU的协同调度，单一模型显然力不从心。这时候，分布式训练和 MoE 架构的价值就凸显出来了。

ms-swift 对 Megatron、DeepSpeed、FSDP 等后端的统一抽象，让我们可以灵活选择并行策略。在测试环境中，我们尝试了 TP=4 + PP=2 的组合，成功将千问系列大模型的训练速度提升3倍以上。而对于稀疏激活的 MoE 模型，框架原生支持 Expert Tensor Parallelism（ETP）和 Expert Parallelism（EP），使得每个 token 只激活 Top-2 专家的情况下，整体吞吐提升接近10倍。

不过也要注意，高并行度带来的通信开销不容忽视。我们在实测中发现，若 GPU 间仅通过 PCIe 互联，TP 超过4时通信将成为瓶颈。因此建议搭配 NVLink + InfiniBand 组网，尤其是在跨节点部署时。此外，MoE 中的负载均衡问题也需要关注——门控网络若分配不均，会导致部分专家过载。我们通过引入辅助平衡损失（load balancing loss），有效缓解了这一现象。

回到业务本身，真正的挑战从来不只是“能不能跑起来”，而是“能不能持续用下去”。

为此，我们在系统设计中加入了几个关键机制：