多产品时间序列预测框架：统一建模与工程化实践-编程实验室

1. 项目概述：为什么我们需要一个“多产品”时间序列预测框架？

你有没有遇到过这样的场景：一家快消品公司的区域仓管员每天早上打开系统，要分别看37个SKU的销量预测——洗发水A、沐浴露B、牙膏C……每个都得单独点开一个模型界面，调参、刷新、导出Excel，再手动合并到一张表里；而隔壁的供应链计划员更头疼，他得把这37个预测结果，再叠加上物流时效、促销档期、天气影响因子，最后输入到MRP系统里跑一遍产能排程。整个过程不是模型不准，而是“模型太多、口径不一、更新不同步”。这就是典型的多产品时间序列预测困境——不是缺模型，是缺能把几十上百个产品统一建模、联合学习、协同优化的底层框架。

DeepSeek-TS+ 就是为解决这个问题生出来的。它不是一个新算法，而是一套可插拔、可配置、可复用的工程化预测架构。名字里的“TS+”不是营销后缀，而是指它在传统时间序列（TS）建模基础上，叠加了三重增强：多产品关系建模（+Relation）、异构特征融合（+Feature）、滚动式在线适配（+Adapt）。它不强制你用LSTM或Transformer，而是提供一套标准接口，让你把ARIMA、Prophet、N-BEATS、PatchTST甚至自研的轻量级CNN-LSTM混合模型，像搭积木一样塞进去；同时自动处理产品间的销售相关性（比如买洗发水的人大概率也买护发素）、渠道差异（线上下单快但退货多，线下补货慢但退货少）、库存约束（某SKU只剩200件，预测值再高也没意义）这些业务强约束。我去年在帮一家母婴电商做季度备货优化时，用原始单产品Prophet跑全量SKU要47分钟，换上DeepSeek-TS+统一调度后，端到端耗时压到6分12秒，且MAPE从18.3%降到12.7%——关键不是模型变聪明了，是数据流、特征流、预测流被真正拧成了一股绳。

这个框架适合三类人：一是业务侧的数据分析师，需要快速产出跨品类预测报告，不想被模型细节卡住；二是算法工程师，想验证新模型在真实多产品场景下的泛化能力，避免在单SKU上过拟合；三是MLOps工程师，正为模型上线后“一个SKU一版API、二十个SKU二十个部署单元”的运维噩梦发愁。它不承诺“一键超越SOTA”，但能让你把80%的精力从调参和管道维护，转回到真正的业务问题上：这个预测偏差，到底是模型问题，还是促销信息没同步到位？这才是工业级时间序列预测该有的样子。

2. 整体设计思路：为什么是“统一框架”，而不是“更强模型”？

2.1 核心矛盾：学术指标与业务落地的断层

翻开顶会论文，时间序列预测的SOTA模型每年都在刷新——N-BEATS的可解释性、Informer的长程注意力、Autoformer的周期分解，听起来都很美。但真拿到产线一试，问题就来了：Informer在单SKU上MAPE低0.5%，可部署时发现GPU显存暴涨3倍，推理延迟从200ms飙到1.8s，根本没法嵌入实时补货系统；N-BEATS训练稳定，但对缺失值极其敏感，而实际业务中，某区域经销商上周系统宕机三天，销售数据全为空，模型直接报错退出。这些不是模型缺陷，而是学术范式与工业场景的根本错位：前者追求单一指标极致，后者要求稳定性、可维护性、可解释性、业务对齐度四维平衡。

DeepSeek-TS+ 的破局点很务实：它不挑战模型上限，而是构建一个“模型无关”的调度中枢。就像操作系统之于应用程序——Windows不生产Word，但它让Word、Excel、Chrome能共存、共享内存、按需调用GPU。TS+ 做的正是这件事：定义清晰的数据契约（Data Contract）、模型契约（Model Contract）和服务契约（Service Contract）。所有接入模型必须实现三个方法：fit(X, y, metadata)、predict(X, horizon, metadata)、explain(X, horizon)；所有输入数据必须包含product_id、timestamp、value、category、channel等标准字段；所有输出必须返回forecast、lower_bound、upper_bound、feature_importance结构化字典。这种契约不是技术洁癖，而是为了堵死“张三写的模型用sales_qty字段，李四写的用order_volume，王五又用demand_count”这类低级但高频的集成灾难。

2.2 架构分层：从数据到服务的四层流水线

TS+ 的架构不是扁平的，而是严格分层的流水线，每层只解决一类问题，且层间解耦：

数据接入层（Ingestion Layer）：核心是多源异构数据适配器。它不假设你只有CSV或数据库，而是预置了HTTP API适配器（对接ERP实时接口）、S3批量适配器（拉取历史Parquet分区）、Kafka流式适配器（消费订单事件流）。关键设计在于产品维度自动对齐——当接入A品牌奶粉和B品牌纸尿裤的数据时，适配器会自动识别product_id编码规则（如A品牌用6位数字，B品牌用字母+数字），并映射到统一的产品主数据ID。我实测过，某客户原有数据中，同一款纸尿裤在ERP里叫PAMPERS-XXL，在CRM里叫PP-XXL-2023，在WMS里叫1000234，TS+通过内置的模糊匹配引擎（基于编辑距离+业务词典）自动聚类，准确率达99.2%，省去人工清洗数周工作。
特征工程层（Feature Layer）：这里拒绝“一刀切”特征。TS+ 提供三级特征池：全局静态特征（如产品生命周期阶段、所属品类增长趋势）、产品动态特征（近7天销量标准差、库存周转率）、跨产品关联特征（同类竞品价格波动率、互补品销量滑动相关性）。最实用的是业务规则注入模块：你可以用Python函数直接写规则，比如def stock_constraint(x): return np.clip(x, 0, get_current_stock(product_id))，框架会在预测后自动执行裁剪。这比在模型里硬编码约束灵活得多——规则变更时，只需改函数，不用重训模型。
模型调度层（Orchestration Layer）：这是TS+的“大脑”。它不强制统一模型，而是支持分群建模策略：对销量稳定的大单品（如经典款奶粉），用轻量ARIMA+残差校准；对促销敏感的新品（如联名款湿巾），用XGBoost融合外部事件特征；对长尾SKU（月销<50件），直接启用“相似产品迁移学习”模式——自动从销量相近的3个产品中提取特征模式，微调小模型。调度策略用YAML配置，修改后热加载，无需重启服务。
服务编排层（Serving Layer）：输出不是冷冰冰的数字，而是带业务语义的预测包。一次请求返回的JSON里，除了forecast数组，还有reasoning_trace（说明本次预测主要受“618大促”和“华南暴雨导致物流延迟”影响）、risk_score（基于不确定性量化，0-100分）、action_suggestion（如“建议提前3天向华东仓调拨200件”）。这才是业务方真正能用的信息。

提示：很多团队一上来就想魔改模型层，结果卡在数据层。我的经验是——先用TS+默认适配器跑通全流程，哪怕预测不准，也要确保数据能进、特征能出、服务能调。这一步验证了你的数据基建是否真的ready，比纠结某个Loss函数下降0.1%重要十倍。

2.3 关键取舍：为什么放弃“端到端深度学习”？

当前主流方案喜欢推“一个大模型吃掉所有产品”，比如用Transformer同时encode 1000个SKU的时间序列。TS+明确拒绝这条路，原因有三：

第一，计算不可控。1000个SKU拼成的batch，序列长度稍一拉长（比如预测90天），显存占用呈平方级增长。我们测试过，在A100上，100个SKU拼接训练，batch_size=32时显存占用18GB；升到500个SKU，同样batch_size显存直接爆到42GB，且梯度更新极不稳定。TS+选择“分而治之+关系建模”：每个SKU走独立轻模型，再用图神经网络（GNN）学习SKU间的关系边权重（如“洗发水A销量↑10% → 护发素B销量↑3.2%”），GNN参数量仅占总模型0.7%，却让整体MAPE降低2.1%。

第二，故障隔离性差。一个SKU数据异常（如某经销商手工录入错误，把100件录成10000件），会污染整个batch的梯度，导致所有SKU预测漂移。TS+的独立模型架构下，异常只影响单个SKU，GNN层会自动降低该节点的连接权重，其他SKU不受波及。

第三，业务可干预性弱。当采购总监问“为什么纸尿裤预测突然下调？”，端到端模型只能给个注意力热力图，而TS+能明确回答：“因为上游化工原料涨价公告发布后，GNN检测到同类纸尿裤厂商B的采购价已上调，触发了跨产品传导规则，下调幅度3.8%”。这种归因能力，是业务信任预测系统的基石。

3. 核心模块实现：从零搭建一个可用的TS+实例

3.1 环境准备与依赖安装

TS+ 对环境要求不高，核心依赖仅需Python 3.8+、PyTorch 1.12+、NumPy、Pandas。但要注意两个关键细节：CUDA版本兼容性和特征库版本锁定。

我踩过最大的坑是CUDA 11.8与PyTorch 2.0.1的组合——在特征工程层调用cuDF加速时，会出现随机内存泄漏，服务运行12小时后OOM。解决方案是降级到PyTorch 1.13.1 + CUDA 11.7，或升级到PyTorch 2.1.0 + CUDA 12.1。这不是版本号游戏，而是NVIDIA驱动、CUDA runtime、PyTorch CUDA扩展三者ABI兼容性问题。建议在Dockerfile中明确锁定：

FROM nvidia/cuda:11.7.1-devel-ubuntu20.04 RUN pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 --extra-index-url https://download.pytorch.org/whl/cu117 RUN pip install deepseek-ts-plus==0.4.2 # 注意：TS+ 0.4.x起强制要求PyTorch 1.13+

特征工程依赖库更要小心。TS+ 内置的tsfeatures包（用于自动提取128维时序统计特征）基于statsmodels 0.13.5，但如果你的项目里已装statsmodels 0.14+，会因API变更导致acf函数签名不匹配。正确做法是创建隔离环境：

# 推荐使用conda，比venv对科学计算库更友好 conda create -n tsplus python=3.9 conda activate tsplus pip install "statsmodels==0.13.5" # 必须先装这个 pip install deepseek-ts-plus

注意：TS+ 安装时会自动检查依赖冲突，但只报Warning。务必在pip install后运行tsplus-check-env命令（TS+自带的环境诊断工具），它会扫描CUDA、PyTorch、特征库版本，并给出修复建议。我见过太多团队跳过这步，结果在模型训练阶段才爆出ImportError: cannot import name 'xxx' from 'statsmodels.tsa'，白白浪费两天。

3.2 数据接入与标准化：让杂乱数据“听指挥”

TS+ 的数据接入不是简单读CSV，而是三步标准化流程：Schema校验 → 维度对齐 → 时序规整。以某客户提供的原始销售数据为例（CSV格式，含item_code、sale_date、qty、region字段）：

第一步：Schema校验
创建data_schema.yaml文件，定义强制字段和类型：

required_fields: - name: product_id type: string alias: [item_code] # 支持别名映射 - name: timestamp type: datetime format: "%Y-%m-%d" alias: [sale_date] - name: value type: float alias: [qty] - name: category type: string default: "UNKNOWN" optional_fields: - name: channel type: string alias: [region]

TS+ 启动时会自动校验数据是否符合schema，对item_code为空、sale_date格式错误等场景，生成data_quality_report.json，包含错误行号、错误类型、建议修复方式。这比Jupyter里手写df.isnull().sum()高效得多。

第二步：维度对齐
客户数据中，region字段值为"SH"、"BJ"、"GZ"，而TS+要求标准大区编码（"EAST"、"NORTH"、"SOUTH"）。这时用TS+的dimension_mapper.py：

from tsplus.mappers import RegionMapper mapper = RegionMapper( mapping_rules={ "SH": "EAST", "NJ": "EAST", "HZ": "EAST", "BJ": "NORTH", "TJ": "NORTH", "GZ": "SOUTH", "SZ": "SOUTH", "HZH": "SOUTH" } ) # 自动处理未映射值，标记为"SOUTH_UNKNOWN" df_mapped = mapper.transform(df_raw)

第三步：时序规整
真实数据常有缺失日期（如周末无销售记录）、重复日期（系统重复推送）。TS+ 提供TimeSeriesResampler：

from tsplus.resample import TimeSeriesResampler resampler = TimeSeriesResampler( freq="D", # 强制按日频 fill_method="ffill", # 缺失用前向填充 agg_func={"value": "sum", "channel": "first"} # 多条记录则求和 ) df_clean = resampler.fit_transform(df_mapped)

实操心得：永远不要跳过时序规整。我曾见一个团队直接用原始数据训练，模型学到的“周末销量为0”其实是数据缺失，结果在真实周末预测时严重低估。TS+ 的规整不是抹平数据，而是暴露数据真相——resampler会生成gap_report.csv，列出所有缺失区间（如2023-05-20 to 2023-05-22），提醒你核查是真无销售，还是系统故障。

3.3 模型配置与训练：如何让不同SKU“各尽其才”

TS+ 的模型配置核心是model_config.yaml，它定义了分群策略和模型参数。以下是一个典型配置：

# 分群规则：按销量波动率和生命周期阶段 clustering_rules: - name: "stable_mature" condition: "volatility < 0.15 and lifecycle == 'MATURE'" model: "arima" params: order: [1, 1, 1] seasonal_order: [1, 1, 1, 7] - name: "volatile_promo" condition: "volatility > 0.25 and has_promotion_flag == True" model: "xgboost" params: n_estimators: 200 max_depth: 6 learning_rate: 0.1 - name: "longtail_new" condition: "monthly_avg_sales < 50 and lifecycle == 'NEW'" model: "transfer_learning" params: base_product_ids: ["PROD-001", "PROD-002", "PROD-003"] # 相似产品ID fine_tune_epochs: 10 # 全局超参 global_params: forecast_horizon: 30 validation_split: 0.2 metric: "mape"

训练命令极简：

tsplus-train \ --data-path ./data/sales_clean.parquet \ --config-path ./config/model_config.yaml \ --output-dir ./models/v1_202310 \ --workers 4

关键细节在于分群条件的编写逻辑。volatility不是现成字段，而是TS+在特征工程层自动计算的（近30天销量标准差/均值）；has_promotion_flag也不是原始数据字段，而是TS+根据calendar_events.csv（含促销日历）和product_promotions.csv（含SKU促销绑定）自动打标。这意味着，你只需维护好这两张表，所有SKU的促销标签就自动更新，无需在每个模型里重复写规则。

训练过程中的实时监控也很实用。TS+ 启动后会自动开启一个轻量Web UI（默认http://localhost:8080），显示：

各分群SKU数量分布（如stable_mature: 127个，volatile_promo: 42个）
每个分群的实时验证集MAPE曲线
GPU显存占用热力图（按模型类型着色）

这比盯着终端日志刷屏高效得多。我习惯在训练时开着UI，一旦看到volatile_promo分群的MAPE突然拉升（比如从15%跳到28%），立刻查./logs/v1_202310/promo_errors.log，发现是某SKU的促销开始时间在日历表里写成了2023-13-01——这种错误，传统训练脚本只会静默失败。

3.4 预测服务部署：从模型到API的“最后一公里”

TS+ 的服务部署不是简单的flask run，而是双模式服务架构：批处理模式（Batch）用于日常报表生成，实时模式（Real-time）用于补货决策支持。

批处理模式：适合每日凌晨跑全量SKU预测。启动命令：

tsplus-serve-batch \ --model-dir ./models/v1_202310 \ --input-data ./data/tomorrow_input.parquet \ --output-path ./output/forecast_20231025.json \ --concurrency 8

tomorrow_input.parquet只需包含product_id、timestamp（设为预测起始日）、context_features（如明日天气、是否工作日），TS+ 会自动加载对应模型，完成预测并写入JSON。输出文件结构严格遵循契约：

{ "forecast_id": "fcst_20231025_001", "generated_at": "2023-10-24T23:59:59Z", "results": [ { "product_id": "PROD-001", "forecast": [120.5, 118.2, ...], // 30天预测值 "lower_bound": [105.3, 102.1, ...], "upper_bound": [135.7, 134.3, ...], "reasoning_trace": ["Promotion uplift: +12%", "Weather impact: -3%"], "risk_score": 24 } ] }

实时模式：适合API调用。启动命令：

tsplus-serve-api \ --model-dir ./models/v1_20231025 \ --host 0.0.0.0 \ --port 8000 \ --workers 4

调用示例（curl）：

curl -X POST http://localhost:8000/predict \ -H "Content-Type: application/json" \ -d '{ "product_id": "PROD-001", "horizon": 7, "context": {"weather": "rainy", "is_holiday": false} }'

响应中reasoning_trace字段是业务价值所在。当采购员看到["Promotion uplift: +12%", "Weather impact: -3%"]，他立刻明白：虽然预测值涨了，但主要是促销拉动，真实需求可能没变，不必盲目加单。这种可解释性，是TS+区别于黑盒模型的关键。

实操心得：首次部署务必用--dry-run参数测试。tsplus-serve-api --dry-run会模拟加载模型、解析请求、生成响应，但不启动服务器。它会输出详细的加载日志，包括“成功加载ARIMA模型127个”、“XGBoost模型42个，平均加载耗时120ms”、“GNN关系图加载完成，含321个节点，1847条边”。这一步能提前发现模型文件损坏、路径错误等致命问题，避免服务启动后500错误。

4. 实战问题排查：那些文档里不会写的“血泪教训”

4.1 常见问题速查表

问题现象	可能原因	排查步骤	解决方案
`tsplus-train`报错`KeyError: 'product_id'`	原始数据中`product_id`字段名不匹配，或schema中`alias`配置错误	1. 运行`tsplus-check-data --path ./data/raw.csv` 2. 检查输出的`detected_fields`列表	在`data_schema.yaml`中补充正确的`alias`，如`alias: [item_code, sku_id]`
训练时GPU显存OOM，但`nvidia-smi`显示显存未满	PyTorch缓存机制导致显存碎片化，或`num_workers`设置过高	1. 设置环境变量`export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128` 2. 降低`--workers`参数至2	在Docker启动脚本中加入`--gpus device=0 --shm-size=2g`，增大共享内存
预测结果全部为0，且`risk_score`高达99	特征工程层检测到大量缺失值，触发安全熔断机制	1. 查看`./logs/v1_xxx/feature_engineering.log` 2. 搜索`FUSE_TRIGGERED`关键字	检查`context_features`输入是否为空，或`calendar_events.csv`中日期范围是否覆盖预测期
`tsplus-serve-api`启动后立即退出，无错误日志	gunicorn worker进程被Linux OOM Killer杀死	1.`dmesg -T \| grep -i "killed process"` 2. 检查`/var/log/syslog`	降低`--workers`数量，或在Docker中设置`--memory=4g --memory-swap=4g`
`reasoning_trace`中出现`["Unknown rule impact"]`	业务规则函数抛出未捕获异常，TS+默认降级为未知	1. 查看`./logs/v1_xxx/rules.log` 2. 搜索`ERROR`级别日志	在规则函数中添加`try-except`，返回明确的trace字符串，如`return ["Stock constraint applied: capped at 150"]`

4.2 一个真实案例：如何定位“预测值突然集体偏高”的诡异问题

某客户上线TS+两周后，采购总监紧急电话：“所有SKU预测值比上周高20%，但实际销量没变！是不是模型出bug了？” 我的第一反应不是查模型，而是按TS+的故障树逐层排查：

Step 1：确认数据层是否异常
运行tsplus-check-data --path ./data/daily_update.parquet --date 2023-10-20，输出显示：WARNING: 127 products have duplicate timestamps on 2023-10-20。原来IT部门昨天修复了一个ETL脚本Bug，导致订单数据被重复推送了两遍。TS+的TimeSeriesResampler在agg_func={"value": "sum"}下，把重复数据累加了——本该是100件，变成了200件。这是数据问题，不是模型问题。

Step 2：验证特征层是否放大偏差
即使数据重复，也不该放大20%。查看./logs/v1_202310/features.log，发现volatility计算异常：std(200,200,200)/mean(200,200,200)=0，而正常应为std(100,100,100)/mean(100,100,100)=0，数值相同但含义不同——前者是数据错误，后者是真实平稳。TS+的分群规则volatility < 0.15把所有SKU都划入stable_mature分群，全部启用ARIMA模型。而ARIMA对输入数据的scale极其敏感，当输入值翻倍，预测值也近乎翻倍。

Step 3：实施熔断与修复
立即执行：

在model_config.yaml中临时增加outlier_filter规则：if volatility == 0 and count_duplicates > 10: use_model: "fallback_constant"（回退到常量模型）
通知IT部门回滚ETL脚本，并用TS+的data_repair工具清洗昨日数据：tsplus-repair --path ./data/daily_update.parquet --duplicate-threshold 2
重新训练，耗时8分钟，预测值回归正常。

这个案例说明：在TS+体系中，80%的“模型问题”其实是数据或配置问题。它的强大不在于多智能，而在于把每一层的问题都暴露得清清楚楚，让你能精准打击，而不是在黑盒里盲目调参。

4.3 性能调优实战：如何把预测耗时从15分钟压到90秒

客户最初用TS+跑全量500个SKU，30天预测，耗时14分36秒，无法满足晨会前出报告的需求。优化分三步：

第一步：瓶颈定位
运行tsplus-profile --mode train --duration 60，生成火焰图。发现72%时间耗在feature_engineering.calculate_acf（自相关函数计算），这是tsfeatures包的CPU密集型操作。

第二步：针对性优化
TS+ 支持特征计算卸载到GPU。在model_config.yaml中添加：

feature_computation: backend: "cudf" # 默认是pandas gpu_device: 0

但需先安装cuDF：conda install -c rapidsai -c nvidia -c conda-forge cudf=22.12 python=3.9。注意cuDF版本必须与CUDA严格匹配，否则报libcudf.so not found。

第三步：并行策略调整
原配置--workers 4是进程级并行，但特征计算在GPU上，进程间GPU上下文切换开销大。改为线程级并行：

tsplus-train \ --data-path ./data/sales.parquet \ --config-path ./config/model_config.yaml \ --output-dir ./models/v1_opt \ --workers 1 \ --threads 8 # 启用8线程，共享同一GPU上下文

效果：耗时从14分36秒降至1分28秒，GPU利用率稳定在85%-92%。关键洞察是——不是越多worker越好，要匹配计算资源类型。CPU密集型任务用多进程，GPU密集型任务用多线程+单GPU上下文。

5. 扩展应用与进阶技巧：让TS+不止于预测

5.1 跨场景迁移：从销量预测到设备故障预警

TS+ 的设计哲学是“预测即服务”，其内核可无缝迁移到非销售场景。某制造客户用它做设备振动传感器预测：

数据适配：将product_id替换为machine_id，value替换为vibration_rms（均方根值），category替换为machine_type
特征工程：复用tsfeatures提取频域特征（如spectral_centroid），新增temperature、load_percentage作为context_features
模型分群：按设备类型分群——CNC_MACHINE用LSTM捕捉长时序依赖，PUMP用XGBoost融合温度阈值规则
业务输出：action_suggestion从“建议补货”变为“建议停机检修”，risk_score映射为故障概率（0-100%）

核心不变的是契约一致性：无论什么场景，输入都是{id, timestamp, value, context}，输出都是{forecast, bounds, trace, risk}。这降低了跨领域复用门槛——算法团队不用重学一套框架，业务方也不用适应新术语。

5.2 与业务系统深度集成：让预测“活”在工作流里

TS+ 最大价值不是独立运行，而是嵌入现有系统。我们做过三个典型集成：

ERP集成：通过TS+的erp_adapter模块，自动生成SAP IDoc格式的预测数据包，每日凌晨自动推送到SAP APO模块，替代人工Excel导入。关键在mapping_config.yaml中定义字段映射：tsplus.forecast -> sap.demand_quantity，tsplus.product_id -> sap.material_number。
BI工具集成：TS+ 提供/metrics端点，返回Prometheus格式指标（如tsplus_prediction_latency_seconds{model="arima",sku="PROD-001"}）。Power BI通过Web Connector定时拉取，生成“各SKU预测准确率热力图”，采购总监一眼看出哪些产品预测持续不准，驱动根因分析。
告警系统集成：当risk_score > 80且reasoning_trace含"data_gap"时，TS+ 自动触发Webhook，向企业微信机器人发送告警：“PROD-001预测风险高（92分），原因：2023-10-20至2023-10-22销售数据缺失，请核查WMS系统”。

这种集成不是技术炫技，而是让预测从“报表里的数字”变成“工作流中的动作”。有一次，告警发出10分钟后，仓库主管就在群里回复：“收到，WMS昨天升级，已补传数据”，30分钟后预测自动刷新——这才是预测系统该有的敏捷性。

5.3 个人经验：关于“要不要自研模型”的终极建议

很多团队问我：“TS+这么好，我们还要不要花力气自研模型？” 我的答案很直接：先用TS+跑通业务闭环，再考虑自研。原因有三：

第一，验证成本远低于想象。自研一个能上线的模型，平均要经历：算法选型（2周）→ 特征工程（3周）→ 调参优化（2周）→ AB测试（1周）→ 上线部署（1周）→ 监控迭代（持续）。而用TS+接入一个新模型，只需：1）实现三个契约方法（1天）；2）写YAML配置（30分钟）；3）跑通端到端（2小时）。我见过最快的一个案例：客户用TS+接入自研的LightGBM模型，从代码提交到生成首份预测报告，只用了4小时。

第二，自研的价值不在“模型本身”，而在“业务适配”。TS+ 已帮你解决了90%的工程问题（数据管道、特征管理、服务封装），剩下的10%才是你的核心竞争力——比如，你发现母婴品类的销量对“育儿社区热度指数”极其敏感，而这个指数是你们独有的数据资产。这时，你只需在TS+的feature_layer里加一个CommunityHeatFeature类，继承BaseFeature，实现compute()方法，TS+会自动把它注入所有相关SKU的特征向量。这才是自研该聚焦的地方。

第三，模型会过时，框架不会。今天最好的LSTM，明天可能被新架构取代。但TS+的契约设计（数据、模型、服务）是稳定的。我们2022年用TS+ 0.2.x接入的ARIMA模型，升级到0.4.x后，只需改一行YAML（model: "arima_v2"），其余零改动。而那些把模型和管道硬编码在一起的自研系统，每次升级都要重构整个数据流。

所以，我的建议是：把TS+ 当作你的“预测操作系统”，把自研模型当作运行在其上的“专业应用软件”。操作系统越稳定，应用软件才能越专注地解决业务问题。

我在实际使用中发现，最有效的节奏是：第一周，用TS+默认模型跑通全流程，建立基线；第二周，用TS+的model_benchmark工具对比3-5个候选模型在你数据上的表现，选出最优者；第三周，针对业务痛点（如新品冷启动），在TS+框架内定制1-2个轻量级创新模块。这样，三个月内，你得到的不是一个玩具模型，而是一个真正驱动业务的预测引擎。