基于KS距离度量交通流分布偏移：提升DRL交通信号控制鲁棒性的工程实践-编程实验室

1. 项目概述与核心挑战

在智能交通系统（ITS）领域，基于深度强化学习（DRL）的交通信号控制（Traffic Signal Control）正从研究走向实际部署。作为一名长期关注AI落地应用的从业者，我见过太多实验室里表现优异的模型，一旦放到真实路口，性能就“水土不服”。这背后一个核心的“幽灵”就是分布偏移（Distribution Shift）。简单来说，就是你训练模型时用的交通流数据（比如周一早高峰的规律车流），和模型实际运行时遇到的数据（比如周五晚高峰叠加雨天事故的混乱车流），其内在的统计分布已经发生了变化。模型没见过这种“新情况”，决策自然就容易出错，导致路口拥堵加剧，甚至引发安全隐患。

传统上，评估一个DRL信号控制模型好不好，我们往往只看它在测试集上的平均表现，比如平均车辆延误降低了多少。但这就像只考学生做过的原题，无法判断他面对新题型的能力。分布偏移度量的价值就在于，它能提前告诉我们：“注意，当前路口的交通模式和你训练时用的数据差别很大，模型性能可能会显著下降。”这为系统运维者提供了一个至关重要的预警指标，使其能在性能严重恶化前切换回传统控制策略或触发模型更新，从而保障系统的鲁棒性与可靠性。

然而，如何量化交通场景中的这种分布偏移，并将其与可观测的性能指标（如通行效率、旅行时间）建立清晰、可解释的关联，一直是个难题。相关研究要么过于理论化，难以工程落地；要么只关注图像、文本等静态数据，对交通流这种动态、多模态的序列数据缺乏针对性。本次分享的项目，正是为了解决这个问题。我们提出并验证了一套基于柯尔莫哥洛夫-斯米尔诺夫（Kolmogorov-Smirnov, KS）距离的实用框架，用于度量交通流分布偏移，并首次系统性地揭示了KS距离与DRL智能体性能衰减之间的量化关系。下面，我将从设计思路、核心方法、实验细节到避坑经验，完整拆解这个项目。

2. 核心思路：为什么选择KS距离来度量交通流偏移？

在动手构建度量框架前，首先要回答一个根本问题：交通流分布偏移到底指什么，以及为什么KS距离是度量它的合适工具？

2.1 交通流分布的独特性与挑战

交通信号控制的核心对象是路口各个方向的交通流。对于一个标准的四岔路口，通常采用NEMA相位标准，将其划分为8个独立的交通流向（例如，南北直行、东西左转等）。因此，一个交通场景（例如一小时内）的分布，可以自然地用一个8维的离散概率分布来描述：每个维度的值是该相位车辆数占总车辆数的比例。

这种分布有两个关键特性：

离散性与稀疏性：维度固定（8维），且在某些时段（如深夜），某些相位流量可能极低甚至为零。
最大偏差敏感性：在交通控制中，某个相位流量的剧烈变化（例如，因大型活动导致某个方向车流激增）对整体通行效率的影响，可能远大于所有相位流量均匀微小的变化。我们需要一个能捕捉这种“最短板效应”的度量。

2.2 KS距离的优势与工程考量

常见的分布距离度量有很多，如KL散度、JS散度、Wasserstein距离等。我们最终选择KS距离，主要基于以下几点工程化的考量：

对最大局部差异敏感：KS距离定义为两个累积分布函数（CDF）之间的最大垂直距离。在离散的交通流分布中，它等价于两个分布在8个相位上概率差值的绝对值中的最大值。这完美契合了交通控制中对“关键相位流量突变”的敏感性需求。如果一个相位流量暴增，KS距离会立刻显著增大，发出强烈预警。
计算简单，解释性强：KS距离的计算仅涉及比较和取最大值操作，计算复杂度极低（O(n)），适合在边缘计算设备或交通控制中心实时计算。其结果是一个介于0到1之间的标量，非常直观：0表示分布完全相同，1表示完全相反。运维人员可以轻松理解“KS距离达到0.1”意味着什么。
无需分布假设：KS检验是非参数检验，不要求数据服从任何特定的分布（如正态分布）。交通流数据受太多因素影响，其分布形态复杂多变，这一特性避免了强假设带来的风险。
与性能衰减的线性关联（我们的核心发现）：在实验中，我们意外地发现，DRL智能体的性能指标（如归一化吞吐量）与KS距离的增加量之间，呈现出近似线性的负相关关系。这种线性关系使得基于KS距离设定性能衰减阈值变得异常简单和可靠。相比之下，使用累积差异（如L1距离）等度量，其与性能的关系是非线性的，不利于制定清晰的运维规则。

实操心得：度量选择背后的权衡我们也尝试过Wasserstein距离。它考虑了分布的整体“搬运”成本，理论上更全面。但在我们的场景中，它对于“某个相位流量独大”的情况反应不够“尖锐”，有时分布已明显偏移，但Wasserstein距离变化不大。而交通信号控制恰恰需要对这种“尖峰”异常敏感。因此，牺牲一部分全局视角，换取对最关键风险的敏锐捕捉，是更符合工程实际的选择。选择KS距离，本质上是在“全面描述”和“关键预警”之间，优先选择了后者。

3. 实验框架搭建：从数据到评估的全链路

理论再好，也需要实验验证。我们的目标是量化KS距离增加如何导致DRL信号控制器性能下降。为此，我们搭建了一套从真实数据采集、场景合成、DRL训练到性能评估的完整实验管线。

3.1 数据来源与场景构建

数据源：我们使用了美国犹他州交通部门公开的**自动化交通信号性能度量（ATSPM）**系统数据。该系统能提供具体路口各转向车流在5、15、60分钟粒度上的车辆计数，数据真实可靠。

目标路口：选择了犹他州奥勒姆市State Street与Center Street的一个标准四相位路口。通过OpenStreetMap (OSM)获取路网结构，结合ATSPM的流量数据，我们使用SUMO仿真引擎构建了高保真的微观交通仿真环境。

场景定义：一个“场景”即一个1小时的仿真周期，由两个文件定义：

路网文件：描述路口几何结构、车道、信号相位。
路径文件：包含该小时内每一辆车的ID、出发时间、出发车道、目标车道。出发时间在指定小时内均匀随机分布，以模拟流量的随机性。

3.2 DRL智能体设计与训练

为了聚焦分布偏移本身的影响，我们采用了一个经典且经过充分验证的模型作为我们的“测试对象”：

算法：深度Q网络（DQN）。其稳定性足以让我们将性能变化归因于环境分布变化，而非算法本身的不稳定。
状态空间：包含三部分信息：(1) 每个相位上游30米检测器范围内的车辆排队长度（模拟真实雷达检测范围）；(2) 每个信号灯组的当前颜色（红、绿、黄）；(3) 当前颜色已持续的时长。这提供了足够的局部交通态势信息。
动作空间：8个离散动作，对应激活8个NEMA相位中的某一个。仿真器会处理黄灯、全红等安全过渡相位。
奖励函数：每一步的即时奖励为该步骤内通过停车线的车辆数量。这是一个直观且与通行效率直接相关的奖励。
训练设置：使用一个固定的基础场景（例如，工作日上午7-8点）进行训练。通过多次运行并打乱车辆出发时间，生成10个略有差异的训练场景，以增强模型的泛化能力。

3.3 性能评估指标

我们摒弃了传统研究中可能忽略部分延误的简单指标，采用了两个更全面的度量：

归一化吞吐量：实际通过路口的车辆数 / 场景计划生成的车辆总数。这个比率直接反映了路口在给定流量下的通行效率，越接近1越好。
扩展旅行时间：车辆实际到达时间 - 车辆计划出发时间。这是本项目引入的一个关键指标。它与普通“旅行时间”（实际到达-实际出发）的区别在于，它包含了出发延误——即车辆因为前方拥堵而无法在计划时间点驶入路网所等待的时间。在高流量或拥堵场景下，出发延误是总延误的主要组成部分，忽略它会严重低估交通问题的严重性。

4. 核心实验与结果深度解读

我们设计了三个层层递进的实验，从验证现象到剥离因素，最终进行大规模量化分析。

4.1 实验一：真实世界中的分布偏移初现

目的：直观验证在真实交通流中，分布偏移是否确实存在并影响性能。方法：选取同一天（2023年3月14日，周二）四个不同时段（7-8am, 9-10am, 2-3pm, 5-6pm）的真实流量数据构建四个测试场景。以7-8am场景为训练集，训练一个DQN智能体，然后在所有四个场景上测试。结果与分析：

测试场景	KS距离 (相对于训练集)	归一化吞吐量	扩展旅行时间 (秒)
7-8 am (训练集)	0.000	0.98	74.29
9-10 am	0.032	0.89	220.55
2-3 pm	0.067	0.70	315.48
5-6 pm	0.069	0.66	635.39

解读：

趋势明显：随着测试场景与训练场景的KS距离增大，智能体的归一化吞吐量持续下降，扩展旅行时间急剧上升。晚高峰场景（5-6pm）的旅行时间甚至是训练场景的8.5倍。
混杂因素：这个实验虽然证明了关联，但无法区分性能下降有多少是KS距离（相位分布变化）导致的，有多少是总流量增加导致的。因为下午和晚高峰的总车流量本身就远大于早高峰。这就需要下一个实验进行剥离。

4.2 实验二：分离流量与分布的影响

目的：分别控制“总流量”和“相位分布”，单独观察每一因素对性能的影响。方法：以7-8am场景为基准，生成两组合成测试场景：

固定总流量组：保持总车辆数不变，人工调整8个相位的流量比例，生成KS距离从0到1.0递增的11个场景。
固定相位分布组：保持8个相位的流量比例不变，仅改变总车辆数（从2000到7000），生成7个场景。

结果与发现：

固定总流量，改变分布（KS距离）：如图4(a)所示，随着KS距离增加，吞吐量近乎线性下降，旅行时间线性上升。这直接证明了，即使总车数不变，仅仅交通流在各相位的分布发生变化，就足以导致DRL控制器性能显著恶化。
固定分布，改变总流量：如图4(b)所示，吞吐量与总流量的关系呈“倒U型”。在流量接近训练场景（约4000辆）时性能最佳，流量减少或增加都会导致性能下降。流量减少时性能下降，是因为DRL策略可能“过度优化”于中等流量，在低流量下显得冗余；流量增加时下降，则是由于拥堵加剧，超出了模型的处理能力。旅行时间则随流量增加而单调上升。

避坑指南：场景合成的关键在合成“固定总流量，改变分布”的场景时，如何调整相位比例是个技术活。不能简单地随机扰动，否则可能生成现实中不可能出现的分布（例如，所有车辆都集中在一个相位）。我们的做法是：基于真实历史数据的协方差矩阵，进行有约束的随机采样，确保生成的分布既偏离训练集，又符合真实交通流的宏观规律（例如，对向直行车流通常具有相关性）。这保证了实验的严谨性。

4.3 实验三：大规模量化分析与阈值设定

目的：系统性地探索总流量和KS距离两个维度的组合如何共同影响性能，并建立量化关系。方法：以训练场景为原点，在二维平面上采样：KS距离取7个值（0.0, 0.1, ..., 0.6），总流量取13个值（4000, 4250, ..., 7000），共生成91个测试场景。评估训练好的智能体在所有场景下的性能。

核心结论与量化关系：

性能曲面：将结果绘制成以总流量为X轴，性能指标为Y轴，KS距离用颜色区分的曲线族（见图5）。可以清晰看到，对于任意一个固定的总流量，KS距离越大，性能曲线位置越低（吞吐量越低，旅行时间越高）。这说明分布偏移是一个独立于拥堵程度的性能衰减因子。
线性量化：通过线性拟合，我们得到了近似的关系式。例如，在我们的实验设置中：
- KS距离每增加0.02，平均导致归一化吞吐量下降约3.7%。
- 总流量每增加500辆/小时，平均导致归一化吞吐量下降约4.3%。
- 在旅行时间上，KS距离增加0.02导致时间增加42%，而流量增加500辆则导致时间增加76%。

工程启示：这些数字为交通管理部门提供了直接的决策依据。例如，可以设定一个性能衰减阈值。假设管理部门规定“当路口平均旅行时间超过训练场景的2倍时，应切换为备用控制方案”。根据我们的实验，当KS距离达到约0.04时，即使总流量不变，旅行时间也已翻倍。因此，可以将KS距离=0.04设定为一个预警阈值。系统实时计算当前交通流与训练基准流的KS距离，一旦超过0.04，就自动报警或切换策略，无需等待实际拥堵发生。

5. 常见问题、排查技巧与扩展思考

在实际研究和复现过程中，会遇到一系列问题。这里分享一些核心的排查思路和进阶思考。

5.1 实验复现与结果稳定性

问题1：使用自己的仿真环境（如CityFlow、VISSIM）结果波动大，无法复现线性关系。

排查点1：奖励函数设计。DRL智能体的行为严重依赖于奖励函数。确保你的奖励函数是平滑且与优化目标强相关的。我们使用“每步通过车辆数”，它直接、无延迟。避免使用包含未来信息或计算复杂的奖励（如未来预测的排队长度），这可能导致学习不稳定，放大分布偏移的影响。
排查点2：状态空间一致性。确认你的状态表示与我们的定义一致，特别是检测器范围。30米是一个常用值，模拟线圈或雷达的典型覆盖范围。如果范围差异很大（如使用全路段信息），智能体感知能力不同，对分布偏移的鲁棒性也会不同。
排查点3：交通流生成器的随机性。在生成测试场景时，除了指定每相位的流量，车辆的出发时间、路径是否加入了足够的随机性？如果随机种子设置不当，可能导致个别仿真运行出现极端拥堵或异常畅通，影响结果。建议对每个测试场景进行多次随机种子仿真，取性能指标的平均值。

问题2：KS距离计算时，相位顺序如何处理？

核心原则：相位必须对齐。NEMA相位有国际标准编号（1-8），每个编号对应固定的转向。计算KS距��前，必须确保两个分布向量的索引i代表的是同一个物理相位。如果数据源中的相位定义不一致，必须进行映射转换。

5.2 方法局限性及未来改进方向

静态分布 vs 动态演化：目前我们使用1小时聚合的流量分布，这是一个静态快照。而真实交通流是随时间动态演化的。未来的工作可以引入时间序列分析，例如计算滑动窗口下的KS距离序列，或使用DTW等度量来比较流量模式的时序形状。
仅考虑流量比例，忽略绝对量与到达模式：KS距离只关注比例，不关心绝对数量。一个相位流量从10辆变到20辆（比例激增），和从100辆变到110辆（比例微增），可能产生相似的KS距离，但对路口压力的实际影响天差地别。可以探索将总流量作为加权因子融入度量，或结合车辆到达率（泊松过程参数）的分布进行比较。
从度量到缓解：本文重点在“诊断”，即发现问题。更关键的一步是“治疗”。如何利用KS距离指标？一些思路包括：
- 触发式模型更新：当KS距离持续超过阈值时，自动启动在线学习或模型微调流程，使用最新数据更新策略。
- 混合控制策略：设计一个元控制器，根据实时计算的KS距离，在多个预训练好的、针对不同典型分布（早高峰、晚高峰、平峰）的DRL策略之间进行切换。
- 不确定性感知：在DRL算法中引入分布偏移的感知，让智能体对自己在不熟悉分布下的决策不确定性进行估计，从而采取更保守的策略。

5.3 对工业部署的建议

对于考虑部署DRL交通信号控制系统的机构，基于本项目的研究，我建议采取以下步骤：

建立基线档案：在部署初期，选择多个典型时段（如工作日早高峰、午间平峰、周末晚高峰）的交通流数据，训练多个专用模型，并计算它们各自训练数据的流量分布作为“基线分布”。
实施实时监控：在运行过程中，实时计算当前时段（如过去15分钟）的交通流分布，并与所有基线分布计算KS距离。
制定决策规则：
- 如果与某个基线的KS距离最小且低于阈值T1（如0.02），则切换到对应的专用模型。
- 如果所有KS距离都高于阈值T2（如0.05），则发出严重分布偏移警报，并自动降级到传统的自适应控制算法（如SCOOT、SCATS）或固定配时方案。
- 在T1和T2之间，可以视为模糊区间，系统保持当前模型运行但记录性能，供后续分析。
持续迭代：定期（如每季度）用新的数据重新评估基线分布和模型，实现系统的自我进化。

这个基于KS距离的框架，其最大优势在于简单、可解释、可行动。它不需要复杂的模型，计算开销小，给出的结果（一个0到1的数字）任何人都能理解，并能直接映射到运维动作。在AI系统落地的最后一公里，这种能把抽象风险转化为具体操作指南的工具，往往比一个精度高但黑盒的复杂模型更有价值。