工业过程软测量：基于状态空间模型的动态建模原理与实践-编程实验室

1. 项目概述：工业过程软测量的动态建模新视角

在炼油、化工、聚合这些复杂的工业现场，工程师们每天都要面对一个核心挑战：如何实时、准确地知道那些“看不见”的关键指标。比如，反应器里聚合物的分子量分布、精馏塔塔顶产品的纯度，或者尾气中有害物质的浓度。这些被称为“质量变量”的参数，直接关系到最终产品的品质、生产的安全与效率，但往往无法通过常规仪表进行在线连续测量。传统的解决方案是依赖人工采样和离线实验室分析，这不仅存在数小时甚至数天的滞后，更无法满足现代流程工业对实时优化与闭环控制的需求。

于是，“软测量”技术应运而生。它的核心思想是，利用那些容易在线测量的过程变量（如温度、压力、流量），通过一个数学模型，去实时推断那些难以测量的关键质量变量。你可以把它想象成一个“软件仪表”。早期的软传感器多采用静态模型，如偏最小二乘（PLS）或支持向量回归（SVR），它们假设过程是平稳的。但现实很骨感，催化剂会失活、原料性质会波动、设备会结垢，生产过程始终处于动态变化中。用一个固定不变的模型去描述一个动态的系统，其预测性能的衰减几乎是必然的。

这正是动态建模的价值所在。而状态空间模型（State Space Model, SSM），为描述这种动态性提供了一个极其优雅且强大的数学框架。它不再将系统视为一个黑箱输入输出映射，而是引入了一个“状态”的概念。这个状态可以理解为系统在某个时刻的“内部快照”，它包含了决定系统未来行为的所有必要信息。通过两个方程——描述状态如何随时间演化的“状态方程”，以及描述我们如何观测到状态的“观测方程”——SSM将过程动力学、测量噪声乃至先验知识都统一到了一个概率生成模型中。

我过去在参与一个烯烃聚合装置的软传感器项目时，就深刻体会到了静态模型的局限。当催化剂批次更换后，原有的模型预测立刻出现系统性偏差，不得不频繁地重新标定，费时费力。后来转向基于状态空间的动态模型后，模型能够通过卡尔曼滤波在线更新其内部状态，自适应地跟踪过程的变化，维护周期从一周延长到了数月，效果立竿见影。

本文将带你深入这个统一框架的内部，拆解三种基于状态空间的主流动态软测量模型：线性动态系统（LDS）、自回归动态潜变量（ADLV）和结构时间序列（STS）。我们不止步于公式，更要弄明白每种模型背后的物理直觉：状态向量到底代表了什么？是时变的回归系数，是压缩后的潜在特征，还是某种可解释的扰动？不同的定义，直接决定了模型捕捉动态的能力和适用范围。我将结合脱硫、聚合、硫回收这三个真实的工业数据集，手把手带你分析如何根据数据特性和工艺背景选择合适的模型，并分享在参数初始化、EM算法实现以及在线/离线预测模式切换中的实战经验与避坑指南。

2. 状态空间模型：统一框架与核心原理拆解

2.1 状态空间模型的基本骨架

要理解LDS、ADLV和STS这三种模型，我们必须先掌握它们共同的“母体”——标准状态空间模型。它的形式非常简洁，却蕴含着巨大的表达能力。

一个离散时间的线性高斯状态空间模型通常由两个方程定义：

状态方程（过程模型）：x_{k+1} = A * x_k + B * u_k + w_k这个方程描述了系统内部状态x_k（一个d维向量）如何从当前时刻k演化到下一时刻k+1。A是状态转移矩阵，刻画了状态自身随时间变化的动力学（比如惯性、衰减）。B是输入矩阵，描述了外部可测输入u_k（如进料流量、加热蒸汽阀位）如何影响状态。w_k是过程噪声，代表了模型未捕获的随机扰动，通常假设服从均值为0、协方差矩阵为Q的高斯分布。

观测方程（测量模型）：y_k = C * x_k + D * u_k + v_k这个方程告诉我们，在时刻k，我们能测量到的输出y_k（即我们想要预测的质量变量，如浓度）是如何由当前状态x_k和当前输入u_k共同决定的。C是观测矩阵，D是直馈矩阵。v_k是观测噪声，代表了传感器测量误差，通常假设服从均值为0、协方差矩阵为R的高斯分布。

核心直觉：你可以把状态x_k想象成汽车行驶时的“真实位置和速度”（我们看不见），而观测y_k是GPS显示的位置（有误差）。状态方程就像物理定律（如匀速运动），预测下一时刻的真实位置；观测方程描述了GPS读数与真实位置的关系。卡尔曼滤波的作用，就是融合带有噪声的GPS观测和不完美的运动模型，来最优地估计出汽车每一刻最可能的位置和速度。

这个框架的强大之处在于其模块化和可解释性。A, B, C, D, Q, R这些矩阵都有明确的物理或统计意义。例如，在化工反应器中，A可能编码了反应动力学的特征时间常数；Q的大小反映了我们对过程模型置信度的高低——Q越大，表示我们认为模型不确定性大，滤波会更“信任”观测数据。

2.2 卡尔曼滤波与平滑：状态的“最优估计”引擎

有了模型，核心问题就是：给出一系列带噪声的观测y_1, y_2, ..., y_k，我们如何估计出每个时刻隐藏的状态x_k？这就是卡尔曼滤波要解决的问题。它是一组递归方程，包含两个交替的步骤：

预测步：基于上一时刻的最优估计x_{k-1|k-1}，利用状态方程预测当前时刻的先验状态x_{k|k-1}及其不确定性（协方差P_{k|k-1}）。
更新步：当新的观测y_k到来时，计算预测观测C * x_{k|k-1} + D * u_k与实际观测y_k之间的残差（新息）。然后，通过一个最优的权重——卡尔曼增益K_k——将先验状态估计与当前观测残差进行融合，得到后验状态估计x_{k|k}及其更新后的不确定性P_{k|k}。

卡尔曼增益K_k是算法的核心，它动态地权衡了“模型预测”和“观测数据”的可信度。如果观测噪声R很小（测量很准），增益会变大，让算法更相信新来的数据；如果过程噪声Q很小（模型很准），增益会变小，让算法更依赖模型预测。

而卡尔曼平滑（如Rauch–Tung–Striebel平滑器）则是在获得全部数据（y_1到y_N）后，“回顾过去”，利用未来时刻的信息来修正历史时刻的状态估计。平滑后的状态估计x_{k|N}比滤波估计x_{k|k}更准确，因为它利用了全部信息。平滑虽然不能用于实时在线估计，但对于离线参数学习至关重要。

2.3 期望最大化算法：从数据中学习模型参数

在实际应用中，模型参数θ = {A, B, C, D, Q, R}以及初始状态x_0的均值和协方差往往是未知的。这就需要我们从数据中把它们学出来。期望最大化（EM）算法是解决这类含有隐变量（状态x）模型参数估计问题的经典方法。

EM算法是一个迭代过程，包含两步：

E步（期望步）：在给定当前参数估计θ^{old}和所有观测数据Y的条件下，计算完整数据对数似然函数关于隐状态后验分布的期望Q(θ | θ^{old})。这步本质上就是运行一次卡尔曼平滑，得到所有状态的平滑估计x_{k|N}及其协方差P_{k|N}、P_{k,k-1|N}。
M步（最大化步）：最大化上一步计算出的Q函数，更新得到一组新的参数θ^{new}。对于线性高斯SSM，A, B, C, D, Q, R的更新都有解析解，形式上是基于平滑后的状态、输入、输出序列计算的一系列二阶矩（协方差、互协方差）的函数。

EM算法会迭代执行E步和M步，直到对数似然函数收敛。这个过程可以理解为：我们先猜一组参数，然后用这组参数去“解释”数据，推断出最可能的状态序列（E步）；接着，我们假设这个推断出来的状态序列就是真实的，然后重新估计一组能最好地“产生”这个状态序列和观测数据的参数（M步）。如此循环，参数估计会越来越准。

实操心得：EM算法的初始化与收敛：EM算法对初始值敏感，且可能收敛到局部最优。我的经验是，A可以初始化为单位矩阵或一个略小于1的对角阵（表示状态有轻微的自相关或衰减）。Q和R可以初始化为较小的对角阵，表示初始时我们对模型和观测都有一定信心。C的初始化很关键，对于ADLV模型，可以用PCA对输出y做主成分分析，用第一主成分载荷向量来初始化C，这通常比随机初始化效果好得多。此外，务必监控每次迭代的对数似然值，确保其单调增加，并设置合理的迭代次数上限（如100-200次）和收敛阈值（如似然值变化小于1e-6）。

3. 三大动态软测量模型详解与对比

在统一的SSM框架下，通过赋予状态向量x_k不同的物理意义，并相应地约束或设定A, B, C, D矩阵的结构，我们就得到了三种各有侧重的动态软测量模型。理解它们之间的区别，是正确选型的关键。

3.1 线性动态系统：捕捉时变系数

在LDS模型中，状态向量x_k被直接定义为时变的回归系数。这意味着，我们假设输入u_k和输出y_k之间的映射关系本身是随着时间缓慢变化的。

其模型形式通常简化为：

状态方程：x_{k+1} = A * x_k + w_k（通常令B=0，即系数变化是自驱动的）
观测方程：y_k = C_k * x_k + v_k（注意，这里的C_k就是时刻k的输入数据行向量u_k^T）

核心思想：传统的线性回归y = u^T * β假设系数β是常数。LDS则将其推广为y_k = u_k^T * β_k，并让系数β_k遵循一个动态过程（通常是一个随机游走或一阶自回归过程）。这非常适用于描述因催化剂活性缓慢衰减、换热器结垢等因素导致的工艺特性漂移。

优势与局限：

优势：模型形式简单直观，参数较少，易于实现和解释。特别擅长捕捉缓慢的、渐进式的过程变化。
局限：状态维度等于输入变量数。当输入维度m很高时，需要估计的系数很多（m^2量级），在数据量不足时容易过拟合。此外，它假设所有的动态都体现在系数变化上，可能无法有效捕捉由潜在特征变化引起的动态。

适用场景：输入变量维度不高，且过程动态主要表现为输入输出关系（即模型增益）随时间缓慢变化的场合。例如，一个已知反应动力学但催化剂活性在数月内逐渐下降的固定床反应器。

3.2 自回归动态潜变量模型：挖掘动态特征空间

ADLV模型将视角从“系数”转向了“特征”。在这里，状态向量x_k代表了一个低维的、动态的潜在特征。这些特征是从高维的原始输入u_k中提取出来的，并且自身遵循一个动态过程。

其模型形式为：

状态方程：x_{k+1} = A * x_k + B * u_k + w_k
观测方程：y_k = C * x_k + v_k（通常令D=0，即输出只由潜变量决定）

核心思想：原始数据u_k通常存在高度共线性和噪声。ADLV先通过投影矩阵B将其压缩到一个低维潜空间x_k，这个潜空间不仅包含了当前输入的信息，还通过矩阵A继承了上一时刻潜变量的动态信息。最终输出y_k是这个动态潜变量的线性组合。这很像动态主成分回归（DPCR）或动态偏最小二乘（DPLS）的思想，但被统一在了SSM的框架下。

优势与局限：

优势：通过降维 (d < m)，能有效处理高维、共线性的数据，并过滤噪声。其动态性体现在潜变量层面，可能更本质地反映了过程的内部演化机制。从实验结果看，ADLV的在线和离线预测性能往往最稳定。
局限：模型变得不那么直观。B和C矩阵的物理意义不如LDS中的系数清晰。参数数量可能仍然较多（取决于潜变量维度d），需要更多的数据来训练。

适用场景：输入变量众多且存在强相关性，过程动态复杂，我们相信存在一个低维的“驱动因子”空间在主导过程变化。例如，一个拥有数十个温度、压力测点的精馏塔，其产品纯度可能只由几个关键的温度分布和物料平衡关系（即潜变量）决定，而这些关系本身是动态变化的。

3.3 结构时间序列模型：分解与结构化扰动

STS模型采取了一种“加法分解”的视角。它认为，观测值y_k由两部分组成：一部分是输入u_k的静态（或准静态）线性影响；另一部分是由状态x_k所捕获的、具有特定结构的动态扰动（如趋势、周期、外部干扰等）。

其模型形式为：

状态方程：x_{k+1} = A * x_k + w_k（描述扰动分量的动态）
观测方程：y_k = C * x_k + D * u_k + v_k

核心思想：D * u_k构成了一个全局的、静态的回归基础。而C * x_k则代表了叠加在其上的动态扰动项。这个扰动项可以灵活定义：它可以是一个随机游走趋势（模拟缓慢漂移），一个三角函数组合（模拟季节周期），甚至是一个已知扰动模型（如已知的进料杂质波动模型）的状态空间实现。这为融合机理知识提供了绝佳的入口。

优势与局限：

优势：模型具有极高的可解释性和灵活性。我们可以将已知的过程动态知识（如一阶惯性、振荡模态）编码进A和C矩阵。它明确分离了静态关系和动态扰动，便于故障诊断和根源分析。
局限：需要建模者对过程的动态扰动来源有较好的先验理解。如果动态扰动的结构假设错误，模型性能会下降。参数化可能更复杂。

适用场景：过程存在明确的、可结构化的动态干扰源。例如，一个受昼夜环境温度周期性影响的放热反应器，我们可以用STS模型：D*u_k描述反应器本身的基本物料/热量平衡关系，而C*x_k用一个周期项来模拟环境温度的影响。又或者，知道系统每隔一段时间会进行反冲洗，可以用一个脉冲干扰模型来刻画。

3.4 模型选型决策指南

如何为你的项目选择最合适的模型？下表总结了三种模型的核心区别与选型考量：

特性维度	线性动态系统 (LDS)	自回归动态潜变量 (ADLV)	结构时间序列 (STS)
状态`x_k`的物理意义	时变的回归系数	动态的潜在特征	结构化的动态扰动
动态性体现在	输入输出映射关系的变化	潜在特征空间的演化	叠加在静态模型上的扰动
关键矩阵约束	`B=0`,`C_k = u_k^T`(时变)	`D=0`	无特殊约束，`D*u_k`存在
主要优势	直观，擅长慢时变	降维抗噪，预测稳健	可解释性强，可融合机理
主要挑战	高维输入时参数多，可能过拟合	潜变量物理意义较模糊	需要先验知识定义扰动结构
数据量需求	中等	较大（尤其高维时）	取决于扰动结构的复杂度
典型适用场景	模型系数缓慢漂移的过程	高维、共线性强、动态复杂的过程	存在已知周期、趋势或可建模干扰的过程

选型心法：

看数据维度与量级：输入变量少（<10），选LDS或STS；变量多（>20）且有共线性，优先考虑ADLV进行降维。
看动态来源的理解：如果明确知道动态来自某个可建模的干扰（如季节温度），用STS。如果不清楚，但怀疑是内部特征变化，用ADLV。如果怀疑是全局的“模型失配”或缓慢漂移，用LDS。
看最终应用模式：如果非常强调离线预测的稳定性（即模型训练好后，在没有新标签的情况下要能撑很久），ADLV通常表现更稳健。如果是在线更新且追求对最新变化的快速响应，LDS和STS可能更有优势。

4. 从理论到实践：基于脱硫塔案例的完整实现流程

让我们以一个具体的工业案例——脱硫稳定塔（Debutanizer Column）的丁烷浓度预测——来串联整个动态软测量的实现过程。这个案例数据公开，且是软测量领域的经典基准问题。

4.1 问题定义与数据准备

工艺背景：在石脑油加氢脱硫装置中，稳定塔的作用是分离轻组分（如丁烷）以获得稳定汽油。关键质量指标是塔底汽油中的丁烷浓度，但在线分析仪昂贵且维护频繁。我们拥有7个易于在线测量的过程变量：塔顶温度、塔顶压力、回流流量、塔底温度等，以及通过实验室化验获得的丁烷浓度值（作为输出y）。

数据预处理：

对齐与清理：确保过程变量与质量变量在时间戳上对齐。处理明显的传感器故障点（如恒值、超量程），可采用前后插值或简单剔除。
标准化：将所有输入变量u和输出变量y进行零均值、单位方差的标准化。这一点至关重要，尤其是对于LDS模型，可以避免因变量量纲差异导致数值计算问题，并让EM算法更易收敛。
划分数据集：共2394个样本。前2000个用于训练（对于RNN/LSTM，可再从中划出约400个作为验证集），后394个用于测试。

4.2 模型实现与参数初始化

我们以ADLV模型为例，展示其实现的关键步骤。选择ADLV是因为该数据集输入维度适中（7维），且过程动态可能较为复杂。

步骤一：模型结构定义我们设定潜变量维度d=3。这意味着我们用3个动态潜变量来解释7个输入和1个输出之间的关系。

状态方程：x_{k+1} = A * x_k + B * u_k + w_k,w_k ~ N(0, Q),x ∈ R^3,u ∈ R^7
观测方程：y_k = C * x_k + v_k,v_k ~ N(0, R),y ∈ R

步骤二：参数初始化（艺术与科学的结合）糟糕的初始化会导致EM算法收敛慢甚至发散。以下是我的经验性初始化策略：

A：初始化为0.9 * I（3x3单位阵）。0.9表示我们假设潜变量有较强的自相关性，但非单位阵可以避免数值问题。
B：这是关键。我们不随机初始化。对输入训练数据U_train(2000x7) 进行主成分分析（PCA），取前3个主成分的载荷矩阵（7x3）的转置作为B的初始值。这相当于用静态PCA的结果给动态模型一个“暖启动”。
C：随机从标准正态分布采样，形状为1x3。也可以尝试用PLS的第一潜变量对输出的回归系数来初始化，效果类似。
Q：过程噪声协方差，初始化为0.001 * I（3x3）。表示我们初始认为状态方程比较准确。
R：观测噪声方差，初始化为0.1（标量）。这个值可以稍大，因为观测（实验室化验）本身存在误差。
x0的均值µ0：初始化为零向量[0,0,0]^T。
x0的协方差Σ0：初始化为100 * I，表示对初始状态非常不确定（扩散初始化）。

步骤三：EM算法迭代

E步：使用当前参数θ^{old}和全部训练数据（u_1:2000,y_1:2000），运行卡尔曼平滑算法（前向滤波+后向平滑），得到所有时刻状态的后验平滑估计x_{k|N}、平滑误差协方差P_{k|N}以及相邻时刻的平滑互协方差P_{k,k-1|N}。
M步：利用E步计算出的所有平滑统计量（即前面附录中的Sxx,Sxb,Sbb等），按照公式(45)-(48)更新参数A, B, C, Q, R。注意，对于ADLV模型，D矩阵被约束为0，相关项在计算中忽略。
计算对数似然：根据更新后的参数，计算当前迭代的模型对数似然值。用于监控收敛。
检查收敛：如果对数似然值相对上次迭代的增长小于阈值（如1e-6），或达到最大迭代次数（如100次），则停止；否则，用新参数替换旧参数，回到第1步。

避坑指南：EM算法的调试
发散问题：如果迭代几次后似然值急剧下降或出现NaN，通常是数值不稳定。检查Q和R的初始化是否过小，导致卡尔曼增益计算中的矩阵求逆出现病态。可以尝试稍微增大Q和R的初始值。
收敛慢：尝试用更“聪明”的方式初始化B和C（如前述PCA/PLS方法）。确保数据已标准化。
局部最优：EM可能陷入局部最优。可以尝试多次随机初始化C，选择最终似然值最高的那次运行结果。

4.3 在线与离线预测模式

模型训练好后，就可以用于预测了。这里有两种截然不同的模式：

在线预测（实时更新）：这是软传感器在生产中的标准运行模式。每当新的过程数据u_k到来，而新的实验室分析值y_k尚未获得时，我们做一步预测ŷ_{k|k-1}。当y_k最终获得后，我们用它来更新卡尔曼滤波的状态估计x_{k|k}，然后预测下一步。

操作：使用训练好的固定参数{A, B, C, Q, R}，对测试集数据递归运行卡尔曼滤波（只进行预测步和更新步，不重新运行EM）。即公式(28)-(30)。
特点：预测精度高，因为状态估计不断被最新观测修正。但依赖于y_k的定期获取（尽管有滞后）。

离线预测（纯模型推演）：这种模式测试的是模型的长期泛化能力。我们只用训练好的模型和测试集的过程输入u_k，像模拟器一样向前推演，完全不使用测试集的真实y_k来更新状态。

操作：使用训练好的参数，从初始状态x_{0|0}开始，对于每个测试时刻k，只进行预测步：x_{k|k-1} = A * x_{k-1|k-1} + B * u_{k-1}，然后计算预测输出ŷ_k = C * x_{k|k-1}。跳过用y_k更新的步骤。即公式(31)-(33)。
特点：预测误差通常会比在线模式大。但如果模型真正抓住了过程的核心动态，离线预测也能保持合理的趋势。这对于评估模型在长期未标定情况下的鲁棒性至关重要。

在我们的脱硫塔案例中，ADLV模型在离线预测模式下表现出了惊人的稳定性，其预测曲线虽然平滑，但紧紧跟随了真实值的趋势，RMSE仅比在线模式略有上升。而LDS模型的离线预测则很快偏离了真实值，这说明它更依赖在线更新来修正其系数漂移。

5. 实战中的挑战、调优与扩展思考

5.1 常见问题与排查清单

在实际部署动态软测量模型时，你可能会遇到以下典型问题：

问题现象	可能原因	排查与解决思路
在线预测初期波动大，随后稳定	初始状态`x0`估计不准，或初始协方差`Σ0`设置不当。	使用训练集最后一部分数据的平滑状态均值作为`x0`的初始值，而不是零。将`Σ0`设置为一个较小的值（如`I`），表示对初始状态比较确定。
EM算法不收敛或似然值震荡	1. 数据未标准化。 2.`Q`或`R`初始化不合理（如为0）。 3. 潜变量维度`d`设置过高，导致过拟合。	1. 确保所有变量标准化。 2. 为`Q`和`R`设置一个小的正定对角矩阵初值。 3. 尝试降低`d`，或使用交叉验证选择`d`。
离线预测快速发散	模型未能捕捉核心动态，或过程噪声`Q`设置过小，导致模型过于“自信”，误差累积。	1. 检查模型选型是否合适（如用LDS去拟合复杂动态）。 2. 适当增大`Q`矩阵的对角线元素，允许模型有更多不确定性。 3. 考虑在状态方程中引入更复杂的动态（如增加状态维度，或让`A`非对角）。
预测结果过于平滑，丢失细节	观测噪声`R`设置过大，导致卡尔曼增益过小，滤波过于依赖模型而忽略观测。	适当减小`R`的初始值或在EM中让其自由估计。检查观测数据`y`的噪声水平是否被高估。
计算速度慢，无法满足实时性	状态维度`d`或输入维度`m`过高，导致矩阵运算开销大。	1. 对于LDS，考虑输入变量筛选，降低`m`。 2. 对于ADLV，确保`d << m`。 3. 使用高效的线性代数库（如BLAS/LAPACK），并检查代码中是否有不必要的矩阵复制。

5.2 模型调优与进阶技巧

状态维度d的选择：对于ADLV和STS，d是一个超参数。一个实用的方法是：绘制不同d下模型在验证集上的离线预测误差（如RMSE）曲线。误差通常会随着d增加先下降后上升，上升点意味着过拟合。选择误差最低点对应的d。也可以参考PCA中累计方差贡献率，例如选择能解释输入数据80%方差的维度。
处理非线性：标准的线性SSM假设了线性关系。如果过程非线性强怎么办？
- 扩展卡尔曼滤波：在状态估计时对非线性函数进行一阶泰勒展开。适用于中度非线性。
- 无迹卡尔曼滤波：使用一组精心选择的采样点（Sigma点）来近似状态分布，精度更高。
- 切换至非线性状态空间模型：如使用神经网络来表示f(x,u)和h(x,u)，然后结合粒子滤波等进行状态估计。但这会牺牲可解释性和计算效率。
融合先验知识（STS的威力）：这是STS模型最大的优势。例如，如果你知道过程每24小时有一个明显的温度周期，可以在状态向量中加入一个周期为24的三角函数对分量。对应的A矩阵中会有一个2x2的旋转块来生成正弦和余弦波。这样，模型就能显式地学习和预测这种周期性扰动，而不是试图用潜变量去隐式地学习。
处理缺失数据：工业数据常有不规则缺失。SSM框架天然能处理这个问题。在卡尔曼滤波的更新步，如果某个时刻的y_k缺失，只需简单地跳过更新步，只进行预测步：x_{k|k} = x_{k|k-1},P_{k|k} = P_{k|k-1}。预测可以照常进行。EM算法也能在存在缺失数据的情况下推导出参数估计。

5.3 超越比较：何时考虑RNN/LSTM？

原文中将RNN/LSTM作为对比基线。在实际项目中，何时该用SSM，何时该用深度学习模型？

选择SSM当：数据量有限（数千到数万样本），需要模型可解释性，希望融合机理知识，对计算资源有要求（嵌入式部署），或者过程动态相对温和、近似线性。
考虑RNN/LSTM当：拥有海量数据（十万级以上），过程动态极度复杂、高度非线性，且预测精度是唯一目标，可解释性不是首要考虑。但要注意，RNN/LSTM是“黑箱”，调参复杂，训练不稳定（梯度消失/爆炸），且离线预测性能可能急剧下降（如原文中LSTM的结果所示）。

我个人在工业项目中的策略往往是：先用SSM框架（尤其是ADLV或STS）建立基线模型。因为它能提供一个物理意义相对清晰、训练稳定、且通常表现不错的解决方案。如果SSM模型的残差分析显示出强烈的、未捕获的非线性模式，并且我们拥有足够的数据，才会考虑引入神经网络作为补充或替代，例如用LSTM来建模SSM的残差序列。

动态软测量的世界远不止LDS、ADLV、STS这三种模型。粒子滤波、深度状态空间模型、变分自编码器与时序模型的结合等，都在不断拓展这个领域的边界。但万变不离其宗，理解状态空间这个统一框架，理解状态估计（滤波/平滑）和参数学习（EM）这两大支柱，就能为你应对各种复杂的工业过程预测问题，打下最坚实的地基。真正的挑战不在于选择最复杂的模型，而在于根据你的数据、你的工艺知识和你的业务目标，做出最恰当的选择，并耐心地调优与验证。