基于多模态生理信号与机器学习的VTOL飞行员工作负荷评估系统研究-编程实验室

1. 项目概述：为什么VTOL飞行员工作负荷评估如此重要？

如果你曾关注过城市空中交通（UAM）或电动垂直起降（eVTOL）飞行器的新闻，可能会被其酷炫的外形和“打飞的”的便捷愿景所吸引。然而，作为一名在航空人因工程领域摸爬滚打多年的从业者，我看到的不仅是机遇，更是背后严峻的挑战：如何确保这些新型飞行器的飞行安全？其中一个核心症结，就在于飞行员的工作负荷管理。

传统固定翼飞机或直升机，其操作模式相对固定，飞行员训练体系成熟。但VTOL飞行器是个“混血儿”，它结合了直升机的垂直起降能力和固定翼飞机的高速巡航能力。这意味着飞行员在单次飞行中，需要频繁地在两种截然不同的气动模式间切换思维和操作——想象一下，你刚以直升机模式悬停避开一栋楼，下一秒就要切换到飞机模式加速巡航，这种认知转换的负荷是巨大的。更关键的是，为了追求效率和轻量化，许多商用VTOL设计为单飞行员驾驶舱。这就意味着，一旦飞行员因高负荷导致判断迟缓或操作失误，缺乏副驾驶的冗余备份，后果可能是灾难性的。

因此，对VTOL飞行员的工作负荷进行客观、实时、准确的评估，不再是锦上添花的研究课题，而是保障未来空中交通安全运营的刚需。过去，评估负荷主要依赖飞行员事后的主观问卷（如NASA-TLX），但这就像问一个刚跑完马拉松的人“你累不累”，不仅滞后，还可能因记忆偏差或主观感受不同而不准确。我们需要的是像汽车仪表盘一样，能实时显示“认知引擎”转速的监控系统。

这就是我们这项研究的出发点：利用多模态生理与行为信号，结合机器学习，为VTOL飞行员构建一个客观、连续的工作负荷评估系统。我们不再仅仅询问飞行员“你感觉怎么样”，而是通过他们身体无意识发出的信号——心跳的节奏、手心的微汗、大脑前额叶的血氧变化、甚至握杆的力度和视线的轨迹——来“听”出他们的真实负荷状态。

2. 研究整体设计：从信号到洞察的完整链路

构建这样一个系统，远不是简单地把几个传感器绑在飞行员身上然后跑个算法那么简单。它是一套从任务设计、数据采集、信号处理到模型构建的完整工程链条。我们的核心思路是“多模态融合”与“任务生态效度”。

2.1 核心设计思路：为何选择多模态与模拟器？

单一信号（如心率）易受干扰且信息片面。紧张、兴奋、体力活动都会让心跳加速，你无法区分这是高认知负荷导致的，还是仅仅因为飞行员中午喝了杯浓咖啡。因此，我们采用了多模态传感器阵列，从生理（心、脑、皮肤）、行为（眼、手、身体姿态）、情境（在看什么）和飞行衍生数据（飞机状态）四个维度交叉验证。这就像医生诊断，需要结合验血、CT、问诊等多种信息，才能做出准确判断。

为了在可控且安全的环境下复现真实VTOL飞行的复杂负荷，我们选择了在X-Plane 12飞行模拟平台上进行实验。别小看模拟器，我们搭建了一个拥有225度水平视场的五屏沉浸式座舱，飞行员操作的是基于真实Beta ALIA-250 eVTOL模型改编的操控设备。这种“中保真度”模拟，既能精确控制实验变量、确保数据可重复性，又能提供足够的沉浸感，诱发接近真实的心理生理反应。我们设计的飞行任务清单，严格参考了美国联邦航空管理局（FAA）的 Powered Lift（动力升力）飞行员认证标准，涵盖了从滑行、垂直起飞、模式转换、爬升、转向到垂直/滑跑着陆等VTOL全流程核心机动动作。

2.2 传感器选型与部署：穿戴式设备的实战考量

在传感器选型上，我们平衡了预测效力、佩戴舒适度和对飞行操作的干扰最小化原则。以下是我们的传感器矩阵及其部署考量：

传感器	测量信号	部署位置	人因考量与原理
Empatica E4腕带	血容量脉冲（BVP）、心率（HR）、心率变异性（IBI）、腕部加速度（ACC）	非利手手腕（通常为左手）	无创、佩戴便捷。PPG原理测量BVP，可提取HRV（心率变异性），后者是评估自主神经系统活动、反映心理负荷的黄金指标之一。高负荷下，HRV通常会降低。
Shimmer GSR+	皮肤电反应（GSR）	非利手食指与中指	专门测量皮肤电导，比E4内置的GSR模块更稳定、抗运动伪影能力更强。GSR反映交感神经兴奋度（出汗），对突发性压力或认知需求激增非常敏感。
BIOPAC fNIRS头带	前额叶皮层血氧水平	前额	相比EEG（脑电图），fNIRS（功能性近红外光谱技术）抗运动伪影能力极强，且佩戴像发带，舒适度高。前额叶皮层与高级认知功能（如工作记忆、决策）紧密相关，其血氧动力学变化是认知负荷的直接神经指标。
Tobii Pro 3眼动仪	注视点坐标、瞳孔直径	眼镜形式佩戴	完全不影响视野。眼动模式（扫视与注视）是视觉注意力分配的窗口。高负荷下，飞行员可能呈现“视觉隧道效应”，注视点更集中，扫视范围变窄。
薄膜压力传感器（FSR）	握杆力	驾驶杆握把	直接测量操作输入强度。紧张或高负荷下，飞行员可能无意识增大握力。这是将物理行为与心理状态关联的关键桥梁。
Microsoft Kinect V2	上半身关节三维姿态	飞行员前方	非接触式测量。身体姿态的僵硬程度、动作幅度与认知负荷和情境意识相关。例如，在紧张进近时，飞行员身体可能更前倾、更紧绷。
X-Plane数据接口	飞机状态（空速、高度、姿态角、操纵面输入等）	模拟器软件	提供客观任务难度背景。飞机状态的不稳定（如高度波动大）本身可能就是高工作负荷的结果或原因。

实操心得：传感器部署的“隐形”艺术在真实飞行或高沉浸模拟中，任何让飞行员感到不适或分心的设备都是失败的。我们的原则是：“感知而不干扰”。
线缆管理是生命线：所有设备线缆都用魔术贴和束线带精心固定，防止缠绕在操纵装置上。fNIRS和眼动仪的线缆从座椅后方引出，预留足够活动余量。
校准流程化：制定标准操作程序（SOP）。飞行员就位后，按固定顺序佩戴和校准设备（先生理，后行为）。例如，眼动仪校准必须在飞行员坐定、视线与主屏平齐后进行，只需30秒。
基线采集不可省：正式任务前，让飞行员静坐观看空白屏幕上的一个点30秒，采集静息状态下的生理基线。这个数据至关重要，用于后续归一化处理，消除个体差异（比如有些人基础心率就偏高）。

3. 数据炼金术：从原始信号到机器学习特征

采集到的原始数据是嘈杂且高维的，直接扔给模型效果肯定不好。我们需要进行一系列的信号处理和特征工程，将原始波形“提炼”成能表征认知状态的信息“金块”。

3.1 生理信号的处理：去噪与特征提取

以fNIRS信号为例，它非常容易受到头部轻微移动（运动伪影）和生理噪声（如心跳、呼吸）的污染。我们的处理流水线如下：

低通滤波（2Hz）：首先滤除高频噪声。
运动伪影校正（SMAR算法）：利用fNIRS设备自带的加速度计信号，检测并修正因头部运动导致的信号骤变。这是保证数据质量的关键一步。
计算血氧浓度：根据修正后的光强信号，利用修正的比尔-朗伯定律（MBLL）计算出血氧血红蛋白和脱氧血红蛋白的相对浓度变化。我们主要关注前额叶皮层特定通道的氧合血红蛋白浓度，因为它与神经活动激活正相关。

对于心率（HR）和皮肤电反应（GSR），我们主要计算时域和频域特征：

时域：均值、标准差（反映波动性）、最小值、最大值。
频域：将心率信号转换到频域后，计算低频功率（LF）、高频功率（HF）及其比值（LF/HF），这些指标与交感/副交感神经的平衡有关。

3.2 行为与情境信号的深度解析

眼动信号的处理更具挑战性。我们首先从原始的注视点坐标时间序列中，检测扫视和注视事件。简单来说，当眼球移动速度超过一个经验阈值（通过人工复核视频确定）时，判定为扫视；速度低于阈值且持续一段时间，则为注视。从中我们提取了三个关键特征：

平均每秒扫视次数：反映视觉搜索的活跃度。
平均注视时长：反映信息处理的深度。通常，高负荷下因时间压力，注视时长会缩短。
平均扫视距离：反映视觉注意转移的幅度。在复杂环境中，扫视距离可能更短、更频繁。

更有趣的是注视语义分析。我们想知道飞行员到底在看什么。流程如下：

视线映射：利用特征匹配算法（如基于SIFT的FLANN匹配器），将眼动仪视频中的二维注视点，精确映射到三块主飞行显示器屏幕的对应像素位置。
场景理解：使用一个预训练的视觉模型（如OneFormer）对模拟器屏幕录像的每一帧进行语义分割，识别出“天空”、“地面”、“建筑物”、“仪表盘”、“跑道”等物体类别。
注意力权重计算：当注视点落在多个物体交界处时，我们设计了一个优先级加权算法。例如，“仪表盘”的优先级权重远高于“天空”，因为看仪表是主动的信息获取行为。最终，为每一帧生成一个长度为8（8个语义类别）的概率分布向量，表示飞行员注意力在不同物体上的分配。

身体姿态和握力数据则相对直接，我们计算了关节角度的均值、方差，以及握力的均值和峰值。这些特征能捕捉到飞行员身体的紧张程度和操作力度。

3.3 特征汇总与缺失值处理

将所有模态的特征汇总后，我们得到了一个高维特征向量（参见原文表II）。然而在真实实验中，数据缺失不可避免（设备临时故障、接触不良等）。我们采用了K近邻（KNN）插补法来处理缺失值。其原理是为每个有缺失值的样本，在特征空间中寻找与之最相似的K个“邻居”（基于其他未缺失的特征），然后用这些邻居的该特征值的均值或中位数来填充缺失值。这种方法比直接删除样本或简单用均值填充，能更好地保持数据分布结构。

4. 机器学习模型构建：从通用到个性化的负荷分类

我们的目标是将工作负荷分为低、中、高三个等级。标签来源于飞行员在每组任务后填写的NASA-TLX量表中的“脑力需求”维度评分。我们采用了个体内标准化方法：计算每位飞行员所有任务评分的均值和标准差，将低于均值0.6个标准差的定义为“低”，高于0.6个标准差的定义为“高”，中间为“中”。这样避免了不同飞行员评分尺度不一的问题。

4.1 通用模型：一个模型适配所有飞行员？

首先，我们尝试构建一个通用模型。将所有28名飞行员的数据混合，按飞行员ID进行5折交叉验证（即每次用22-23人的数据训练，用另外5-6人数据验证）。我们测试了多种经典算法：

线性判别分析（LDA）：准确率约42%。
支持向量机（SVM）：准确率约48%。
随机森林（RF）：准确率约51%。
XGBoost：准确率约51%。

XGBoost和随机森林表现最佳，但51%的三分类准确率仅略高于随机猜测（33%），并不理想。这说明，不同飞行员在面对相同任务时，其生理和行为反应模式存在巨大的个体差异。用一个“平均”模型去套所有人，效果有限。

4.2 个性化模型：为每位飞行员“量身定制”

既然通用模型不行，我们转向个性化建模。思路是：为每位目标飞行员训练一个专属模型，训练数据由“大量其他飞行员的数据”+“少量该飞行员自身的数据”组成。

数据构成：假设目标飞行员是A。我们从A的数据中取一部分（比如80%）作为他的个人训练集，剩下的20%作为测试集。同时，将其他所有飞行员的数据作为通用训练集。
上采样技巧：直接混合会导致A的个人数据被淹没。因此，我们对A的个人训练集进行上采样（例如，复制几份），使其在混合训练集中的比例提升到约20%。这相当于告诉模型：“请多关注一下这个人的独特模式。”
训练与验证：用这个混合数据集训练一个XGBoost模型，然后在A的专属测试集上验证。

结果令人振奋：采用个性化方法后，平均分类准确率提升至63%，相比通用模型提高了12个百分点。图7（原文）显示了一个关键规律：当目标飞行员数据在训练集中占比为0%（即纯通用模型）时，准确率约52%；随着其个人数据比例增加，准确率迅速上升，在20%左右达到峰值；之后继续增加个人数据比例，准确率反而下降，这是因为模型过度拟合了该飞行员有限的样本，丧失了泛化到其未见过任务状态的能力。

核心洞见：个性化是关键这个实验清晰地表明，有效的飞行员状态监控系统必须是个性化校准的。在未来实际应用中，可以设想这样一个流程：新飞行员上岗前，先在模拟器上完成一套标准化的“校准飞行”任务（耗时可能仅1-2小时），系统在此期间收集其基线数据，快速训练或微调出一个属于他的个性化负荷评估模型。这比试图寻找一个“放之四海而皆准”的通用模型要可行得多。

4.3 特征重要性分析：哪些信号最“有用”？

我们通过消融实验来评估每个模态特征的重要性：依次从完整特征集中移除某一类特征（如全部身体姿态特征），观察模型准确率的下降幅度。下降越多，说明该特征越重要。

结果有些出乎意料又合乎情理：

最具预测力的模态：飞行衍生数据（飞机状态）和身体姿态。这很好理解，飞机操纵品质（如高度波动、姿态角速度）本身就是工作负荷的客观输出；身体姿态的僵硬或频繁调整直接反映了生理紧张度和情境意识。
中等预测力模态：心率（HR）和眼动（Gaze）。这是传统人因研究中的主力军，我们的结果再次验证了其有效性。
预测力较弱或甚至起反作用的模态：皮肤电（GSR）、握力（FSR）和腕部加速度（ACC）。GSR和ACC信号可能对运动过于敏感，在飞行模拟中，飞行员不可避免会有肢体动作，引入了大量噪声。握力特征则可能过于个性化，且与操纵动作本身强相关，未必能稳定反映认知负荷。
新晋黑马：注视语义（Gaze Semantics）表现出不错的预测力。这为我们打开了一扇新窗：飞行员在看哪里，比仅仅看“他看了多久”更能揭示其认知状态。复盘视频我们发现，低负荷巡航时，飞行员视线长时间稳定在主要仪表上；而在高负荷的着陆阶段，视线则在跑道、空速表、高度表、外界环境之间快速、频繁地切换扫描。

5. 工程化挑战与未来展望

虽然本研究在实验室环境下取得了有希望的成果（63%的个性化分类准确率），但要将其转化为驾驶舱内可靠的“飞行员状态监控系统”，还有漫长的路要走。

5.1 当前局限与挑战

数据规模与多样性：我们仅有28名飞行员的数据，对于复杂的机器学习模型（如我们尝试过的Transformer网络）来说远远不够，容易导致过拟合。未来需要更大规模、覆盖更多样化飞行员群体（不同经验、年龄、文化背景）和更复杂飞行场景（恶劣天气、特情处置）的数据集。
实时性与计算负载：本研究是离线分析。真正的实时监控要求信号处理、特征提取和模型推理必须在毫秒级完成，并且计算设备必须小型化、低功耗，能集成到机载系统中。这需要对算法进行大幅优化和轻量化。
传感器侵入性与可靠性：目前使用的科研级传感器（如fNIRS头带、贴片式GSR）在真实飞行环境中仍显笨重。未来需要向更微型、更坚固、更无感的穿戴设备甚至非接触式传感（如基于摄像头的生理测量）发展。
因果与解释性：机器学习模型是一个“黑箱”，它能告诉我们负荷是高是低，但无法解释“为什么”。结合飞行阶段、操纵输入、外部环境等信息，进行多维度关联分析，才能为改进训练、优化界面设计提供具体洞见。

5.2 未来应用场景构想

尽管有挑战，但这项技术的应用前景非常清晰：

飞行员训练与评估：在模拟训练中，实时反馈学员的认知负荷，帮助教员精准发现其薄弱环节（例如，是否在模式转换时负荷激增）。也可用于评估不同操作程序或新型驾驶舱设计对工作负荷的影响。
自适应人机交互：当系统检测到飞行员负荷过高时，可以自动简化界面信息、提供更明确的决策支持、甚至暂时接管部分低级任务，扮演一个“贴心的副驾驶”角色。
飞行安全预警：与飞行数据管理系统（FDMS）结合，建立飞行员状态-飞行性能关联模型。在发生不安全事件前，系统可提前预警机组或地面指挥员。
健康管理与排班：长期监测数据可用于评估飞行员的疲劳累积状况，为科学排班提供依据。

我个人在实际操作中的体会是，这项研究最迷人的地方在于它架起了一座桥梁——一座连接冰冷的飞行数据、细微的生理信号与飞行员主观的、难以言表的“飞行感受”之间的桥梁。我们不再只能事后访谈，而是能“看到”负荷的起伏。那次实验中，我看到一位资深飞行员在完成一次高难度垂直着陆后，他的fNIRS前额叶氧合信号出现了一个明显的尖峰，而他自己在TLX问卷中只给了“中等”评分。他后来解释说：“习惯了，不觉得特别难。”但身体信号却诚实地说出了大脑那一刻的“全力以赴”。这种主客观之间的差异，正是我们需要技术去填补的认知鸿沟。

最后，一个小建议给想进入这个领域的朋友：别只盯着算法精度。航空人因工程是典型的交叉学科，理解飞行任务、懂得信号处理、熟悉机器学习，这三者缺一不可。多和飞行员交流，去模拟器上亲自体验一下那些机动动作，你才能真正理解哪些特征是有意义的，才能设计出真正有用的系统。毕竟，我们的最终目标不是让模型在测试集上多一个百分点，而是让每一次起降都更加安全。