1. 项目概述:为什么VTOL飞行员工作负荷评估如此重要?
如果你曾关注过城市空中交通(UAM)或电动垂直起降(eVTOL)飞行器的新闻,可能会被其酷炫的外形和“打飞的”的便捷愿景所吸引。然而,作为一名在航空人因工程领域摸爬滚打多年的从业者,我看到的不仅是机遇,更是背后严峻的挑战:如何确保这些新型飞行器的飞行安全?其中一个核心症结,就在于飞行员的工作负荷管理。
传统固定翼飞机或直升机,其操作模式相对固定,飞行员训练体系成熟。但VTOL飞行器是个“混血儿”,它结合了直升机的垂直起降能力和固定翼飞机的高速巡航能力。这意味着飞行员在单次飞行中,需要频繁地在两种截然不同的气动模式间切换思维和操作——想象一下,你刚以直升机模式悬停避开一栋楼,下一秒就要切换到飞机模式加速巡航,这种认知转换的负荷是巨大的。更关键的是,为了追求效率和轻量化,许多商用VTOL设计为单飞行员驾驶舱。这就意味着,一旦飞行员因高负荷导致判断迟缓或操作失误,缺乏副驾驶的冗余备份,后果可能是灾难性的。
因此,对VTOL飞行员的工作负荷进行客观、实时、准确的评估,不再是锦上添花的研究课题,而是保障未来空中交通安全运营的刚需。过去,评估负荷主要依赖飞行员事后的主观问卷(如NASA-TLX),但这就像问一个刚跑完马拉松的人“你累不累”,不仅滞后,还可能因记忆偏差或主观感受不同而不准确。我们需要的是像汽车仪表盘一样,能实时显示“认知引擎”转速的监控系统。
这就是我们这项研究的出发点:利用多模态生理与行为信号,结合机器学习,为VTOL飞行员构建一个客观、连续的工作负荷评估系统。我们不再仅仅询问飞行员“你感觉怎么样”,而是通过他们身体无意识发出的信号——心跳的节奏、手心的微汗、大脑前额叶的血氧变化、甚至握杆的力度和视线的轨迹——来“听”出他们的真实负荷状态。
2. 研究整体设计:从信号到洞察的完整链路
构建这样一个系统,远不是简单地把几个传感器绑在飞行员身上然后跑个算法那么简单。它是一套从任务设计、数据采集、信号处理到模型构建的完整工程链条。我们的核心思路是“多模态融合”与“任务生态效度”。
2.1 核心设计思路:为何选择多模态与模拟器?
单一信号(如心率)易受干扰且信息片面。紧张、兴奋、体力活动都会让心跳加速,你无法区分这是高认知负荷导致的,还是仅仅因为飞行员中午喝了杯浓咖啡。因此,我们采用了多模态传感器阵列,从生理(心、脑、皮肤)、行为(眼、手、身体姿态)、情境(在看什么)和飞行衍生数据(飞机状态)四个维度交叉验证。这就像医生诊断,需要结合验血、CT、问诊等多种信息,才能做出准确判断。
为了在可控且安全的环境下复现真实VTOL飞行的复杂负荷,我们选择了在X-Plane 12飞行模拟平台上进行实验。别小看模拟器,我们搭建了一个拥有225度水平视场的五屏沉浸式座舱,飞行员操作的是基于真实Beta ALIA-250 eVTOL模型改编的操控设备。这种“中保真度”模拟,既能精确控制实验变量、确保数据可重复性,又能提供足够的沉浸感,诱发接近真实的心理生理反应。我们设计的飞行任务清单,严格参考了美国联邦航空管理局(FAA)的 Powered Lift(动力升力)飞行员认证标准,涵盖了从滑行、垂直起飞、模式转换、爬升、转向到垂直/滑跑着陆等VTOL全流程核心机动动作。
2.2 传感器选型与部署:穿戴式设备的实战考量
在传感器选型上,我们平衡了预测效力、佩戴舒适度和对飞行操作的干扰最小化原则。以下是我们的传感器矩阵及其部署考量:
| 传感器 | 测量信号 | 部署位置 | 人因考量与原理 |
|---|---|---|---|
| Empatica E4腕带 | 血容量脉冲(BVP)、心率(HR)、心率变异性(IBI)、腕部加速度(ACC) | 非利手手腕(通常为左手) | 无创、佩戴便捷。PPG原理测量BVP,可提取HRV(心率变异性),后者是评估自主神经系统活动、反映心理负荷的黄金指标之一。高负荷下,HRV通常会降低。 |
| Shimmer GSR+ | 皮肤电反应(GSR) | 非利手食指与中指 | 专门测量皮肤电导,比E4内置的GSR模块更稳定、抗运动伪影能力更强。GSR反映交感神经兴奋度(出汗),对突发性压力或认知需求激增非常敏感。 |
| BIOPAC fNIRS头带 | 前额叶皮层血氧水平 | 前额 | 相比EEG(脑电图),fNIRS(功能性近红外光谱技术)抗运动伪影能力极强,且佩戴像发带,舒适度高。前额叶皮层与高级认知功能(如工作记忆、决策)紧密相关,其血氧动力学变化是认知负荷的直接神经指标。 |
| Tobii Pro 3眼动仪 | 注视点坐标、瞳孔直径 | 眼镜形式佩戴 | 完全不影响视野。眼动模式(扫视与注视)是视觉注意力分配的窗口。高负荷下,飞行员可能呈现“视觉隧道效应”,注视点更集中,扫视范围变窄。 |
| 薄膜压力传感器(FSR) | 握杆力 | 驾驶杆握把 | 直接测量操作输入强度。紧张或高负荷下,飞行员可能无意识增大握力。这是将物理行为与心理状态关联的关键桥梁。 |
| Microsoft Kinect V2 | 上半身关节三维姿态 | 飞行员前方 | 非接触式测量。身体姿态的僵硬程度、动作幅度与认知负荷和情境意识相关。例如,在紧张进近时,飞行员身体可能更前倾、更紧绷。 |
| X-Plane数据接口 | 飞机状态(空速、高度、姿态角、操纵面输入等) | 模拟器软件 | 提供客观任务难度背景。飞机状态的不稳定(如高度波动大)本身可能就是高工作负荷的结果或原因。 |
实操心得:传感器部署的“隐形”艺术在真实飞行或高沉浸模拟中,任何让飞行员感到不适或分心的设备都是失败的。我们的原则是:“感知而不干扰”。
- 线缆管理是生命线:所有设备线缆都用魔术贴和束线带精心固定,防止缠绕在操纵装置上。fNIRS和眼动仪的线缆从座椅后方引出,预留足够活动余量。
- 校准流程化:制定标准操作程序(SOP)。飞行员就位后,按固定顺序佩戴和校准设备(先生理,后行为)。例如,眼动仪校准必须在飞行员坐定、视线与主屏平齐后进行,只需30秒。
- 基线采集不可省:正式任务前,让飞行员静坐观看空白屏幕上的一个点30秒,采集静息状态下的生理基线。这个数据至关重要,用于后续归一化处理,消除个体差异(比如有些人基础心率就偏高)。
3. 数据炼金术:从原始信号到机器学习特征
采集到的原始数据是嘈杂且高维的,直接扔给模型效果肯定不好。我们需要进行一系列的信号处理和特征工程,将原始波形“提炼”成能表征认知状态的信息“金块”。
3.1 生理信号的处理:去噪与特征提取
以fNIRS信号为例,它非常容易受到头部轻微移动(运动伪影)和生理噪声(如心跳、呼吸)的污染。我们的处理流水线如下:
- 低通滤波(2Hz):首先滤除高频噪声。
- 运动伪影校正(SMAR算法):利用fNIRS设备自带的加速度计信号,检测并修正因头部运动导致的信号骤变。这是保证数据质量的关键一步。
- 计算血氧浓度:根据修正后的光强信号,利用修正的比尔-朗伯定律(MBLL)计算出血氧血红蛋白和脱氧血红蛋白的相对浓度变化。我们主要关注前额叶皮层特定通道的氧合血红蛋白浓度,因为它与神经活动激活正相关。
对于心率(HR)和皮肤电反应(GSR),我们主要计算时域和频域特征:
- 时域:均值、标准差(反映波动性)、最小值、最大值。
- 频域:将心率信号转换到频域后,计算低频功率(LF)、高频功率(HF)及其比值(LF/HF),这些指标与交感/副交感神经的平衡有关。
3.2 行为与情境信号的深度解析
眼动信号的处理更具挑战性。我们首先从原始的注视点坐标时间序列中,检测扫视和注视事件。简单来说,当眼球移动速度超过一个经验阈值(通过人工复核视频确定)时,判定为扫视;速度低于阈值且持续一段时间,则为注视。从中我们提取了三个关键特征:
- 平均每秒扫视次数:反映视觉搜索的活跃度。
- 平均注视时长:反映信息处理的深度。通常,高负荷下因时间压力,注视时长会缩短。
- 平均扫视距离:反映视觉注意转移的幅度。在复杂环境中,扫视距离可能更短、更频繁。
更有趣的是注视语义分析。我们想知道飞行员到底在看什么。流程如下:
- 视线映射:利用特征匹配算法(如基于SIFT的FLANN匹配器),将眼动仪视频中的二维注视点,精确映射到三块主飞行显示器屏幕的对应像素位置。
- 场景理解:使用一个预训练的视觉模型(如OneFormer)对模拟器屏幕录像的每一帧进行语义分割,识别出“天空”、“地面”、“建筑物”、“仪表盘”、“跑道”等物体类别。
- 注意力权重计算:当注视点落在多个物体交界处时,我们设计了一个优先级加权算法。例如,“仪表盘”的优先级权重远高于“天空”,因为看仪表是主动的信息获取行为。最终,为每一帧生成一个长度为8(8个语义类别)的概率分布向量,表示飞行员注意力在不同物体上的分配。
身体姿态和握力数据则相对直接,我们计算了关节角度的均值、方差,以及握力的均值和峰值。这些特征能捕捉到飞行员身体的紧张程度和操作力度。
3.3 特征汇总与缺失值处理
将所有模态的特征汇总后,我们得到了一个高维特征向量(参见原文表II)。然而在真实实验中,数据缺失不可避免(设备临时故障、接触不良等)。我们采用了K近邻(KNN)插补法来处理缺失值。其原理是为每个有缺失值的样本,在特征空间中寻找与之最相似的K个“邻居”(基于其他未缺失的特征),然后用这些邻居的该特征值的均值或中位数来填充缺失值。这种方法比直接删除样本或简单用均值填充,能更好地保持数据分布结构。
4. 机器学习模型构建:从通用到个性化的负荷分类
我们的目标是将工作负荷分为低、中、高三个等级。标签来源于飞行员在每组任务后填写的NASA-TLX量表中的“脑力需求”维度评分。我们采用了个体内标准化方法:计算每位飞行员所有任务评分的均值和标准差,将低于均值0.6个标准差的定义为“低”,高于0.6个标准差的定义为“高”,中间为“中”。这样避免了不同飞行员评分尺度不一的问题。
4.1 通用模型:一个模型适配所有飞行员?
首先,我们尝试构建一个通用模型。将所有28名飞行员的数据混合,按飞行员ID进行5折交叉验证(即每次用22-23人的数据训练,用另外5-6人数据验证)。我们测试了多种经典算法:
- 线性判别分析(LDA):准确率约42%。
- 支持向量机(SVM):准确率约48%。
- 随机森林(RF):准确率约51%。
- XGBoost:准确率约51%。
XGBoost和随机森林表现最佳,但51%的三分类准确率仅略高于随机猜测(33%),并不理想。这说明,不同飞行员在面对相同任务时,其生理和行为反应模式存在巨大的个体差异。用一个“平均”模型去套所有人,效果有限。
4.2 个性化模型:为每位飞行员“量身定制”
既然通用模型不行,我们转向个性化建模。思路是:为每位目标飞行员训练一个专属模型,训练数据由“大量其他飞行员的数据”+“少量该飞行员自身的数据”组成。
- 数据构成:假设目标飞行员是A。我们从A的数据中取一部分(比如80%)作为他的个人训练集,剩下的20%作为测试集。同时,将其他所有飞行员的数据作为通用训练集。
- 上采样技巧:直接混合会导致A的个人数据被淹没。因此,我们对A的个人训练集进行上采样(例如,复制几份),使其在混合训练集中的比例提升到约20%。这相当于告诉模型:“请多关注一下这个人的独特模式。”
- 训练与验证:用这个混合数据集训练一个XGBoost模型,然后在A的专属测试集上验证。
结果令人振奋:采用个性化方法后,平均分类准确率提升至63%,相比通用模型提高了12个百分点。图7(原文)显示了一个关键规律:当目标飞行员数据在训练集中占比为0%(即纯通用模型)时,准确率约52%;随着其个人数据比例增加,准确率迅速上升,在20%左右达到峰值;之后继续增加个人数据比例,准确率反而下降,这是因为模型过度拟合了该飞行员有限的样本,丧失了泛化到其未见过任务状态的能力。
核心洞见:个性化是关键这个实验清晰地表明,有效的飞行员状态监控系统必须是个性化校准的。在未来实际应用中,可以设想这样一个流程:新飞行员上岗前,先在模拟器上完成一套标准化的“校准飞行”任务(耗时可能仅1-2小时),系统在此期间收集其基线数据,快速训练或微调出一个属于他的个性化负荷评估模型。这比试图寻找一个“放之四海而皆准”的通用模型要可行得多。
4.3 特征重要性分析:哪些信号最“有用”?
我们通过消融实验来评估每个模态特征的重要性:依次从完整特征集中移除某一类特征(如全部身体姿态特征),观察模型准确率的下降幅度。下降越多,说明该特征越重要。
结果有些出乎意料又合乎情理:
- 最具预测力的模态:飞行衍生数据(飞机状态)和身体姿态。这很好理解,飞机操纵品质(如高度波动、姿态角速度)本身就是工作负荷的客观输出;身体姿态的僵硬或频繁调整直接反映了生理紧张度和情境意识。
- 中等预测力模态:心率(HR)和眼动(Gaze)。这是传统人因研究中的主力军,我们的结果再次验证了其有效性。
- 预测力较弱或甚至起反作用的模态:皮肤电(GSR)、握力(FSR)和腕部加速度(ACC)。GSR和ACC信号可能对运动过于敏感,在飞行模拟中,飞行员不可避免会有肢体动作,引入了大量噪声。握力特征则可能过于个性化,且与操纵动作本身强相关,未必能稳定反映认知负荷。
- 新晋黑马:注视语义(Gaze Semantics)表现出不错的预测力。这为我们打开了一扇新窗:飞行员在看哪里,比仅仅看“他看了多久”更能揭示其认知状态。复盘视频我们发现,低负荷巡航时,飞行员视线长时间稳定在主要仪表上;而在高负荷的着陆阶段,视线则在跑道、空速表、高度表、外界环境之间快速、频繁地切换扫描。
5. 工程化挑战与未来展望
虽然本研究在实验室环境下取得了有希望的成果(63%的个性化分类准确率),但要将其转化为驾驶舱内可靠的“飞行员状态监控系统”,还有漫长的路要走。
5.1 当前局限与挑战
- 数据规模与多样性:我们仅有28名飞行员的数据,对于复杂的机器学习模型(如我们尝试过的Transformer网络)来说远远不够,容易导致过拟合。未来需要更大规模、覆盖更多样化飞行员群体(不同经验、年龄、文化背景)和更复杂飞行场景(恶劣天气、特情处置)的数据集。
- 实时性与计算负载:本研究是离线分析。真正的实时监控要求信号处理、特征提取和模型推理必须在毫秒级完成,并且计算设备必须小型化、低功耗,能集成到机载系统中。这需要对算法进行大幅优化和轻量化。
- 传感器侵入性与可靠性:目前使用的科研级传感器(如fNIRS头带、贴片式GSR)在真实飞行环境中仍显笨重。未来需要向更微型、更坚固、更无感的穿戴设备甚至非接触式传感(如基于摄像头的生理测量)发展。
- 因果与解释性:机器学习模型是一个“黑箱”,它能告诉我们负荷是高是低,但无法解释“为什么”。结合飞行阶段、操纵输入、外部环境等信息,进行多维度关联分析,才能为改进训练、优化界面设计提供具体洞见。
5.2 未来应用场景构想
尽管有挑战,但这项技术的应用前景非常清晰:
- 飞行员训练与评估:在模拟训练中,实时反馈学员的认知负荷,帮助教员精准发现其薄弱环节(例如,是否在模式转换时负荷激增)。也可用于评估不同操作程序或新型驾驶舱设计对工作负荷的影响。
- 自适应人机交互:当系统检测到飞行员负荷过高时,可以自动简化界面信息、提供更明确的决策支持、甚至暂时接管部分低级任务,扮演一个“贴心的副驾驶”角色。
- 飞行安全预警:与飞行数据管理系统(FDMS)结合,建立飞行员状态-飞行性能关联模型。在发生不安全事件前,系统可提前预警机组或地面指挥员。
- 健康管理与排班:长期监测数据可用于评估飞行员的疲劳累积状况,为科学排班提供依据。
我个人在实际操作中的体会是,这项研究最迷人的地方在于它架起了一座桥梁——一座连接冰冷的飞行数据、细微的生理信号与飞行员主观的、难以言表的“飞行感受”之间的桥梁。我们不再只能事后访谈,而是能“看到”负荷的起伏。那次实验中,我看到一位资深飞行员在完成一次高难度垂直着陆后,他的fNIRS前额叶氧合信号出现了一个明显的尖峰,而他自己在TLX问卷中只给了“中等”评分。他后来解释说:“习惯了,不觉得特别难。”但身体信号却诚实地说出了大脑那一刻的“全力以赴”。这种主客观之间的差异,正是我们需要技术去填补的认知鸿沟。
最后,一个小建议给想进入这个领域的朋友:别只盯着算法精度。航空人因工程是典型的交叉学科,理解飞行任务、懂得信号处理、熟悉机器学习,这三者缺一不可。多和飞行员交流,去模拟器上亲自体验一下那些机动动作,你才能真正理解哪些特征是有意义的,才能设计出真正有用的系统。毕竟,我们的最终目标不是让模型在测试集上多一个百分点,而是让每一次起降都更加安全。