在人工智能和自动驾驶领域,“多模态”是一个非常高频的概念。但在不同语境下,“多模态”所表达的含义并不完全相同。
例如,我们经常会看到两个看似相近的概念:
- 多模态大模型,英文通常为multimodal foundation model
- 多模态驾驶动作分布,英文常见为multi-mode driving action distribution或multimodal action distribution
这两个概念都包含“多模态”或“multi-modal / multi-mode”这样的表述,但它们关注的对象、技术含义和应用场景并不一样。
简单来说:
多模态大模型中的“多模态”,指的是多种数据类型或信息来源;而多模态驾驶动作分布中的“多模态”,更准确地说是多个可能动作模式或概率分布中的多个峰。
本文将从概念定义、自动驾驶场景、技术本质和常见误区几个角度,系统解释这两者的区别。
一、多模态大模型中的“多模态”:多种数据类型
首先来看multimodal foundation model,也就是多模态基础模型或多模态大模型。
这里的“模态”指的是数据模态,也就是信息的不同表现形式。常见的数据模态包括:
| 数据模态 | 示例 |
|---|---|
| 文本 | 指令、问题、文章、对话 |
| 图像 | 摄像头图片、道路场景、医学影像 |
| 音频 | 语音、环境声音 |
| 视频 | 连续图像帧以及时间信息 |
| 点云 | 激光雷达、三维空间数据 |
| 传感器数据 | GPS、IMU、毫米波雷达、车辆 CAN 信号 |
| 地图数据 | 高精地图、道路拓扑、导航路线 |
因此,多模态大模型的核心能力是:
能够同时理解、对齐、融合和生成多种不同类型的数据。
例如,在自动驾驶场景中,车辆可能同时接收以下信息:
- 摄像头图像:识别车道线、交通灯、行人和车辆;
- 激光雷达点云:判断障碍物的距离和空间结构;
- 毫米波雷达:感知目标速度和相对运动;
- 高精地图:提供道路结构和交通规则信息;
- 文本指令:例如“导航到医院”;
- 历史轨迹:分析周围车辆和行人的运动趋势。
如果一个模型能够综合理解这些异构数据,并基于它们做出推理或决策,那么它就具备多模态大模型的特征。
这里的“多模态”强调的是:
输入和输出的信息形式不同。
也就是说,多模态大模型关注的是“模型能看什么、听什么、