从模型的角度看,一个单词的词向量与一张图片的像素向量类似。
多个时间上连续的词向量(单词),组成了连续的语言文字;
多个时间上连续的像素向量(图片)组成了连续的视频;
三、两套体系的统一建模逻辑
正因为底层都是「向量 + 时序序列」,现代深度学习可以用同一类模型架构处理语言、视频任务:
- 序列通用模型通吃RNN、LSTM、GRU、Transformer、时序卷积网络,既可以处理词向量序列(翻译、对话、文本生成),也可以处理帧像素向量序列(动作识别、视频分类、帧预测)。
- 任务范式对齐
- 语言任务:基于历史词向量,预测下一个单词;
- 视频任务:基于历史帧向量,预测下一帧画面 / 动作。二者都是利用时序上下文,做序列建模与预测。
四、关键细节:相似之下的两处核心差异
虽然宏观范式一致,但向量来源、维度含义、序列特性有本质区别,补充区分便于深入理解:
1. 向量维度的含义不同
- 像素向量维度数量 = 图像总像素数,每个维度对应真实物理采样点(像素),维度具备明确的空间位置意义;向量长度由图像分辨率决定,维度通常极高(如 28×28=784 维、高清图可达上万维)。
- 词向量维度是人为设定的超参(如 64/128/256 维),维度仅代表抽象语义特征,无物理实体对应;向量维度远低于像素向量,属于低维稠密向量。
2. 序列的冗余与变化规律不同
- 视频帧序列相邻帧像素向量重叠度极高,大部分画面内容保持不变,变化只集中在运动区域;序列天然存在大量视觉冗余。
- 语言词序列每个词向量代表独立语义单元,相邻向量重叠度低,变化由语义推进驱动;冗余主要来自语气词、重复表述,和视频的画面冗余形态不同。
3. 原始信号的空间属性
- 像素向量源自二维空间图像,即便展平为一维向量,模型依然会刻意还原、利用空间结构(如 CNN、3D 卷积);
- 词向量本身无空间概念,只有先后时序与语义关联。
五、结合前文延伸:不变性、噪声与鲁棒性
无论是单向量还是序列,两类数据都面临真实场景干扰,模型设计目标高度一致:
- 单单元层面
- 词向量:屏蔽音量、音色、口音、环境噪音,只保留核心语义;
- 像素向量:屏蔽光照、平移、缩放、镜头噪点,只保留目标主体特征。
- 序列层面
- 语言序列:容忍口误、重复、填充词等冗余;
- 视频序列:容忍画面抖动、压缩失真、背景杂讯等干扰。
简言之:向量是信息的载体,时序是连接方式,模型最终目标都是穿透表层干扰,提取序列背后的本质信息(语义 / 行为)。
六、精简总结
从深度学习模型视角来看:单个单词对应的词向量,与单张图片对应的像素向量,同属数值化特征向量,是模型处理信息的基础静态单元。
将二者沿时间维度连续排布:多个时序相连的词向量,构成连贯的语言、文本或语音序列;多个时序相连的像素向量,逐帧拼接形成完整视频。
二者共享「静态向量→动态序列」的建模范式,可使用同类序列模型处理;
区别仅在于向量维度含义、原始空间属性、序列变化规律不同,但在特征提取、抗噪声、消除无关干扰的设计思想上高度统一。