一、核心立论
人类自然语言是符号化、语义依附语境、无固定数值刻度的人文符号系统,计算机只能识别二进制与数值运算,文字无法直接输入模型计算,语义无法被芯片直接读取。因此,自然语言数值化(词嵌入 / 向量编码)是所有自然语言处理任务的前置必要条件,没有符号到数值的映射,分词、分类、抽取、翻译、大模型推理全部无从谈起。
二、为什么必须做语言数值化
- 硬件底层限制CPU、GPU 基于浮点、矩阵运算工作,汉字、英文单词只是字符编码,只代表字符编号,不承载语义信息。机器看不懂 “苹果代表水果 / 公司”,必须把词义转化为高维空间坐标(向量),用词与向量的空间距离表征语义远近。
- 算法数学要求无论是传统机器学习 SVM、逻辑回归,还是 Transformer 深度学习,全部依赖矩阵乘法、相似度计算、梯度优化。语义必须量化为实数向量,才能代入数学公式迭代训练。
- 语义可度量需求一词多义、上下文变义、隐喻潜台词无法用文字量化,只有转为动态向量,才能用空间距离区分同一词语在不同语境的语义差异,这也是从 Word2Vec 静态编码走向 BERT 动态编码的底层动因。
三、NLP 数值化三代演进(贴合前文语言演化逻辑)
1. One-hot 独热编码:原始映射,对标远古一词单义语言
每个字词映射一个离散独热向量,词与词相互正交、距离相等,无语义关联。 缺点:维度爆炸、无法表示词义关联,只完成 “字符数字化”,没实现 “语义数字化”,对应早期人类一词一物、符号与实物强绑定的原始语言。
2. Word2Vec/GloVe 静态词向量:一词一固定坐标,静态数值化
依托全局语料统计,将词语压缩为固定长度稠密向量,语义相近的词空间距离更近。 局限:一词仅有一组固定数值,无法处理一词多义,等价于一本固化字典,只能完成静态语义量化,适配不了人类语言引申义、隐喻用法。
3. BERT 动态词嵌入:一词多坐标,上下文动态数值化
依托双向 Transformer + 自注意力,同一词语随上下文变化生成不同向量数值,实时在高维空间更换坐标,真正实现语境驱动的动态语义量化。 完美匹配人类语言特征:一词多义、依托上下文确定词义,是当前深度 NLP 数值化的主流方案,但仍缺失场景、人际关系、语气等文本外信息的量化。
四、数值化串联 NLP 全任务
从基础任务到高阶大模型,全链路建立在向量之上:
- 基础任务:分词、词性标注→字词向量输入分类网络;
- 中层任务:实体识别、情感分析、摘要→依托向量语义相似度计算;
- 高阶任务:机器翻译、对话理解、潜台词识别→依靠动态嵌入捕捉上下文语义变化;
- 大模型:LLM 输入全部经过 Token 向量化,预训练本质就是优化海量词语在不同语境下的数值坐标。
五、落地边界:数值化现存短板(对标人脑语言理解)
数值化仅能把文本信息转为数字,人类语言的场景环境、人际关系、语气神态、社交客套等非文本信息难以量化编码。这就是 BERT、大模型可以搞定一词多义,但很难精准捕捉深层弦外之音的根源:部分社会化语义暂时无法被数值表征,也是 NLP 后续技术突破方向。
六、小结
自然语言从人文符号→实数向量的数值转化,是打通人类语言与计算机运算的唯一桥梁:没有数值化,自然语言只是字符;完成数值化,语义才可被机器计算、学习、理解,数值化是 NLP 从理论走向工程落地的先决基石。