news 2026/5/31 20:49:18

多模态 Embedding、CLIP 概念

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
多模态 Embedding、CLIP 概念

内嵌补充:对比文本 Embedding,总结异同点


一、回顾基础:什么是 Embedding

先复习你学过的文本 Embedding: 将文字、词语、句子,转化为固定维度的浮点向量

  • 核心作用:把人类语言,变成模型可计算、可比对的数字;
  • 应用:文本检索、语义匹配、RAG 向量库存储、相似度计算。

多模态 Embedding是它的延伸: 不止文本,还能把图片、图文组合都转为同维度向量,实现跨模态语义匹配


二、多模态 Embedding 分类

1. 图像 Embedding

输入:整张图片 输出:图片语义向量 逻辑:图像编码器提取画面内容、主体、场景、风格等特征,压缩为向量。 举例:一张 “书桌 + 电脑” 的图片,生成的向量,会和文字电脑桌面语义接近。

2. 图文联合 Embedding

输入:图片 + 描述文本输出:统一空间下的向量 核心目标:让语义相近的图和文,向量距离也相近,这也是 CLIP 的核心思想。


三、文本 Embedding vs 多模态 Embedding(重点对比)

表格

对比项文本 Embedding多模态 Embedding
处理对象仅文字(词 / 句 / 段落)文本、图像,支持图文混合
编码器文本模型(Transformer)图像编码器 + 文本编码器
向量空间纯文本语义空间统一跨模态语义空间
核心能力文本和文本做相似度匹配图 ↔ 图、文 ↔ 文、图 ↔ 文双向匹配
典型用途文本 RAG、文本查重、语义检索图文检索、多模态 RAG、图片分类、以图搜文 / 以文搜图

四、CLIP 模型(多模态经典标杆)

1. 定位

OpenAI 开源的图文匹配模型,是目前绝大多数多模态 Embedding、图文检索、多模态 RAG 的底层基础。

2. 整体结构

两个独立编码器组成:

  1. 文本编码器:基于 Transformer,把句子转为文本向量
  2. 图像编码器:基于卷积 / 视觉模型,把图片转为图像向量

两个编码器输出的向量维度完全一致,处在同一个向量空间。

3. 核心原理

训练目标: 让图片和它对应的描述文字,向量距离尽可能近; 让不匹配的图文,向量距离尽可能远。

举个例子:

  • 图片(猫咪)+ 文本一只小猫→ 向量相似度高
  • 图片(猫咪)+ 文本一辆汽车→ 向量相似度低

4. 两大核心使用场景(项目高频)

  1. 零样本图片分类不用单独训练分类器,直接用文字标签(//桌子)和图片做匹配,完成分类。
  2. 跨模态检索
  • 以文搜图:输入文字,召回语义最接近的图片
  • 以图搜文:输入图片,召回匹配的文本描述
  • 多模态 RAG:图文知识库检索

五、CLIP 特点总结

  1. 强通用性:不需要针对具体场景微调,开箱即用做图文匹配;
  2. 向量互通:图、文向量同维度,可直接计算余弦相似度;
  3. 局限:不擅长图像细节理解、OCR、复杂推理(这类场景要搭配专门 OCR + 大模型)。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/31 20:49:15

AI客服聊天记录优化:从全量加载到游标分页

文章目录前言背景第一战:SSE 滚动劫持原始问题第一次尝试:用 state 跟踪滚动位置根因:React 状态更新的时序窗口最终方案:useLayoutEffect 直接读 DOM这样在AI返回结果的同时,用户向上查看历史记录,互不影…

作者头像 李华
网站建设 2026/5/31 20:48:18

UVa 345 It‘s Ir-Resist-Able

题目描述 电阻器是电子电路中的常见元件。每个电阻器有两个端子,当电流流过电阻器时,部分电流转化为热量,从而“抵抗”电流的流动。电阻器对电流的抵抗程度用一个正数值表示,称为电阻值,单位是欧姆(Ohms\te…

作者头像 李华
网站建设 2026/5/31 20:28:42

深度学习生成模型(五)—— 自回归生成与 Normalizing Flow(五十三)

1. 定位导航 第 49-52 篇我们看完了 VAE、GAN、扩散、AE。生成模型还有两个重要分支: 分支 代表 特点 自回归 GPT, PixelRNN, WaveNet 链式分解,精确似然 Normalizing Flow RealNVP, Glow, FFJORD 可逆变换,精确似然 → 两者共同特点:直接计算 log⁡P(x)\log P(x)log

作者头像 李华
网站建设 2026/5/31 20:26:32

3天掌握ODrive:开源电机控制器的高性能控制算法实战

3天掌握ODrive:开源电机控制器的高性能控制算法实战 【免费下载链接】ODrive High performance motor control 项目地址: https://gitcode.com/gh_mirrors/od/ODrive 你是否在为机器人项目寻找精准的电机控制方案?面对复杂的控制算法和繁琐的参数…

作者头像 李华
网站建设 2026/5/31 20:21:31

Java程序员面试必备并发编程笔记公开!

有出去面试的朋友肯定深有感受,像我们刚入行那会面试的加分项现在卷得已经成为了面试的基础题(手动狗头)。其中最典型的就属这个Java并发编程了。之前一般只有大厂才会有高并发编程相关的面试内容,但现在只要你入了Java行业就会涉…

作者头像 李华