第28章：多模态 Transformers 入门：图文检索与图片分类-编程实验室

1 项目背景

业务场景

某电商平台的内容审核团队每天要审核约 2 万张商品图片——检查图片是否与商品标题描述一致、图片中是否包含违禁内容（如二维码、联系方式、血腥暴力等）。目前依赖人工逐张审核，平均每人每天审核 800 张，团队 25 人刚好覆盖日常量。但大促期间图片量翻 3 倍，团队必须临时招聘外包审核员，培训成本高、质量不稳定。

更头疼的是"图文不符"问题——不少商家上传了与标题完全无关的图片。比如商品标题为"春季新款连衣裙"，配图却是一双运动鞋；或标题为"品牌 A 手机壳"，配图却放了品牌 B 的 logo。这种欺诈行为单纯靠 OCR 文字识别无法检测——因为图片上的文字可能也是假的。

技术总监提出：“能否用 AI 判断图片和文字描述是否匹配？同时自动过滤违规图片？”

痛点

传统方案只能单独处理文本或图片：

文本分类能识别商品标题的类别，但无法判断图片是否符合
图片分类能识别图片中的物体，但无法理解图片和文本的语义关系
OCR 能提取图片中的文字，但对于"图片里是一双鞋但标题是连衣裙"这种语义冲突无能为力

多模态 Transformer（CLIP、BLIP等）将文本和图片编码到同一个向量空间——可以直接计算"这双鞋的图片"和"春季连衣裙"的语义相似度，前者是图片向量，后者是文本向量，它们的 cosine 相似度很低（不相干），而"这双鞋的图片"和"运动鞋"的相似度很高——这就是图文匹配的核心能力。

<

汉惠帝刘盈：心地最善良的西汉悲情帝王

一、人物速览提到西汉皇帝，大家大多熟知开创基业的刘邦、开创盛世的文景二帝，却很少有人关注汉惠帝刘盈。作为西汉第二位皇帝、刘邦的嫡长子，刘盈（前210年－前188年）在位仅七年，是史书里存在感很…

李华

别再手动改PPT了！用Python+win32com批量生成100页报告，5分钟搞定

职场效率革命：用Pythonwin32com实现PPT自动化批量生成每次月底汇报前，市场部的张经理总要熬夜到凌晨两点——不是分析数据有多复杂，而是要把同样的分析模板套用到30个分公司的数据上，手动调整每页PPT的图表和文字。这种场景在咨询…

李华

7.5万字长文《置身钉内》出圈：钉钉AI项目ONE为何失败，戳中谁的痛点？

《7.5 万字长文“置身钉内”出圈：钉钉 AI 项目 ONE 为何失败，戳中了谁的痛点？》6月10日，阿里巴巴合伙人委员会在公司内网发布帖文《有情有义有成长，才是阿里文化》，表示公司合伙人组织关注到内网《置身钉内…

李华

用Python给通达信财务数据做个自动更新器（附多线程下载与增量同步代码）

Python自动化工具：构建通达信财务数据增量更新系统在量化投资和股票分析领域，及时获取准确的财务数据是基本面分析的基础。对于使用通达信数据的分析师而言，手动下载和更新财务数据不仅耗时耗力，还容易因人为疏忽导致数据不一致。…

李华

钉钉消息防撤回补丁：企业通讯安全的完整解决方案

钉钉消息防撤回补丁：企业通讯安全的完整解决方案【免费下载链接】DingTalkRevokeMsgPatcher 钉钉消息防撤回补丁PC版（原名：钉钉电脑版防撤回插件，也叫：钉钉防撤回补丁、钉钉消息防撤回补丁）由“吾乐吧软件…

李华

别再死记硬背了！用Verilog写移位寄存器，这3个实战场景帮你彻底搞懂

Verilog移位寄存器实战：从流水灯到数据转换的3个经典应用刚接触Verilog的硬件工程师常陷入一个怪圈：语法背得滚瓜烂熟，面对实际项目却无从下手。移位寄存器就是个典型例子——课本上定义背得再熟，不如亲手实现一个LED流水灯控制器…

李华