1 项目背景
业务场景
某电商平台的内容审核团队每天要审核约 2 万张商品图片——检查图片是否与商品标题描述一致、图片中是否包含违禁内容(如二维码、联系方式、血腥暴力等)。目前依赖人工逐张审核,平均每人每天审核 800 张,团队 25 人刚好覆盖日常量。但大促期间图片量翻 3 倍,团队必须临时招聘外包审核员,培训成本高、质量不稳定。
更头疼的是"图文不符"问题——不少商家上传了与标题完全无关的图片。比如商品标题为"春季新款连衣裙",配图却是一双运动鞋;或标题为"品牌 A 手机壳",配图却放了品牌 B 的 logo。这种欺诈行为单纯靠 OCR 文字识别无法检测——因为图片上的文字可能也是假的。
技术总监提出:“能否用 AI 判断图片和文字描述是否匹配?同时自动过滤违规图片?”
痛点
传统方案只能单独处理文本或图片:
- 文本分类能识别商品标题的类别,但无法判断图片是否符合
- 图片分类能识别图片中的物体,但无法理解图片和文本的语义关系
- OCR 能提取图片中的文字,但对于"图片里是一双鞋但标题是连衣裙"这种语义冲突无能为力
多模态 Transformer(CLIP、BLIP等)将文本和图片编码到同一个向量空间——可以直接计算"这双鞋的图片"和"春季连衣裙"的语义相似度,前者是图片向量,后者是文本向量,它们的 cosine 相似度很低(不相干),而"这双鞋的图片"和"运动鞋"的相似度很高——这就是图文匹配的核心能力。