多模态RAG实战教程：收藏级大模型技术详解，助你掌握未来发展方向-编程实验室

本文深入探讨多模态RAG技术的现状与发展，分析当前主流的两种实现思路：模态对齐和文本中间转换。尽管多模态RAG是未来发展方向，但目前技术仍处于初级阶段，存在诸多挑战。通过研究OpenAI的CLIP模型，作者揭示了多模态RAG的多种实现方式，并强调针对不同场景需采用不同实现策略。

“多模态RAG目前主流的思路有两种，一种是模态对齐，另一种是使用文本作为中间模态进行转换。”

RAG技术目前已经被广泛应用于智能问答，知识库等场景；但随着需求的不断深化，简单的文本问答已经很难满足需求，因此多模态RAG就被提上了日程。

但是，多模态模型虽然经过一两年时间的发展，但在多模态RAG领域依然存在很多问题，这也是目前多模态RAG应用比较少的原因之一；虽然说网上存在部分多模态RAG的教学，但大部分都是理论介绍和一些基础入门，而在实际开发中基本上没任何作用。

多模态RAG

但不管怎么说，多模态RAG作为未来的发展方向，我们还是要对其有一定的了解。

首先，第一点多模态指的是不同模态的数据，这里的模态指的是数据的不同形式，主要包括以下几种，文本，图片，音频，视频；其中表格数据算不上多模态类型，因为表格是一种数据组织结构，而不是一种数据格式。

其次，目前市面上所谓的多模态模型，大部分也仅仅支持两种模态，如文字转图片，语音，视频等；即使所谓的全模态模型，也只是只是更多的模态类型，但也只能同时使用一种；如你上传图片，就不能上传音频和视频内容。

如下图所示，虽然支持了多种模态的数据，但并不是同时支持多种模态数据。

而且，从工程开发的实操角度来看，你会发现这些多模态模型的请求接口，不同模态的数据使用的是不同的参数，并不能把多种模态的数据放到一块处理。

所以，从这一点来说，所谓的多模态其实应该叫两模态，主要就是文本与其它模态的转换。

我想很多人应该对多模态RAG比较好奇，因为很多人听说过多模态RAG，但好像在真实的工作中并没有遇到过多模态，或者说用到的很少。并且没有针对多模态RAG做个真正的工程化开发，大都是跑个小DEMO yy一下。

事实上，多模态RAG要远比我们想象中的复杂，它并不是说调几个多模态模型就可以了，它需要解决很多复杂的问题；如多模态的文档切分，提取，转换，生成，选择哪些模型，参数怎么传。

举个例子，如果针对一个房屋设计的文档做多模态RAG怎么搞？因为大楼设计的核心在于设计图，文字描述只是用来辅助理解，怎么精确的查找到需要的图纸？如果让模型仿照图纸做优化设计怎么搞？

当然，这其中很多问题作者到现在也没搞明白，但学一点就记录一点，哪怕都是问题至少也是自己学习和思考的过程。

首先，通过使用openai之前发布的老的经典多模态模型clip，作者发现一个问题；在之前，作者对多模态最直观的理解是文搜图和图搜图；这一点相对应用场景比较广，如电商平台的搜索功能，并且易于理解。

但之前作者认为的多模态RAG，就是让多模态模型去理解图片，音频或视频中的内容，并做文字总结；之后，再对总结的文字做向量化，之后通过文字向量计算的方式来查找。

但研究了Clip之后才发现，Clip是直接把文字，还有图片转换成向量，然后通过模态对齐的方式，让文字向量和图片向量产生关联，然后可以进行相似度计算。即通过文字搜图片(text-to-image)，通过图片搜文字(image-to-text)，通过文字搜文字(text-to-text)，通过图片搜图片(image-to-image)。

所以，现在多模态RAG的实现方式主要有两种或者说三种，一种是直接同模态数据进行搜索，如文本搜索，图搜图等；这种相对就比较简单，同一种模态的数据进行相似度计算也很合理。第二种就是跨模态，如文搜图，文生图等，让不同模态的数据产生交集；而针对这种跨模态数据，有两种实现方式，一种就是模态对齐的方式，直接把不同模态的数据转换成向量格式进行处理；第二种就是通过文本作为中间格式，比如对图片进行总结，然后生成总结文本，通过总结文本进行检索。并不直接对图片本身进行检索。

受限于模型技术的发展，多模态技术目前还处于初级阶段，还存在各种各样的问题；因此，多模态RAG针对不同的场景也有不同的实现思路，并不能一概而论。

如何学习AI大模型？

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

多模态RAG实战教程：收藏级大模型技术详解，助你掌握未来发展方向

如何学习AI大模型？

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

基于PLC的自动饲喂系统设计(设计源文件+万字报告+讲解)（支持资料、图片参考_相关定制）_文章底部可以扫码

基于PLC的生产线搬运机器人的机械手控制系统【程序与文档】(设计源文件+万字报告+讲解)（支持资料、图片参考_相关定制）_文章底部可以扫码

CTF Writeup 撰写实战指南：零基础到大师的核心方法，看这一篇就够了！

AI科学家Kosmos：数小时完成数月科研，引发行业热议

电梯升降的PLC控制

Java计算机毕设之基于springboot的智能果园数字化管理领航系统（完整前后端代码+说明文档+LW，调试定制等）