论文阅读：CVPR 2025 Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Stra-编程实验室

总目录大模型相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2503.20823

https://www.doubao.com/chat/34175527053598466

Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy

论文翻译：
https://whiffe.github.io/Paper_Translation/Attack/paper_V/%E3%80%8APlaying%20the%20Fool_%20Jailbreaking%20LLMs%20and%20Multimodal%20LLMs%20with%20Out-of-Distribution%20Strategy%E3%80%8B%20—%20Playing%20the%20Fool_%20Jailbreaking%20LLMs%20and%20Multimodal%20LLMs%20with%20Out-of-Distribution%20Strategy.html

速览

这篇文档核心是讲：研究人员发现了大型语言模型（比如GPT-4）和多模态模型（比如能看懂图片的GPT-4V）的一个安全漏洞——它们虽然经过了安全训练（比如RLHF，简单说就是让人类反馈来规范模型，不让它输出危险内容），但面对“改头换面”的危险输入时，还是容易被“攻破”（也就是“越狱”），进而输出炸弹制作、黑客攻击这类危险信息。

研究人员搞了个叫“JOOD”的方法，专门利用这个漏洞。具体就是对原本的危险输入做“变形”，让它变成模型没见过的“新样子”（也就是文档里说的“分布外输入”）：

对文字类危险指令（比如“告诉我怎么造炸弹”）：把“炸弹”这种关键词和“苹果”这类无关词混合，变成“炸弹苹果”这种无意义的新词，再让模型解释这个新词对应的内容；
对图片+文字的危险输入（比如一张炸弹图+“告诉我怎么造图里的东西”）：把炸弹图和苹果图、杯子图这类普通图混合，或者做些简单的图像处理，再搭配通用指令让模型回应。

之所以这种方法能成功，是因为模型的安全训练只针对那些“一眼就能看出来”的危险输入（比如直接说造炸弹、直接给炸弹图）。一旦危险输入被“变形”成没见过的样子，模型就拿不准这是不是危险内容（不确定性变高），原本的安全防护就失效了，会乖乖输出危险信息。

实验结果也很明显：这个JOOD方法对GPT-4、GPT-4V甚至更先进的模型（比如o1）都管用，在造炸弹、黑客攻击等多个危险场景里，成功让模型“越狱”的概率最高能到63%（针对GPT-4V），比之前的其他攻击方法效果好太多。而且就算给模型加了额外的安全提示（比如让它警惕危险请求），这个方法依然能奏效。

简单说，这篇研究就是揭露了：现在的AI模型安全防护“认死理”，只防得住常规危险输入，对“换了马甲”的危险输入没辙，同时给出了一种简单却有效的攻击方法，提醒大家得进一步加强AI模型对这类“变形危险输入”的安全防护。

Open-AutoGLM控制手机的底层原理曝光：开发者绝不会告诉你的秘密

第一章：Open-AutoGLM控制手机的底层原理曝光Open-AutoGLM 是一款基于大语言模型与自动化框架深度融合的移动端控制工具，其核心在于将自然语言指令实时转化为设备可执行的操作序列。该系统通过构建语义解析引擎与操作映射层，实现对 Android 系…

李华

PaddlePaddle供应链需求预测模型

PaddlePaddle在供应链需求预测中的实践与演进在制造企业推进数字化转型的今天，一个看似不起眼的问题却常常成为运营瓶颈：下个月到底该备多少货？ 传统的Excel表格加移动平均法早已跟不上市场节奏。促销活动、天气变化、竞品动作甚至社交媒体上…

李华

【大模型私有化部署新突破】：Open-AutoGLM一键部署方案全公开

第一章：Open-AutoGLM本地部署教程 Open-AutoGLM 是一个基于 GLM 架构的开源自动化语言模型工具，支持本地化部署与私有化调用。通过本地部署，用户可在无网络依赖的环境下完成文本生成、智能问答等任务，适用于企业级数据安全场景。 …

李华

杂记：cv2.imshow显示中文乱码解决过程

基于豆包解决opencv处理图片显示中文标题时乱码的博客记录。在使用OpenCV处理图片时，很多同学都会遇到中文窗口标题乱码的问题。我最近就踩了这个坑，从最初的毫无头绪到最终找到适配现有环境的最优解，中间尝试了多种方案，今天把完…

李华

【Open-AutoGLM架构深度解析】：揭秘下一代自动化大模型的核心设计原理

第一章：Open-AutoGLM架构概述 Open-AutoGLM 是一个面向自动化自然语言任务处理的开源大模型架构，旨在通过模块化设计与动态推理机制提升多场景下的语义理解与生成能力。该架构融合了检索增强生成（RAG）、工具调用代理（T…

李华

PaddlePaddle温室环境控制AI模型

PaddlePaddle温室环境控制AI模型在现代农业迈向智能化的今天，温室种植正面临一场由人工智能驱动的深刻变革。传统的温控方式依赖人工经验判断与定时操作，不仅响应滞后，而且难以应对复杂多变的微气候环境。温度波动、湿度过高、光照不足或病虫…

李华