论文阅读：ACL 2025 LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges-编程实验室

总目录大模型相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2506.10022

https://www.doubao.com/chat/33191546565944578

论文翻译：
https://whiffe.github.io/Paper_Translation/Attack/paper/LLMs%20%E9%99%B7%E5%85%A5%E7%BA%B7%E4%BA%89%EF%BC%9A%E6%81%B6%E6%84%8F%E8%BD%AF%E4%BB%B6%E8%AF%B7%E6%B1%82%E4%B8%8E%E8%B6%8A%E7%8B%B1%E6%8C%91%E6%88%98%20—%20LLMs%20Caught%20in%20the%20Crossfire_%20Malware%20Requests%20and%20Jailbreak%20Challenges.html

速览

这篇文档主要研究了大语言模型（比如ChatGPT、Llama这些能生成文字或代码的AI）在面对“恶意请求”时的安全性——简单说就是，坏人会不会用特殊手段让AI生成恶意代码（比如木马、盗号程序），以及现在的AI能不能防住这种攻击。

为了做这个研究，研究者先搞了个叫“MalwareBench”的测试数据集。这个数据集里有3520个“带陷阱的恶意请求”，是从320个真实的“想生成恶意代码的需求”改出来的，还用到了11种让AI“破防”的手段（比如把恶意关键词换成看似无害的词、用冷门语言提要求），覆盖了6大类恶意行为（比如让代码偷偷下载病毒、偷用户信息、搞瘫痪系统）。

然后他们用这个数据集测试了29个主流AI（既有ChatGPT、Claude这种闭源的，也有Llama、CodeLlama这种开源的，参数从几百M到几百B都有），看这些AI会不会拒绝生成恶意代码。结果发现几个关键问题：

现在的AI防恶意请求的能力不算强：平均下来，AI只拒绝了60.93%的恶意请求；如果用了那11种“破防手段”，拒绝率直接掉到39.92%——快一半的恶意请求都被AI满足了。
AI的表现和“请求细节”“模型大小”有关系：如果恶意请求写得很具体（比如“在Windows系统下写个偷键盘输入的代码”），AI反而更容易拒绝；而参数大的AI不一定更安全，有些大模型反而会生成看似正常、实则藏了恶意逻辑的代码。
不同“破防手段”效果不一样：最管用的是“把恶意词换无害词”（比如把“偷信息”说成“记录用户操作”），AI几乎防不住；而像“用代码片段插在请求里”这种手段，部分AI能防住。
少数AI表现还不错：比如闭源的OpenAI-o1、开源的CodeLlama-70B，拒绝恶意请求的比例能到75%以上，这俩主要是训练时加了更多“安全对齐”的内容（比如用人类反馈教AI识别恶意请求）。

最后研究者也说，他们的测试还有不足（比如只用了一种AI生成“陷阱请求”、没覆盖所有恶意场景），但希望这个研究能帮大家重视AI的代码安全问题，后续把AI的“防恶意生成”能力做得更好。

当我们谈论降低AIGC占比时，我们究竟在优化什么？

01 新规则下的新困境：被量化的“AI痕迹” 曾几何时，“查重”是悬在学术写作头上的达摩克利斯之剑，我们与“重复率”这个数字斗智斗勇。如今，一道新的闸门已然落下——AIGC检测。它不再仅仅关心你与他人文字的相似度，而…

李华

快速解决face-parsing模型5大常见故障：完整排错指南

快速解决face-parsing模型5大常见故障：完整排错指南【免费下载链接】face-parsing 项目地址: https://ai.gitcode.com/hf_mirrors/jonathandinu/face-parsing 人脸解析（Face Parsing）技术能够精确识别和分割面部特征，为美…

李华

基于GitHub通知机制的钓鱼攻击与供应链安全防御研究

1 引言近年来，随着开源生态系统的快速发展，软件开发高度依赖于平台化协作工具。GitHub作为全球最大的代码托管平台，已成为现代软件供应链中的关键基础设施。其内置的通知系统（Notifications）在提升开发者协作效率的同时…

李华

Java面试题及答案整理

试了8家公司，6家拿到offer！亲测这套“最快通过法”超实用，不管是零基础转行还是经验不足，按这个逻辑准备，面试通过率直接翻倍✨ 简历先“贴”岗位，让HR第一眼就想约你核心是“JD关键词全匹配”&#xff…

李华

异步电机前馈解耦矢量控制仿真程序——包含前馈补偿、SVPWM环节及dq轴电流环解耦的高级仿真模拟程序

异步电机前馈解耦矢量控制仿真程序本仿真不是最基础的转速环和电流环两个环路的仿真，有前馈补偿，svpwm等环节，适合异步电机矢量控制学习。 dq轴电流环的耦合在高速以及动态调节时有较大影响，本程序增加了前馈解耦环节&#xff0c…

李华

Inspector Spacetime：一键生成关键帧数据的动效设计终极解决方案

Inspector Spacetime：一键生成关键帧数据的动效设计终极解决方案【免费下载链接】inspectorspacetime Inject motion specs into reference video to become an engineers best friend 项目地址: https://gitcode.com/gh_mirrors/in/inspectorspacetime 在当…

李华