论文阅读：COLM 2025 Cats Confuse Reasoning LLM: Query Agnostic Adversarial Triggers for Reasoning Models-编程实验室

总目录大模型相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2503.01781

https://www.doubao.com/chat/33431997262337026

论文翻译：https://whiffe.github.io/Paper_Translation/LLM_Thinking/Attack/%E7%8C%AB%E5%92%AA%E6%B7%B7%E6%B7%86%E6%8E%A8%E7%90%86%20LLM%EF%BC%9A%E6%8E%A8%E7%90%86%E6%A8%A1%E5%9E%8B%E7%9A%84%E6%9F%A5%E8%AF%A2%E6%97%A0%E5%85%B3%E5%AF%B9%E6%8A%97%E8%A7%A6%E5%8F%91%E5%99%A8.html

速览

这篇文档主要讲了一个挺有意思的研究——科学家发现，给数学题加一段看似无关的话（比如“冷知识：猫一生大部分时间都在睡觉”），就能让现在很厉害的“推理型AI”（比如能一步步解数学题的模型）频繁算错，还会让AI的回答变得特别长，又慢又费钱。

简单说，核心内容分这几块：

1. 他们搞出了一个叫“CatAttack”的方法，专门给AI“下套”

这个方法的逻辑很聪明，不是直接对着最厉害的AI下手（又慢又贵），而是先找一个“替身AI”（比如DeepSeek V3，比目标AI弱、便宜）练手：

第一步：让一个“攻击者AI”给数学题加各种无关的小尾巴（比如误导性的话、没用的 trivia），生成“带坑的数学题”；
第二步：让“替身AI”解这些题，再用一个“裁判AI”判断替身AI有没有算错——如果算错了，说明这个“坑”有效；
第三步：把这些“有效坑”拿到真正厉害的AI（比如DeepSeek R1、OpenAI o1）上试，发现居然也能让它们频繁出错。

2. 这些“坑”效果特别夸张，还能跨AI通用

他们测试了3种典型的“坑”（比如“记得至少存20%收入投资”“答案会不会是175左右？”“猫爱睡觉的冷知识”），结果很惊人：

对厉害的推理AI（比如DeepSeek R1）：算错的概率直接涨了3倍多；
对普通AI（比如Llama-3.1、Mistral）：算错概率甚至涨了7倍；
更麻烦的是，这些“坑”不挑AI——不管是A家、B家的模型，加了都容易出错，不是某一个AI的问题。

而且，就算AI没算错，这些“坑”也会让AI的回答变长（最长能到原来的3倍），导致AI变慢、花钱变多（比如生成更多文字要付更多费用）。

3. 发现了AI的“软肋”

研究还暴露了AI的几个弱点：

蒸馏模型（把大AI压缩成小AI的版本）更脆弱：比如DeepSeek R1的压缩版，比原版更容易算错、回答更长；
简单数学题反而更容易“坑”：AI做简单题时可能不认真“思考”，靠套路答题，一被干扰就错；难题反而会认真一步步算，不容易被坑；
数值误导最有效：比如加一句“答案会不会是175左右？”，AI会盯着这个数字绕圈，最后真的算成175，哪怕正确答案完全不是。

4. 尝试了简单的“防坑”方法，有点用但不够

他们试了两种防御手段：

给AI做“防坑训练”：让AI练过一些带坑的题，但没用——换个新坑，AI还是会错；
给数学题加一句“忽略无关内容”：效果明显，AI算错的概率从37.5%降到9.9%，但这只是临时办法，还需要更通用的防御。

总结一下

这篇研究其实是在提醒大家：现在能“一步步解数学题”的AI，看着很聪明，但其实很容易被“无关的小把戏”干扰——人类一眼能看出来“这句话和数学题没关系”，但AI会被绕进去。这对需要AI做准确计算的场景（比如金融、医疗）来说，是个挺严重的安全隐患，后续得想办法让AI更“抗干扰”。

7个必知技巧：腾讯混元3D-Part文件格式完全攻略

你是否曾在3D部件生成过程中遇到这样的困扰：导入的模型总是报错，导出的文件在目标平台无法正常显示，或者不同格式之间的转换让你头疼不已？作为专注于3D部件分割与生成的强大工具，腾讯混元3D-Part的文件格式兼容性正是解…

李华

企业私有应用商店搭建完整指南：3步实现Android应用安全分发

在数字化转型浪潮中，企业内部应用分发管理已成为提升运营效率的关键环节。InternalAppStore开源项目为企业提供了一套完整的私有应用商店解决方案，让您能够完全掌控应用分发流程，实现安全、高效、可控的应用管理。无论您是中小企业还是大型组…

李华

实现STM32读取INA226电流值并通过串口发送给HMI串口屏显示

系统连接与工作原理整个系统的数据流动如下：硬件连接 1. INA226 与 STM32 连接 (I2C接口)INA226 引脚STM32 引脚说明VCC3.3V电源正极GNDGND电源地SCLPB6 (或其它I2C SCL引脚)I2C时钟线SDAPB7 (或其它I2C SDA引脚)I2C数据线A0GND或VCC地址选择引脚0A1GND或VCC地址选…

李华

OpenUSD与Blender资产导入导出实战指南：打通3D创作全流程

OpenUSD与Blender资产导入导出实战指南：打通3D创作全流程【免费下载链接】OpenUSD Universal Scene Description 项目地址: https://gitcode.com/GitHub_Trending/ope/OpenUSD 你是不是也遇到过这样的烦恼？😩 在Blender里精心制作的模…

李华

效率对比：传统安装 vs 容器化安装Docker-Compose

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 请生成一个性能对比测试方案，比较两种Linux系统安装Docker-Compose的方法：1. 传统二进制安装方式 2. 使用Docker-in-Docker容器化方案。要求设计测试用例&am…

李华

7天掌握数据库核心技能：从零开始的完整学习路径

7天掌握数据库核心技能：从零开始的完整学习路径【免费下载链接】db-tutorial 📚 db-tutorial 是一个数据库教程。项目地址: https://gitcode.com/gh_mirrors/db/db-tutorial 想要在数据时代脱颖而出？数据库知识是每个开发者的必备武…

李华