news 2026/6/22 2:17:01

[论文学习]AgentDAM:自主网路代理的隐私洩漏评估基准

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
[论文学习]AgentDAM:自主网路代理的隐私洩漏评估基准

AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents (NeurIPS 2025)

核心问题与动机

随着**自主 AI 代理(Autonomous Web Agents)**能力的快速提升,它们已经能够执行複杂的多步骤任务,例如网购、社群互动、程式码管理等,大幅提升生产力。

然而,这些任务通常需要代理存取使用者的个人敏感资讯(例如信用卡、聊天记录、医疗资料、宗教信仰等)。这引发了严重的隐私疑虑:代理是否能「适当」使用这些资讯,而非不必要地洩漏或处理?

传统隐私研究多聚焦于训练资料的隐私保护(如差分隐私、成员推断攻击),或仅透过简单提示(probing)询问 LLM 是否「应该」揭露某资讯。但这些方法忽略了实际执行情境(inference-time in action):代理在真实多步骤、互动式的网页环境中,是否会无意中将无关敏感资讯融入动作(如输入表单、发布贴文)?

先前工作(如 ConfAIde、PrivacyLens)多为对话式或模拟环境,缺乏端到端的真实性与多模态支援。

核心概念「Data Minimization」(资料最小化):代理仅在任务「必要」时使用敏感资讯。例如,用社安号报税是必要的,但在网购时不该使用。

论文以此原则为基础,提出AgentDAM(Agent DAta Minimization)基准,旨在系统性评估并推动代理在实际动作中遵守此原则。

这是第一个端到端、基于真实(但隔离可控)网页环境(如 WebArena / VisualWebArena)的代理隐私基准,涵盖 Reddit、GitLab、Shopping 等环境。

动机不仅是技术评估,更是呼吁 AI 代理开发者重视「推理时隐私」(inference-time privacy),避免代理在良性环境中仍造成隐私风险,进而影响使用者信任与实际部署。


结果 / 成果

  • 基准建构:包含246 个真实任务,使用合成但逼真的 user_data(长文聊天/笔记)。每个任务包含相关与无关敏感资讯,涵盖6 大类:个人联络、宗教政治、就业、金融、教育、医疗。任务设计透过人类註解 + LLM 生成,确保多样性与自然性。支援文字(axtree)与多模态(截图 + SOM)输入。

  • 评估框架:採用双轴评估

    • Utility(任务成功率):由环境状态自动判断
    • Privacy(洩漏率):使用 GPT-4o 作为 LLM Judge(CoT 推理),分析代理每一步动作是否洩漏 SENSITIVE DATA,人类验证一致性达98%。提供完整 trajectory 追踪。

主要实验结果(无 mitigation 时):

  • GPT 系列(4o、4o-mini、4-turbo)隐私表现较差,洩漏率约25%-46%(privacy score 约 0.54–0.75),但 utility 较高。
  • Llama-3 系列与 Claude-3.5-Sonnet (computer-use)隐私意识较强(~90%),但 utility 可能稍低。
  • 多模态输入略提升 utility,对 privacy 影响有限。
  • Probing vs. End-to-End:仅提示 LLM 询问隐私往往高估安全性(尤其 GPT),无法捕捉实际动作中的洩漏,也无法衡量 utility-privacy 权衡。

Mitigation 成效:提出 privacy-aware system prompt + CoT 示范(告知敏感类别、提供范例),显着降低洩漏率(多数模型提升至90%+,最高近 94%),但会略微降低 utility(偶有过度拒绝任务)。Pre-/Post-filtering 效果不佳。

开源完整基准、资料集与评估程式码,便于未来代理测试与改进。


分析与洞见

优势与创新
  • 真实性:使用自託管真实网页副本(非纯模拟),支援多模态与长 horizon 任务,远优于先前文字-only 或对话式基准。
  • 可扩展性:易适配现有 web navigation agents(如基于 LLM/VLM 的 scaffolding)。
  • 细緻性:区分「必要」与「无关」敏感资讯,LLM Judge 处理上下文 nuance(如匿名化是否算洩漏)。
  • 互补性:与训练时隐私、对抗攻击研究互补,聚焦 benign 环境下的 inference-time 风险。
局限与边缘考量
  • 资料为合成虚构情境,虽逼真但可能未完全涵盖真实世界的複杂性或 adversarial 攻击。
  • 任务规模有限(246 个),集中于特定三个网站;未来可扩展更多环境/任务类型。
  • Mitigation 仍非完美,存在 utility 下降(如 false denial-of-service),显示资料最小化与任务完成间的根本权衡
  • 依赖强大 LLM Judge,可能引入自身偏差;人类验证虽高,但大规模时成本高。
  • 模型差异:更强大的模型(如 GPT)在 utility 上优势明显,但 privacy 控制较弱,显示 scaling 未必自然解决隐私问题。Llama/Claude 在 privacy 上较保守,可能因训练或提示差异。
更广洞见

当前代理在「思考」隐私时表现良好,但在多步骤执行中易「忘记」或混淆资讯。这凸显 LLM 代理的上下文管理与指令遵循挑战

隐私不是静态属性,而是动态动作中的emergent 行为,需端到端基准才能准确测量。长期而言,这可能影响代理在企业/个人助理中的採用,特别是涉及高敏感资料的领域(如金融、医疗)。

相关考量:结合其他安全机制(如 prompt injection 防禦、工具隔离)或未来架构(如专用 privacy module)可能更有效。基准也为「可解释代理」或「对齐」研究提供新视角。


结论

AgentDAM是一项及时且重要的贡献,清晰定义并量化了自主网路代理的资料最小化问题,揭示当前前沿模型(GPT、Llama、Claude)在实际部署中仍存在显着隐私洩漏风险

虽然 prompting-based mitigation 有帮助,但结果强调需更多研究开发能原生优先考量隐私的代理架构

文章连结

  • arXiv: https://arxiv.org/abs/2503.09780
  • PDF: https://arxiv.org/pdf/2503.09780.pdf
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/22 2:16:04

基于强化学习的化学大模型后训练:提升药物分子生成质量

1. 项目缘起:当大模型遇上药物设计最近几年,大语言模型(LLM)在文本生成、代码编写等领域展现出的惊人能力,让很多领域的研究者都在思考一个问题:能不能把这种能力“嫁接”到我们自己的专业领域?…

作者头像 李华
网站建设 2026/6/22 2:14:04

显卡散热终极配置:一键降温快速实现方案

显卡散热终极配置:一键降温快速实现方案 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/FanControl.R…

作者头像 李华
网站建设 2026/6/22 2:08:29

基于YOLOv8与RexNet-150的两阶段深度学习考试作弊检测框架实战

1. 项目概述:为什么需要两阶段作弊检测? 在各类标准化考试、线上认证或严肃的考场环境中,如何有效、自动地识别作弊行为,一直是个技术与管理上的双重挑战。传统的监考依赖人力,不仅成本高昂,而且存在视觉疲…

作者头像 李华
网站建设 2026/6/22 2:02:54

RPJ机制实现藤蔓机器人局部刚度调制与形态控制

1. 项目概述:从“软体”到“刚柔并济”的藤蔓机器人在软体机器人领域,藤蔓机器人一直是一个极具魅力的研究方向。它模仿自然界中藤蔓植物的生长和攀附行为,旨在穿越复杂、非结构化的环境,比如废墟搜救、管道检测或者医疗内窥。传统…

作者头像 李华
网站建设 2026/6/22 2:00:50

MUSCAT基准:攻克多语言科学对话ASR的术语与代码切换难题

1. 项目缘起:当科学对话遇上多语言ASR最近在跟进一个跨国科研协作平台的项目,团队里来自不同国家的工程师和科学家经常需要通过视频会议进行技术讨论。一个反复出现的问题让我头疼不已:自动语音识别(ASR)系统在处理带有…

作者头像 李华
网站建设 2026/6/22 1:59:49

QGas工具:解决气体能源网络建模数据荒的拓扑感知数据生成方案

1. 项目缘起:当能源系统建模遇上“数据荒”如果你正在从事城市能源规划、综合能源系统仿真或者燃气网络优化相关的工作,大概率遇到过这样的困境:手头有一个绝佳的分析模型或算法,却苦于没有一份高质量、结构化的数据来驱动它。特别…

作者头像 李华