[论文学习]AgentDAM:自主网路代理的隐私洩漏评估基准-编程实验室

AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents (NeurIPS 2025)

核心问题与动机

随着**自主 AI 代理（Autonomous Web Agents）**能力的快速提升，它们已经能够执行複杂的多步骤任务，例如网购、社群互动、程式码管理等，大幅提升生产力。

然而，这些任务通常需要代理存取使用者的个人敏感资讯（例如信用卡、聊天记录、医疗资料、宗教信仰等）。这引发了严重的隐私疑虑：代理是否能「适当」使用这些资讯，而非不必要地洩漏或处理？

传统隐私研究多聚焦于训练资料的隐私保护（如差分隐私、成员推断攻击），或仅透过简单提示（probing）询问 LLM 是否「应该」揭露某资讯。但这些方法忽略了实际执行情境（inference-time in action）：代理在真实多步骤、互动式的网页环境中，是否会无意中将无关敏感资讯融入动作（如输入表单、发布贴文）？

先前工作（如 ConfAIde、PrivacyLens）多为对话式或模拟环境，缺乏端到端的真实性与多模态支援。

核心概念「Data Minimization」（资料最小化）：代理仅在任务「必要」时使用敏感资讯。例如，用社安号报税是必要的，但在网购时不该使用。

论文以此原则为基础，提出AgentDAM（Agent DAta Minimization）基准，旨在系统性评估并推动代理在实际动作中遵守此原则。

这是第一个端到端、基于真实（但隔离可控）网页环境（如 WebArena / VisualWebArena）的代理隐私基准，涵盖 Reddit、GitLab、Shopping 等环境。

动机不仅是技术评估，更是呼吁 AI 代理开发者重视「推理时隐私」（inference-time privacy），避免代理在良性环境中仍造成隐私风险，进而影响使用者信任与实际部署。

结果 / 成果

基准建构：包含246 个真实任务，使用合成但逼真的 user_data（长文聊天/笔记）。每个任务包含相关与无关敏感资讯，涵盖6 大类：个人联络、宗教政治、就业、金融、教育、医疗。任务设计透过人类註解 + LLM 生成，确保多样性与自然性。支援文字（axtree）与多模态（截图 + SOM）输入。
评估框架：採用双轴评估
- Utility（任务成功率）：由环境状态自动判断
- Privacy（洩漏率）：使用 GPT-4o 作为 LLM Judge（CoT 推理），分析代理每一步动作是否洩漏 SENSITIVE DATA，人类验证一致性达98%。提供完整 trajectory 追踪。

主要实验结果（无 mitigation 时）：

GPT 系列（4o、4o-mini、4-turbo）隐私表现较差，洩漏率约25%-46%（privacy score 约 0.54–0.75），但 utility 较高。
Llama-3 系列与 Claude-3.5-Sonnet (computer-use)隐私意识较强（~90%），但 utility 可能稍低。
多模态输入略提升 utility，对 privacy 影响有限。
Probing vs. End-to-End：仅提示 LLM 询问隐私往往高估安全性（尤其 GPT），无法捕捉实际动作中的洩漏，也无法衡量 utility-privacy 权衡。

Mitigation 成效：提出 privacy-aware system prompt + CoT 示范（告知敏感类别、提供范例），显着降低洩漏率（多数模型提升至90%+，最高近 94%），但会略微降低 utility（偶有过度拒绝任务）。Pre-/Post-filtering 效果不佳。

开源完整基准、资料集与评估程式码，便于未来代理测试与改进。

分析与洞见

优势与创新

真实性：使用自託管真实网页副本（非纯模拟），支援多模态与长 horizon 任务，远优于先前文字-only 或对话式基准。
可扩展性：易适配现有 web navigation agents（如基于 LLM/VLM 的 scaffolding）。
细緻性：区分「必要」与「无关」敏感资讯，LLM Judge 处理上下文 nuance（如匿名化是否算洩漏）。
互补性：与训练时隐私、对抗攻击研究互补，聚焦 benign 环境下的 inference-time 风险。

局限与边缘考量

资料为合成虚构情境，虽逼真但可能未完全涵盖真实世界的複杂性或 adversarial 攻击。
任务规模有限（246 个），集中于特定三个网站；未来可扩展更多环境/任务类型。
Mitigation 仍非完美，存在 utility 下降（如 false denial-of-service），显示资料最小化与任务完成间的根本权衡。
依赖强大 LLM Judge，可能引入自身偏差；人类验证虽高，但大规模时成本高。
模型差异：更强大的模型（如 GPT）在 utility 上优势明显，但 privacy 控制较弱，显示 scaling 未必自然解决隐私问题。Llama/Claude 在 privacy 上较保守，可能因训练或提示差异。