做多模型安全策略对比时,可以先了解一下库拉这个AI模型聚合平台,一站接入多个主流模型,方便在同一套prompt下对比不同模型的安全过滤表现。最近把Gemini 3.1 Pro的安全机制从配置到实测完整跑了一遍,结合国内AIGC合规要求,整理出这篇分析。![]()
safety_settings:颗粒度比你想象的细
Gemini 3.1 Pro的安全过滤器已经支持per-category阈值覆盖。每个危害类别可以独立设定危害等级和阻断阈值,阈值作用于细粒度token级风险评分聚合结果。
配置项包含两类阈值:BLOCK_ONLY_HIGH和BLOCK_MEDIUM_AND_ABOVE。针对HARM_CATEGORY_SEXUAL_CONTENT设为BLOCK_MEDIUM_AND_ABOVE,可以拦截含隐喻性描述的输出。如果需要保留技术文档中的合规术语,比如"penetration testing"这类渗透测试术语,应将HARM_CATEGORY_DANGEROUS_CONTENT的阈值设为BLOCK_ONLY_HIGH。
一个容易踩的坑:未在safety_settings数组中声明的类别,会继承全局默认策略BLOCK_ONLY_HIGH。不显式配置,某些风险类别可能处于较宽松的状态。
中国信通院的多模态安全基准测试
中国信通院联合30余家单位发起了AI Safety Benchmark Q3测试,以图文多模态内容安全为核心。
文生图维度测试了6个模型。结果呈现一个有意思的规律:输出内容相关性分数较高的模型,普遍具有较高的内容有害率。指令遵循能力和安全性之间存在张力。但测试中也发现了少量两者兼顾的高性能模型。
图生文维度测试了7个模型,结论更严峻。所有模型在内容有害率上普遍得分较高,当前的多模态图文理解模型普遍存在内容安全问题。违法违规和AI意识等方面的风险相对突出,容易根据恶意文本提问和输入图片进行正面回答。
TC260对生成式AI的安全要求
全国网络安全标准化技术委员会发布的《生成式人工智能服务安全基本要求》,是目前国内AIGC合规的核心参考。
语料安全方面,采集前后都需安全评估,违法信息比例不超过5%。来源须多样化且可追溯,涵盖开源语料、自采语料、商业语料及用户输入的合法授权。
模型安全方面,使用第三方基础模型必须确保已获主管部门备案。训练过程中内容安全性应作为主要评价指标,同时建立监测机制及时处理安全问题。
安全措施方面,需提供关闭个人信息用于训练的选项,防范恶意攻击,定期安全审计,并建立备份恢复策略。
Gemini 3.1 Pro的system_instruction与安全
Gemini 3.1 Pro支持在请求体中以独立字段传入system_instruction。该字段不再合并至用户消息流,而是作为独立上下文锚点参与注意力权重初始化。
从安全角度看,这个设计有实际意义。system_instruction可以用来注入安全约束——比如"不得生成任何违法内容""拒绝回答涉及暴力或歧视的请求"。这些约束通过独立字段传入,不容易被用户的恶意prompt覆盖。
但有两个限制需要注意。内容长度不超过2048个Unicode字符,超长会被静默截断且不报错。禁止嵌入变量占位符,3.1 Pro不支持运行时模板替换。设计安全策略时要考虑这些约束。
AIGC的刑事合规边界
从法律层面看,AIGC产业链涉及三类责任主体:服务提供者、技术支持者和服务使用者。
服务提供者有义务设置过滤和监控机制,避免不良信息输出。未履行此义务可能导致刑事责任。《生成式人工智能服务管理暂行办法》第九条要求服务提供者承担网络信息内容生产者责任,第十四条明确要求发现违法内容须及时采取停止生成、消除等处置措施。
即使服务提供者与使用者之间不存在犯意联络,也可以通过主观上的推定明知入罪。技术中立原则出罪的难度在加大,这对所有AIGC服务提供者提出了更高的合规要求。
EU AI Act的风险等级框架
欧盟AI法案将AI系统分为四个风险等级。不可接受风险涉及欺骗、歧视或危害人权,风险分数R大于0.8时触发。高风险影响医疗或金融等关键领域,0.5到0.8区间需严格监管。
AIGC合规检测需要评估偏见强度、欺骗可能性和社会影响三个维度。加权模型计算公式中,偏见权重通常设为0.4,高于其他维度。出海产品需要特别关注这套评估体系。
实际开发中怎么配
综合以上分析,给开发者几个实操建议。
第一,显式声明所有风险类别的阈值,不要依赖默认策略。第二,system_instruction中加入明确的安全约束,限制模型输出边界。第三,response_mime_type指定为application/json时,模型会自动补全JSON结构,但安全过滤发生在结构化之前,两层机制不冲突。
对国内项目,TC260的5%违法信息比例上限是硬指标。对出海项目,EU AI Act的风险等级评估需要纳入CI/CD流程。
趋势判断
2026年AI安全已经从"可选项"变成"必选项"。模型能力在提升,攻击面也在扩大。多模态输入带来的安全挑战比纯文本更复杂,单一模态的过滤策略不够用。
Gemini 3.1 Pro的安全配置颗粒度在主流模型中属于较细的水平。但配置粒度再细,也需要开发者主动设置和持续调优。模型提供的是工具,合规是使用者的责任。
有具体场景想讨论的,评论区见。