news 2026/6/15 18:09:11

论文解读:EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
论文解读:EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models

EasyEdit2——即插即用的LLM行为控制(Steering)框架:

1、支持广泛的测试时干预,包括安全性、情绪、个性、推理模式、事实性和语言特征。

2、关键模块:转向向量生成器转向向量应用器

论文发表于EMNLP 2025 System Demonstrations,Arxiv链接:https://arxiv.org/abs/2504.15133v3。

干预场景

如图2所示。

  1. 安全性:防止模型生成有害内容,如破解行为、减少偏见、拒绝不安全的查询、确保遵守法规,并减少隐私泄露的风险。

  2. 情感:控制模型输出的情感色彩,将情感从负面调整为正面,特别是在心理健康等领域中保持支持性的语气。

  3. 个性:探索不同个性如何影响模型行为,增强角色扮演的能力,并塑造模型所表现的内在价值观。

  4. 推理模式:调整推理的长度和风格,鼓励更加深思熟虑的思考,并根据不同领域的需求强制执行结构化的推理模式。

  5. 事实性:干预模型的事实知识,处理幻觉现象,支持知识编辑,并提高模型的自我验证能力。

  6. 语言特征:控制输出语言的使用,包括格式、句法结构、风格变化以及对单词层次的调整。

框架结构

如图3所示。

转向向量生成器(BaseVectorGenerator):可调用各种干预方法,在数据集上迭代生成转向向量。生成的向量可直接应用,或保存本地。

转向向量应用模块(BaseVectorApplier):可同时用多种方法将转向向量集成到目标模型,如基于提示、基于激活和基于解码等。

模型包装器:保留并集成多个转向向量以及用户提示,简化转向,增强模型行为控制。转向干预后,提供了两种操作模式:

  • 返回修改后的模型以供立即、低代码使用;

  • 根据配置设置、评估数据集生成评估文件。

对于评估,我们提供了Evaluators模块,该模块集成了基于规则、基于分类器和基于LLM的方法,以支持不同的场景。基于LLM的方法进一步实现了自适应和用户定义的场景评估。所有模块都利用Hparams模块进行灵活一致的配置。

转向向量库与合并:

  • 导向矢量库:维护了一个针对各种场景优化的转向向量库,包括情绪控制、安全对齐等。用户能直接应用。

  • 转向向量合并模块:可组合多个转向向量,结合多种合并策略,包括Linear、TIES和DARE-TIES。

两层超参管理:

  • 一层:管理通用设置、向量生成、向量应用和评估参数的统一配置文件,整个框架使用此配置运行。

  • 二层:转向方法的超参文件,包含转向向量生成和应用两个配置。继承自公共基类HyperParams。

数据集模块(DatasetLoader):统一评估数据集格式,根据配置加载和预处理数据。

评估器模块:基于配置在各种数据集上评估干预后模型的生成质量。评估方法分为基于规则、基于分类器和基于LLM。支持利用强LLM(如GPT-4)处理复杂的转向概念:用户指定要评估的转向概念,并使用预设模板对输入进行格式化。然后计算评估指标(概念相关性、教学相关性和流畅性得分等)。

实验

表1:6个评估场景样例。

表2:各干预、融合方法在安全、和情感任务上的性能对比。发现同时控制安全和情感的融合向量有更好的表现。

重要对比方法

单干预方法:CAA、STA、LM-Steer、Prompt-auto

干预融合方法:TIES、DARE-TIES

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/4 20:54:25

AI重塑软件,赋能产业未来——2025软件技术大会在京成功举办

近日,由中科软科技股份有限公司主办的“2025软件技术大会”在北京国家会议中心隆重举行。本次大会以“AI重塑软件,赋能产业未来”为主题,聚焦大模型、AIGC、数据智能等前沿技术对软件架构、开发范式及行业应用带来的深刻变革,吸引…

作者头像 李华
网站建设 2026/6/15 14:18:01

积木报表批量打印实战:告别手动排版,5分钟搞定千张单据套打

积木报表批量打印实战:告别手动排版,5分钟搞定千张单据套打 【免费下载链接】jimureport 「数据可视化工具:报表、大屏、仪表盘」积木报表是一款类Excel操作风格,在线拖拽设计的报表工具和和数据可视化产品。功能涵盖: 报表设计、…

作者头像 李华
网站建设 2026/6/10 2:33:44

MASt3R完整入门指南:如何快速掌握3D图像匹配技术

MASt3R完整入门指南:如何快速掌握3D图像匹配技术 【免费下载链接】mast3r Grounding Image Matching in 3D with MASt3R 项目地址: https://gitcode.com/GitHub_Trending/ma/mast3r MASt3R是一个革命性的3D图像匹配开源项目,能够将二维图像精准地…

作者头像 李华
网站建设 2026/6/9 18:35:46

5分钟掌握xsv:极速CSV数据处理终极指南

5分钟掌握xsv:极速CSV数据处理终极指南 【免费下载链接】xsv A fast CSV command line toolkit written in Rust. 项目地址: https://gitcode.com/gh_mirrors/xs/xsv 还在为处理大型CSV文件而头疼吗?当Excel打开GB级文件卡死、Python脚本运行缓慢…

作者头像 李华
网站建设 2026/6/15 9:25:27

YOLOv8自定义数据集训练教程:修改data‘your_data.yaml‘即可

YOLOv8自定义数据集训练实战:只需修改your_data.yaml 在智能安防摄像头自动识别可疑行为、工业质检设备精准定位产品缺陷的今天,目标检测早已不再是实验室里的概念。而YOLOv8作为当前最主流的实时检测方案之一,正被越来越多开发者用于构建实际…

作者头像 李华
网站建设 2026/6/9 20:00:56

导师推荐2025最新!10款AI论文平台测评:本科生毕业论文全攻略

导师推荐2025最新!10款AI论文平台测评:本科生毕业论文全攻略 2025年AI论文平台测评:为何值得一看? 随着人工智能技术的不断进步,越来越多的本科生开始借助AI工具辅助论文写作。然而,面对市场上琳琅满目的AI…

作者头像 李华