news 2026/6/15 13:58:56

CompassVerifier:彻底改变 LLM 解决方案验证的新基准和稳健模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CompassVerifier:彻底改变 LLM 解决方案验证的新基准和稳健模型

总结

本文的重点是 “答案验证”,它对于评估 LLM 的性能和设计强化学习中的奖励至关重要。

传统的验证方法主要使用正则表达式进行简单的字符串匹配,或使用通用 LLM 作为决策者。

然而,前者需要定制规则,缺乏灵活性,而后者则需要针对具体任务进行及时调整,极易产生错觉和误判。

另一个制约因素是缺乏能够全面评估复杂问题和各种解决方案格式的综合基准。

为了解决这些问题,作者建立了一个名为 VerifierBench 的新评估平台,并开发了一个名为 CompassVerifier 的轻量级高精度验证模型。
这实现了包括数学、知识和推理在内的多学科答案验证,并提出了一个强大的框架,不仅能准确识别错误答案,还能识别无效答案。

建议的方法

作者提出的方法包括两大支柱。

第一个支柱是 VerifierBench。
这是从 50 多个模型和 15 个数据集中收集的 130 多万条回答的基准,通过多阶段自动验证和专家注释进行维护。除了正确和不正确的回答外,无效回答(如不完整、重复或被拒绝的回答)也会被清晰标注,从而实现比以往更精确的性能评估。

第二个是 CompassVerifier。

该模型使用 VerifierBench 作为其学习基础,并通过三个扩展进行了增强。

这些扩展包括:(1) 错误模式驱动的对抗扩展,以提高对错误分类的复原能力;(2) 复杂公式扩展,以提高对各种符号的等价判断能力;(3) 通用性扩展,以提高对不同任务和提示格式的适应能力。

这些创新使 CompassVerifier 比传统的基于正则表达式和基于 LLM 的验证器更加准确和稳健。

实验

在实验中,CompassVerifier 在 3B 到 32B 的参数范围内进行训练,并使用 VerifierBench 进行评估。

与通用 LLM(如 GPT-4o 和 DeepSeek-V3)以及现有专用验证器 xVerify 和 Tencent-RLVR 进行了比较。

结果,CompassVerifier 在所有领域都获得了新的 SOTAs。其中,32B 模型的准确率超过 90%,F1 分数超过 87%,明显高于同等规模的 LLM 和现有验证器。

此外,在按答案形式进行的评估中,虽然多选题获得了高分,但顺序答案和包含多个小问题的答案难度更大,传统模型的 F1 分数只有 40 分或更低,而 CompassVerifier 始终保持着较高的准确率。
此外,CompassVerifier 在强化学习中作为奖励模型的有效性也得到了验证,与基于规则的验证器相比,使用 CompassVerifier 进行的训练显示出更高的收敛效率和性能改进。

这证明,该模型不仅可以作为评估平台,还可以作为指导学习的奖励信号。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 8:25:26

RAG 查询重写

在 RAG 系统中,用户查询往往存在 “表述模糊”(如 “怎么煮米饭”)、“结构复杂”(如 “多步骤推理问题”)或 “上下文依赖”(如 “它的核心观点是什么”)等问题,直接导致检索漏检、…

作者头像 李华
网站建设 2026/6/15 8:21:56

锐捷RGSP | 无线安全技术介绍

一、WLAN安全概述 1. WLAN安全概述 无线链路的安全缺陷 物理信道的开放性 用户与AP之间的不需“可视” 2. 无线安全措施 无线安全的措施可以包括三方面 身份认证 确保只有具有授权凭证的授权用户才可以使用网络 数据加密和完整性 加密方法保证通过空口传输的数据安全 CRC(循…

作者头像 李华
网站建设 2026/6/14 2:14:14

语音情感标注工具开源:助力EmotiVoice数据共建

语音情感标注工具开源:助力EmotiVoice数据共建 在虚拟主播能实时与粉丝互动、游戏角色会因剧情转折而语气颤抖的今天,语音合成早已不再是“把文字念出来”那么简单。用户期待的是有情绪、有性格、甚至能“共情”的声音。然而,要让机器发出真正…

作者头像 李华
网站建设 2026/6/12 20:22:07

双锥混合机2025最新厂家推荐排行榜,专业实力与客户满意度深

在食品加工和医药制造等行业,企业选择双锥混合机时常常面临诸多难题。食品行业担心设备不符合食品安全标准,存在卫生死角,影响成品品质;医药行业则忧虑设备无法通过GMP认证,不能有效控制无菌环境,导致交叉污…

作者头像 李华