news 2026/5/1 7:34:57

Goedel-Prover-V2:通过自我修正和逐步数据合成实现高效自动定理证明的新发展

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Goedel-Prover-V2:通过自我修正和逐步数据合成实现高效自动定理证明的新发展

概述

本文提出了自动定理证明(ATP)的新底层模型 Goedel-Prover-V2。

以往的研究需要超大模型(数百个 B 级参数)和庞大的推理计算,这限制了开源模型的性能。

因此,作者引入了一种新颖的学习方法和数据生成策略,以实现高效和高性能的定理证明。

具体来说,他们采用了 “脚手架式数据合成”(生成难度逐步调整的合成问题)、“验证者指导下的自我修正”(利用精益编译器的反馈)和 “模型平均”(保持输出多样性)。平均化 "来保持输出的多样性。

结果,即使只有 32B 大小的模型,也超越了传统的 671B 模型,成功解决了
MiniF2F 基准中的 88.1%(自校正后为 90.4%)和 PutnamBench 中的 86 个问题,为开源模型设定了新的高标准。开源建模达到了新的最高水平。

这表明,无需依赖庞大的计算资源,就能高效地进行高级数学推理。

建议的方法

拟议方法的核心是将 "自我修正 "和 "逐步数据合成 "与使用长思维链的定理证明融合在一起。

首先,"验证器指导下的自我修正 "是一种机制,模型生成的证明通过精益编译器运行,精益编译器分析错误信息并生成修改版本。
这样,用户就能从错误中吸取教训,完成证明,就像人类改进证明一样。

接下来,脚手架数据合成会合成未解决的子问题和从难题的失败尝试中获得的更简单的变体,为模型提供高效的学习信号。
这样,就能利用难度等级进行有效的训练。

此外,还引入了模型平均法,对不同训练阶段获得的模型进行加权平均,以提高性能,同时防止遗漏变体。
最后,我们设计了一个连贯的学习管道,将 SFT(监督微调)、RL(强化学习)和模型平均化结合在一起,从而产生了高效、稳健的定理证明模型。

实验

主要在 MiniF2F 和 PutnamBench 上进行了评估,结果证实,所提出模型的性能明显优于传统方法。

在MiniF2F(高中数学-国际数学奥林匹克水平)Goedel-Prover-V2-32Bはpass@32で88.1%,自校正模式达到90.4%,超过了DeepSeek-Prover-V2-671B。
此外,在 PutnamBench(大学数学竞赛题)中,它成功解决了 86 道题,比之前的 47 道题有了显著提高。

甚至在 MiniF2F 中,8B 模型的表现也优于 671B 模型,这有力地证明了它的效率。

此外,自我修正的效果也得到了量化证明,在 pass@32 的基础上平均提高了 2 分。

缩放分析也证实了 “高样本效率”,即只需生成少量样本即可实现高精度。

这些实验结果表明,即使对于小规模的模型,所提出的方法也能实现最先进的定理证明能力,支持其作为未来数学人工智能研究的基础。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/26 19:04:09

教育资源匹配困局破解,AI Agent智能推荐系统全面解析

第一章:教育AI Agent学习推荐的背景与意义随着人工智能技术的迅猛发展,教育领域正经历一场深刻的智能化变革。AI Agent作为具备自主感知、决策与执行能力的智能体,正在逐步融入个性化学习系统,成为推动教育公平与效率提升的关键力…

作者头像 李华
网站建设 2026/4/22 11:59:25

自古英雄多寂寥

“自古英雄多寂寥”是一句流传甚广的感慨,它道出了英雄人物在精神世界和人生境遇中的一种深刻孤独感。这句话可以从多个层面来理解:1. 境界的孤独见识超前,曲高和寡:英雄往往能看到常人看不到的危机,想到常人想不到的方…

作者头像 李华
网站建设 2026/4/23 18:22:18

IO练习——随机点名器

将每一位学生分成一块区域的占比。当系统随机到这个范围的某一个数字就代表是这个学生。package com.lkbhua.Test2.test2;public class Student {private String name;private String gender;private int age;private double weight;public Student() {}public Student(String …

作者头像 李华
网站建设 2026/4/22 0:00:02

python-flask-django基于Web的校园订餐点餐服务信息论坛平台_92vf46qm

文章目录系统截图项目技术简介可行性分析主要运用技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!系统截图 python-flask-django基于Web的校园订餐点餐服务信息论坛平台_92vf46qm 项目技术简介 Pytho…

作者头像 李华