最近在做 GPT-5.5 的可靠性评估,把多次输出结果集中导出做了对比分析。ARC-AGI-2 从 73.3% 跳到 85.0% 这个数字在圈子里传得很广,但 ARC-AGI-3 上 GPT-5.5 和 Claude Opus 4.7 双双不到 1%。通过 kulaai聚合平台集中调用多个模型做横向对比时,把数据和体感整理了出来。结论是:聪明和靠谱确实都在进步,但远没到可以盲信的程度。
![]()
流体智能:ARC-AGI-2 的 85% 意味着什么
ARC-AGI 测的不是记忆,而是"遇到没见过的模式,能不能现学现用"。ARC-AGI-2 在初代基础上做了三个关键改变:引入符号解释和组合推理、剥离互联网数据污染、加强对抗暴力破解。
| 测试基准 | GPT-5.5 | GPT-5.4 | 提升幅度 |
|---|---|---|---|
| ARC-AGI-2(流体智能) | 85.0% | 73.3% | +11.7pp |
| MRCR v2(512K-1M 长上下文) | 74.0% | 36.6% | +37.4pp |
| GraphWalks BFS 1M | 45.4% | 9.4% | +36pp |
| DeepSWE 总分 | 70 | — | 行业第一 |
| DeepSWE Level 5(顶级难度) | 35% | — | 所有模型最高 |
| 推理 Thinking 模式准确率 | ~92% | ~68% | +24pp |
Graphwalks BFS 1M 从 9.4% 跳到 45.4%,这个数据最说明问题。它测的是在百万 token 上下文里持续追踪信息的能力——这才是流体智能在工程场景中的真正体现。
GPT-5.5 是自 GPT-4.5 以来第一次完整重新预训练的模型。后训练能调整行为,但突破不了原始预训练的能力上限;新预训练移动的是"重心"本身。
但 ARC-AGI-3 揭示了硬伤
ARC-AGI-3 是目前最接近"人类智能本质"的测试——135 个全新环境,没有任何玩法说明,必须从稀疏反馈中推断规则。人类首次接触可以 100% 解决,GPT-5.5 只得了 0.43%,Claude Opus 4.7 只有 0.18%。
研究团队总结了三大失败模式:
一是局部反馈无法上升为全局规则。模型能识别"按这个键物体会旋转",但无法推理出"因此需要在行动前调整方向以匹配目标"。它看得见变化,但整合不成完整的世界模型。
二是被训练数据"绑架"。模型反复将全新任务映射到已知游戏——俄罗斯方块、推箱子、打砖块。GPT-5.5 在任务中识别出了镜像效应,但始终在"俄罗斯方块""青蛙过河""汉诺塔"之间反复横跳,无法坚定执行正确逻辑。
三是通关不等于理解。模型侥幸通过了某个关卡,却无法利用成功的奖励信号强化正确操作。
简单说:Claude Opus 4.7 像"过度自信的直觉主义者",GPT-5.5 像"思维发散的理论家"。一个压缩错了,一个压根压缩不了。
推理稳定性:聪明不等于靠谱
流体智能高说明模型聪明,但生产环境更关心"同一个问题问十次,结果稳不稳"。
GPT-5.5 的回复字数减少 30.2%,不是缩水,是废话少了。它更倾向于直接给结果,不再输出冗长解释。每天用几十次的人体感差距巨大。
OpenAI 官方使用指南强调了一个新技巧:在提示词末尾加上"完成后请检查是否有事实不确定、逻辑跳跃、遗漏反方观点"。实测这类自检 prompt 确实有用——它会主动把确定事实、推断观点和待确认信息分开。
但幻觉率虽然降了 52.5%,在 DeepSWE 零样本模式下 GPT-5.5 只有 28 分——不给足够上下文,表现会暴跌。盲目信任比幻觉本身更危险。
定价翻倍,但账没那么简单
API 定价是 GPT-5.4 的两倍——输入 5、输出5、输出30 每百万 tokens。但完成相同任务所需 token 减少约 40%,延迟持平。Batch API 定价是标准价的 50%,与 GPT-5.4 标准价完全一样。高频 API 用户实际成本增幅可能只在 20% 左右。
趋势:从"答对"到"想对"再到"想稳"
两个判断。
第一,流体智能的提升是结构性的,但天花板肉眼可见。ARC-AGI-2 的 85% 是 RL scaling 带来的红利,ARC-AGI-3 的 0.43% 说明模型在全新逻辑环境中的泛化能力仍有本质缺陷。前沿模型的竞争焦点正在从"会不会推理"转向"能不能在未知环境中持续学习"。
第二,推理稳定性才是生产环境的真正门槛。一个稳定的、可预测的模型,在生产环境中的价值远超一个"偶尔惊艳但经常波动"的模型。GPT-5.5 在一致性上比前代有明显进步,但在高风险场景下仍需人工校验。
模型能力的提升速度,已经快于安全防护机制的成熟速度了。拿自己的真实业务场景跑一遍一致性测试,比看任何排行榜都管用。