news 2026/6/21 7:35:18

陈文虎及其团队推出MMLU - Pro、MMMU等评测,为AI模型评估补漏洞

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
陈文虎及其团队推出MMLU - Pro、MMMU等评测,为AI模型评估补漏洞

旧考卷失灵之后

每次前沿模型发布,AI圈都会盯着MMLU - Pro、MMMU、MMMU - Pro等“标准科目”成绩单,GPT、Claude等模型不断在这些基准上交卷。但有意思的是,几乎所有人关注分数,却少有人知道出题人是陈文虎。

陈文虎最先被更多人注意,是因为MMLU - Pro。MMLU曾是大语言模型能力评估常用基准评测,早期有用,但随着模型能力提升,它变得“不够考”,前沿模型分数接近满分,难以继续判断谁更强。2024年,陈文虎和团队推出MMLU - Pro,重新改造考卷,包含12032道题,覆盖14个领域,把选项从4个扩展到10个,加入更多偏推理问题,清理简单、有歧义或区分度不足的题目。论文结果显示,模型在MMLU - Pro上准确率相比原版MMLU下降16%到33%,成绩波动也下降,新卷子更难且更稳定,拉开了模型差距。

好用的基准评测

MMLU - Pro很快被行业采用,进入NeurIPS2024数据集与基准评测赛道,被EleutherAI的语言模型评测框架lm - evaluation - harness集成,很多模型发布开始报告其分数,HuggingFace排行榜也将其纳入评估体系。

MMMU则把陈文虎和TIGERLab推到多模态评测中心。多模态模型问题更复杂,要处理多种形式信息,需结合视觉、文本和学科知识推理。MMMU基准评测包含1.15万道多模态问题,来自大学考试等,覆盖六大领域,细分30个学科和183个子领域。发布时测试了14个开源多模态模型及GPT - 4V、GeminiUltra等闭源模型,即便最强闭源模型准确率也仅56%和59%,说明多模态模型在专业理解和推理上仍有提升空间。后来陈文虎团队推出MMMU - Pro,堵住模型绕过视觉信息的空间,不让模型“只看文字猜答案”。

“考卷”背后的人

陈文虎做MMLU - Pro和MMMU源于其研究方向,他对复杂信息理解、知识问答和推理感兴趣。他本科毕业于华中科技大学,后到德国亚琛工业大学攻读硕士,再到加州大学圣巴巴拉分校获博士学位,博士期间围绕复杂问答等方向研究。他参与过HybridQA等项目,对模型评估漏洞敏感,好的基准评测要预判模型“蒙对题”的漏洞并补好。

博士毕业后,陈文虎进入谷歌研究院,2021 - 2025年参与谷歌DeepMind的Gemini多模态模型和评估工作。2022年秋季加入滑铁卢大学担任助理教授,同年入选CanadaCIFARAIChair,创办“老虎实验室(虎头帮)”,继续围绕基础模型等展开研究。虎头帮不仅做基准评测,还做模型和系统研究,如UniVideo、Vamba、MoCha等项目。自己做模型让他们更适合做评估,因为好的评估源于对模型能力边界的理解。如今,陈文虎进入Meta超级智能实验室,工作集中在多模态预训练数据和评估,服务于Meta基础模型。AI行业中,聚光灯常落在创业者等身上,但华人人才的参与不止这些显眼位置。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/21 7:32:02

Claude API集成实战:避开requests/fetch陷阱,用官方SDK正确对接

1. 项目概述:这不是调用一个API,而是把Claude真正“装进”你的系统里 “Claude 4.6 API接入开发者指南:把Claude集成进项目只需这几步”——这个标题乍看像又一篇轻飘飘的“三分钟上手教程”,但如果你真按着网上那些零散的代码片…

作者头像 李华
网站建设 2026/6/21 7:29:32

微信QQ防撤回终极配置指南:本地Hook与内存补丁技术详解

1. 项目概述:为什么我们需要“防撤回”功能?在即时通讯软件成为工作与生活核心的今天,微信和QQ的“消息撤回”功能,就像一把双刃剑。一方面,它为用户提供了纠错的机会,避免了因手滑打错字或发错对象带来的尴…

作者头像 李华
网站建设 2026/6/21 7:28:26

基于MPC5744P的工业安全控制系统开发实战指南

1. 项目概述与核心价值如果你正在工业自动化、轨道交通或者汽车电子领域开发安全关键型系统,那么“功能安全”这四个字一定是你绕不开的核心课题。它不再是可有可无的附加项,而是产品能否进入市场、能否通过认证的生命线。我经历过不少项目,从…

作者头像 李华
网站建设 2026/6/21 7:23:57

游戏串流服务器Sunshine的深度部署与优化实战指南

游戏串流服务器Sunshine的深度部署与优化实战指南 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine Sunshine游戏串流服务器作为开源游戏串流解决方案,为Moonlight客户端…

作者头像 李华
网站建设 2026/6/21 7:22:54

终极文档下载自动化:kill-doc浏览器脚本3分钟上手指南

终极文档下载自动化:kill-doc浏览器脚本3分钟上手指南 【免费下载链接】kill-doc 看到经常有小伙伴们需要下载一些免费文档,但是相关网站浏览体验不好各种广告,各种登录验证,需要很多步骤才能下载文档,该脚本就是为了解…

作者头像 李华
网站建设 2026/6/21 7:13:54

本地部署大模型实战:Ollama+Cherry Studio构建可控AI基础设施

1. 为什么“本地部署大模型”这件事,正在从极客玩具变成生产力刚需我第一次在自己笔记本上跑通一个7B参数的模型时,用的是2023年初的Ollama 0.1.x版本,全程靠手写Docker Compose、手动挂载GPU驱动、反复调试CUDA版本兼容性。当时觉得这活儿像…

作者头像 李华