MBPP：评估大语言模型代码生成能力的基准数据集-编程实验室

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

引言

在大型语言模型（LLM）飞速发展的时代，代码生成已成为衡量其推理与执行能力的关键任务之一。一个模型能否准确理解自然语言描述，并合成出语法正确、功能完备的代码，是其在辅助编程、教育等领域实用化的核心。然而，如何科学、公正地评估模型的代码生成能力，一直是学术界和工业界面临的挑战。早期的评估多依赖于BLEU等基于文本匹配的指标，但这些指标无法捕捉代码的功能正确性这一核心属性。

在此背景下，MBPP（Mostly Basic Python Problems）数据集应运而生。它由Google Research等机构的研究者于2021年提出，旨在为评估LLM从自然语言描述生成Python代码的能力提供一个简洁、可靠的基准。与同期提出的HumanEval等基准相比，MBPP聚焦于基础的编程问题，涵盖了循环、条件判断等常见的命令式控制流，成为衡量模型“基本功”的重要标尺。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

20.Py150数据集：Python代码建模与分析的基准资源
19.GPT-Neo：开源大型自回归语言模型的实现与影响
18.编辑相似度（Edit Similarity）：原理、演进与多模态扩展
17.CodeSearchNet：一个大规模代码-文档检索数据集的构建、应用与挑战
16.Text-Embedding-Ada-002：技术原理、性能评估与应用实践综述
15.RepoEval：定义仓库级代码补全评估的新基准
14.NaturalQuestions：重塑开放域问答研究的真实世界基准
13.SkCoder：基于草图的代码生成方法
12.长尾分布：现实世界数据的本质挑战与机器学习应对之道
11.概率校准：让机器学习模型的预测概率值得信赖
10.牛顿法：从最优化到机器学习的二阶收敛之路
9.交叉验证：评估模型泛化能力的核心方法
8.Softmax回归：原理、实现与多分类问题的基石
7.多重共线性：机器学习中的诊断与应对策略
6.惰性学习：延迟决策的机器学习范式
5.模糊集合理论：从Zadeh奠基到现代智能系统融合
4.基于实例的学习：最近邻算法及其现代演进
3.汉明距离：度量差异的基石与AI应用
2.高维空间中的高效导航者：球树(Ball Tree)算法深度解析
1.闵可夫斯基距离：机器学习的“距离家族”之源

1. MBPP核心概念阐述

MBPP的核心设计哲学是：评估代码生成模型的黄金标准应是功能正确性，即生成的代码能否通过预设的单元测试。这与软件工程中的实践一脉相承，将评估从模糊的文本相似性转向了可量化的、确定性的测试执行。

1.1 数据集的设计与构成

MBPP数据集包含974个编程任务，每个任务都被设计为相对简短的Python函数实现问题。数据集的构建并非从在线编程平台爬取，而是由研究者手动编写，这确保了问题的清晰度和质量。每个数据样本包含三个关键部分：

任务描述：一段自然语言文本，清晰地定义了需要实现的函数功能。
参考解决方案：一个手写的、正确的Python函数实现。
测试用例：3个用于验证功能正确性的自动化测试，通常以断言（assert）语句的形式给出。

1.2 任务特点

MBPP中的问题被定位为“基本”的，这意味着它们通常不涉及复杂的算法（如动态规划）或精深的数据结构，而是专注于基础编程概念的应用，例如字符串操作、列表处理、简单的数学计算等。这使得MBPP能够有效地评估模型对编程基础语法和逻辑的理解，成为区分模型代码生成“下限”能力的试金石。

2. 技术细节：评估方法与流程

MBPP的标准评估流程遵循“Few-Shot” prompting范式，并严格依赖测试用例进行判定。其核心评估逻辑可以通过下图展示的流程来概括：

flowchart LR A[MBPP任务描述<br>（自然语言）] --> B subgraph B [大语言模型] direction LR B1[Prompt拼接] --> B2[代码生成] end B --> C[生成的Python代码] C --> D[测试执行引擎<br>（运行生成的代码和MBPP自带的测试用例）] D --> E{是否通过所有测试用例？} E --> | 是 | F[标记为“通过”] E --> | 否 | G[标记为“未通过”]

2.1 评估流程

提示构建：从数据集中选择一个任务描述，通常会在其前面拼接少数几个（例如3个）完整的（描述-代码）示例作为上下文提示（Few-Shot Prompting），以引导模型理解任务格式。
代码生成：将构建好的提示输入给待评估的LLM，模型据此生成一段Python代码。
测试验证：自动将模型生成的代码与数据集提供的3个测试用例一同执行。如果所有测试用例均通过，则认为该次生成是成功的。
指标计算：在整个测试集上进行上述操作。最常用的评估指标是pass@k，它衡量模型在k次独立生成中至少有一次通过所有测试用例的概率。对于MBPP，常见的是报告pass@1（模型一次生成的成功率）或通过多次采样估算的pass@k值。

2.2 代码示例：数据样本与评估逻辑

以下是一个简化的、模拟MBPP风格的任务示例及其评估思路：

# MBPP 任务描述 (text):# 编写一个函数，接受一个字符串列表作为输入，返回其中最长的字符串。# 如果有多个最长的字符串，返回第一个出现的。# 参考解决方案 (code):defget_longest_string(str_list):longest=""forsinstr_list:iflen(s)>len(longest):longest=sreturnlongest# 测试用例 (test_list):assertget_longest_string(["a","ab","abc"])=="abc"assertget_longest_string(["hello","world","!"])=="hello"assertget_longest_string(["same","size","word"])=="same"

在评估时，模型会根据任务描述生成一个函数（例如model_get_longest_string）。评估脚本会动态地运行类似以下的检查：

# 伪代码：评估生成的函数try:assertmodel_get_longest_string(["a","ab","abc"])=="abc"assertmodel_get_longest_string(["hello","world","!"])=="hello"assertmodel_get_longest_string(["same","size","word"])=="same"print("Passed!")exceptAssertionError:print("Failed.")

这种基于测试的评估方法，直接而有力地反映了代码的语义正确性。

3. MBPP的局限性、批评与演进

尽管MBPP被广泛采用，但研究者们也指出了其内在的一些局限性，并在此基础上推动了数据集的演进。

3.1 主要批评

对测试用例的隐性依赖：有研究指出，MBPP的任务描述有时可能隐含模糊，模型在生成时实际上依赖了描述中附带的测试用例来推断函数签名或边界行为，而非纯粹理解自然语言描述。这偏离了“仅从自然语言生成代码”的纯粹目标。
测试完备性不足：原始的3个测试用例可能无法完全覆盖函数的各种边界情况，导致通过测试的代码仍可能存在潜在缺陷。
数据污染风险：由于MBPP题目在互联网上流传甚广，很多LLM在其训练数据中可能已经见过这些题目及其答案，导致评估分数虚高，无法反映真实的泛化能力。

3.2 改进与衍生工作

针对上述问题，学术界提出了多个改进方案：

EvalPlus与MBPP+：为了增强测试的严谨性，研究者通过工具（如基于LLM的测试生成器）为MBPP中的每个问题生成了大量的额外测试用例，创建了增强版数据集MBPP+。在MBPP+上评估更能暴露模型生成代码的隐蔽错误，分数通常比在原始MBPP上有所下降。
MBPP-R（评分与排序版）：一项2025年的工作将MBPP/MBPP+转化为代码评分与排序基准（MBPP-R/MBPP-R+）。它不再只关心“通过与否”，而是要求模型或评估方法能够对多个不同质量的代码解决方案进行正确性评分和排序。这用于评估更复杂的“合成验证器”（如代码奖励模型、测试生成模型）的性能。
MBUPP：有研究者通过重写任务描述来消除歧义、强调纯粹的自然语言理解，并引入多组断言来评估语法上的灵活性，提出了MBPP的一个变体MBUPP，以更纯粹地评估“仅从自然语言”生成代码的能力。

总结

MBPP作为代码生成评估领域的基石性基准，以其简洁、聚焦和基于测试的客观评估方式，极大地推动了该领域的发展。它促使研究社区将关注点从代码的“形似”转向功能的“神似”。尽管存在对测试用例依赖、数据污染等质疑，但这些批评本身正是MBPP影响力的体现，并催生了如MBPP+、MBPP-R等一系列更严谨、更细化的衍生数据集。

未来，随着代码生成模型能力的不断提升，评估基准也必然向更复杂（如涉及多文件、仓库级代码）、更贴近现实（如调试、测试生成）、以及更注重代码质量（如效率、可读性）的方向演进。而MBPP在其中扮演的角色，将始终是衡量模型编程基础能力的那个不可或缺的“起跑线”。