上海交大谢伟迪团队借助Codex打造全球首个大规模标准化病人AI评估基准，给7款主流大模型来了一场临床执业医师考试-编程实验室

小罗碎碎念

文献来源：本文核心内容基于上海交通大学与上海人工智能实验室2026年6月3日发表在arXiv上的论文《Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases》，核心作者包括Cheng Liang、Pengcheng Qiu、Ya Zhang、Yanfeng Wang、Chaoyi Wu和Weidi Xie。

近年来，大语言模型在各类医学考试中屡创佳绩，甚至超过了人类医生的平均水平。这让很多人产生了一种错觉：AI医生已经来了，很快就能替代人类看病。

但临床诊疗不是做选择题，真实的看病过程是一个动态的、多轮的、充满不确定性的决策过程——医生需要主动询问病史、安排检查、解读结果、调整治疗方案、与患者沟通，还要根据病情变化随时修正判断。

而目前绝大多数医疗AI评估，都还停留在"笔试"阶段：给模型一个固定的问题，让它给出一个答案。这种静态的、单轮的评估方式，会让人们高估AI的临床能力，甚至产生不切实际的信任。

如何才能真正评估AI作为临床医生的能力？

上海交通大学与上海人工智能实验室的研究团队从医学教育中找到了答案——标准化病人（Standardized Patient, SP）。经过几十年验证的标准化病人考试，正是用来评估医学生临床能力的黄金标准。

基于这一思路，他们打造了全球首个大规模标准化病人AI评估基准MedSP1000，给7款主流大模型来了一场真正的"临床执业医师考试"。

全球首个大规模标准化病人AI临床评估基准

为什么选择MedEdPORTAL作为数据源？

MedEdPORTAL是由美国医学教育协会（AAMC）运营的开放获取医学教育资源库，所有材料均由AAMC附属医学院的资深医学教育工作者编写，专门用于标准化病人（SP）教学和医学生临床能力评估。

它不是普通的医学论文库，而是全球医学院用来培训和考核医生的官方教案库，这从根源上保证了评估基准的权威性和临床相关性。

右上角的流程图回答了最关键的问题：为什么给医学生用的考试，能直接用来考AI？

因为医学生临床能力评估和AI临床能力评估的核心需求完全一致：都不是考“背知识点”，而是考动态的、全流程的、真实的诊疗能力——包括问诊技巧、检查选择、决策判断、沟通能力、伦理素养等。

这种成熟的评估范式，正好解决了传统AI医疗评估“只考笔试、不考实操”的致命缺陷。

MedSP1000的构建与运行全流程

研究团队从MedEdPORTAL检索获取1073篇核心文章及22244个各类附件，通过统一异构文件格式、严格分离角色特定信息、冻结并验证评分标准三步核心工序，将杂乱的教学资源转化为无信息泄露的标准化评估资产。

其中最关键的角色分离步骤将每个案例拆分为场景初始化、病人脚本、环境控制和评分表四个完全独立的数据包，最终形成了覆盖17个专科、6项ACGME医生核心能力、包含1638个交互式场景和24602个轨迹级评分项的大规模评估基准。

右侧以急性缺血性脑卒中为例直观展示了MedSP1000的闭环评估机制，整个系统由被评估的临床医生智能体、模拟患者的病人智能体和模拟医院环境的环境控制器构成，三者在严格的规则约束下进行多轮交互，被评估的AI只能通过主动问诊和申请检查获取信息，绝无提前获知答案的可能。

诊疗结束后，系统会基于完整交互轨迹对照专家评分表逐项打分，能够精准捕捉到传统静态评估无法发现的细节错误，比如给药剂量偏差、知情同意缺失等临床致命问题，真正实现了对AI临床全流程能力的客观、量化评估。

医学AI交流群

目前小罗全平台关注量120,000+，交流群总成员4000+，大部分来自国内外顶尖院校/医院，期待您的加入！！

由于近期入群推销人员较多，已开启入群验证，扫码添加我的联系方式，备注姓名-单位-科室/专业，即可邀您入群。

一、MedSP1000如何给AI医生做全流程考核

MedSP1000的核心创新，就是把医学教育中成熟的标准化病人评估体系，完整地转化为AI可执行的闭环评估框架。

这就像是把医学生毕业前必须通过的客观结构化临床考试（OSCE），搬到了数字世界里，让AI医生也经历一场"站站考"。

第一步：把医学教案变成AI能懂的"考试剧本"

要给AI考OSCE，首先得有标准化的"考题"。

研究团队从美国医学教育协会（AAMC）运营的开放获取医学教育资源库MedEdPORTAL中，收集了1073篇经过同行评审的标准化病人教学案例，附带22244个附件文件。

这些案例都是全球顶尖医学院用来培训和考核医学生的权威材料，覆盖17个临床专科。

但这些原始材料格式杂乱，有Word、PDF、PPT，还有视频和音频，AI根本无法直接使用。

研究团队开发了一套自动化的数据处理流水线：

统一格式

用OCR和文档解析工具，把所有异构文件转换成统一的Markdown格式

角色拆分

这是最关键的一步。研究团队用基于GPT-5.5的Codex智能体，把每个案例严格拆分成四个互不泄露的角色包：

场景初始化包：只包含AI医生一开始能知道的信息，比如患者的主诉和基本情况
病人脚本包：标准化病人的台词和反应规则，告诉AI"患者"该怎么回答问题
环境控制器包：模拟医院的检查设备、实验室和其他医护人员，负责返回检查结果和推进病情
评分 rubric 包：专家制定的详细评分标准，用来给AI医生的表现打分

质量审计

系统会自动检查是否有信息泄露，确保AI医生不会提前"看到答案"

这整个过程就像是把一本厚厚的医学教案，拆分成了考生须知、演员剧本、考场规则和考官评分表四个独立的部分。

最终，研究团队构建了1638个可执行的交互式临床场景，包含24602个经过同行评审的轨迹级评分点，覆盖了美国毕业后医学教育认证委员会（ACGME）规定的医生六大核心能力：患者护理、医学知识、系统-based实践、人际沟通技能、实践-based学习与改进、职业精神。

第二步：搭建闭环模拟考场，还原真实诊疗流程

MedSP1000搭建了一个多智能体闭环评估框架，模拟了真实的临床诊疗过程：

考生智能体：就是被评估的大模型，扮演临床医生的角色
病人智能体：由DeepSeek-V4-Pro驱动，严格按照病人脚本与AI医生对话
环境控制器：同样由DeepSeek-V4-Pro驱动，负责处理AI医生的所有临床操作，比如开检查单、给药、安排手术，并返回相应的结果
评估智能体：在诊疗结束后，根据完整的交互轨迹和评分 rubric，逐项给AI医生打分

整个过程是完全闭环的：AI医生从只知道患者主诉开始，需要主动询问病史、安排检查、做出诊断、制定治疗方案。

环境控制器只会在AI医生提出请求时才返回信息，绝不会主动提示。

只有当所有临床状态都处理完毕，考试才会结束。这和真实的临床诊疗过程几乎一模一样。

第三步：临床医生把关，确保考试公平可信

为了验证这个"数字考场"的可靠性，研究团队邀请了12位平均有8年临床经验的医生，对100个自动构建的案例进行了独立审核。

结果显示，医生们对案例质量的平均评分高达4.78分（满分5分），不同医生之间的评分差异仅为0.41分。

这说明MedSP1000构建的案例高度忠实于原始教学材料，能够真实地模拟临床场景。

二、AI医生的真实水平到底如何？

有了这个科学的评估框架，研究团队对7款当前最先进的大模型进行了全面测试，包括3款闭源前沿模型（GPT-5.5、Claude-Opus-4.7、Gemini-3.1-Pro）、2款开源通用模型（DeepSeek-V4-Pro、Qwen-3.5）和2款医疗专用模型（MedGemma、Baichuan-M3）。

最好的AI也刚及格，医疗专用模型反而垫底

测试结果给整个行业泼了一盆冷水：即使是表现最好的GPT-5.5，也只完成了60.4%的专家评分项，刚刚达到及格线。

而表现最好的医疗专用模型Baichuan-M3，得分仅为40.0%，比最弱的通用模型Qwen-3.5（51.5%）还低了11.5个百分点，更是比GPT-5.5低了20.4个百分点。

这个结果有点反常识：专门为医疗领域训练的模型，在真实的临床场景中表现反而不如通用大模型。

论文作者解释说，这是因为当前的医疗专用模型大多是在静态问答数据集上训练的，过度拟合了"答题"能力，而在需要动态推理、多轮交互和长期决策的真实临床场景中，反而表现不佳。

六大基本功里，"自我反思"全军覆没

进一步分析六大核心能力的得分，研究团队发现了一个有趣的规律：所有模型的能力分布高度一致。

表现最好：患者护理（平均57.5%）和职业精神（平均58.8%）
表现中等：医学知识（平均45.4%）、系统-based实践（平均42.9%）和人际沟通技能（平均49.5%）
表现最差：实践-based学习与改进（PBLI），没有任何一个模型的得分超过30%，医疗专用模型更是低于20%

PBLI能力指的是医生的自我反思、错误识别和持续学习能力。

这是成为一名优秀医生最关键的素质之一，但却是所有大模型的共同短板。因为这种能力需要模型主动意识到自己的不足，承认自己的错误，并从中学习，而这正是当前大模型最缺乏的。

流程化科室表现好，复杂科室差距大

不同临床专科的表现也差异巨大：

高分专科：急诊医学（63.4%）、内科学（63.1%）、外科学（62.4%）和重症医学（61.0%）
低分专科：全科医学（47.8%）、老年医学（51.2%）和妇产科学（51.6%）

论文作者指出，这是因为急诊、外科等急性病科室的诊疗流程相对标准化，有明确的指南和步骤，大模型更容易掌握。

而全科、老年科等科室需要处理多系统疾病、长期慢性病和复杂的社会心理问题，对综合能力的要求更高，这正是当前大模型的薄弱环节。

加计算量、搞多专家会诊都没用

既然单模型表现不好，那增加测试时的计算量，或者用多个模型组成"多学科会诊（MDT）"团队，能不能提升表现呢？

研究团队在GPT-5.5上测试了两种最流行的策略：

Best-of-N采样：同一个案例跑5次，用多数投票选出最终结果
MDT多智能体：让5个GPT-5.5分别扮演不同专科的医生，独立分析后由一个整合角色汇总决策

结果：基线GPT-5.5的得分是67.1%，Best-of-5是67.8%，MDT是68.0%。

三种策略的差异不到1个百分点，没有统计学意义。唯一有小幅提升的是人际沟通技能（从57%提升到61%），其他能力要么没有变化，反而略有下降。

更糟糕的是，多智能体策略还引入了新的失败模式：系统会因为过度自信而提前终止诊疗，漏掉关键的检查和治疗步骤。

这说明，当前大模型的临床能力瓶颈，不是推理时的计算量，而是模型本身的基础能力。靠简单的"堆算力"或"堆模型"，无法从根本上解决问题。

三个真实案例

为了让读者更直观地理解MedSP1000的价值，论文展示了三个典型的案例，这些都是静态评估无法发现的问题：

案例1：急性缺血性脑卒中——细节决定生死

GPT-5.5在这个案例中表现几乎完美：它在规定时间内完成了所有初始评估，确认了溶栓适应症，正确启动了卒中代码，安排了CT检查和实验室检查，并做出了溶栓和取栓的正确决策。

但它还是丢了两分：

给高血压患者用了20mg拉贝洛尔，而指南明确要求初始剂量是10mg
没有在溶栓前向患者家属明确告知风险、获益和替代方案，获得书面知情同意

这两个看似微小的错误，在真实临床中可能会导致严重的医疗事故。

但在静态问答中，模型只要能答出"应该用拉贝洛尔降压"和"需要知情同意"，就能得满分。

案例2：产前营养咨询——会收集信息不会给建议

GPT-5.5详细询问了孕妇的饮食情况，精确到了每种鱼的食用频率和份量。

但在咨询环节，它只泛泛地说了一句"要避免高汞鱼，适量吃低汞鱼"，却没有：

明确告诉孕妇指南推荐的每周2份鱼的具体标准
解释不同烹饪方式对汞暴露的影响
回答孕妇最后提出的两个具体问题："每周可以吃几罐金枪鱼？“和"在哪里可以查本地的鱼类安全公告？”

AI收集了所有需要的信息，但就是无法转化为患者真正需要的、可操作的建议。

这种"知而不行"的问题，在静态评估中完全无法体现。

案例3：多学科会诊

在一个儿科重症监护室的案例中，5个GPT-5.5组成的多学科团队进行会诊。

在第7轮时，3个专科医生（神经科、血液肿瘤科、神经外科）认为患儿已经稳定，投票决定结束诊疗。

而急诊和重症医学科的两个医生强烈反对，指出核心的复苏步骤还没有完成。

最终3比2的多数票获胜，诊疗提前终止。结果，液体复苏、床旁血糖、静脉血气、乳酸检测和纳洛酮给药等基本的患者护理项目全部没有完成。

这个案例生动地展示了，多智能体系统并不一定比单智能体更可靠，反而可能因为"多数人主导结论"导致更严重的错误。

三、从"会答题"到"会看病"还有多远？

MedSP1000的研究结果，给火热的医疗AI行业敲响了警钟。

它用严谨的科学数据证明：当前的大语言模型，包括专门为医疗优化的模型，都还远没有达到可以安全地独立进行临床诊疗的水平。

它们可以成为医生的得力助手，但绝不能替代医生。

对行业的深远影响

首先，MedSP1000打破了"高分即高能"的神话。

它告诉我们，不能再用静态问答的成绩来衡量AI的临床能力。未来，所有医疗大模型在部署前，都必须经过类似MedSP1000这样的动态、全流程评估。

这就像所有医生在执业前，都必须通过执业医师考试的技能操作部分一样。

其次，它指明了医疗大模型的发展方向。过去，大家都在拼命刷静态基准的分数，导致模型过度拟合。

MedSP1000的出现，将引导研究人员把精力放在提升模型的动态推理能力、多轮交互能力和临床决策能力上，从"会答题"转向"会看病"。

未来展望

MedSP1000只是一个开始。未来，这个基准还可以不断扩展和完善：

加入更多专科和罕见病案例
整合多模态数据，比如医学影像、心电图和实验室检查结果
模拟更复杂的临床场景，比如急诊抢救、多学科协作和长期慢性病管理
加入患者满意度和医疗成本等维度的评估

最终，我们希望建立一个全面、客观、标准化的AI临床能力评估体系，就像今天的飞行员模拟器一样，让每一个AI医生在上岗之前，都经过成千上万次的模拟训练和严格考核。

结语

当我们谈论AI医疗时，我们谈论的是生命。任何一点微小的错误，都可能造成无法挽回的后果。因此，对AI临床能力的评估，怎么严格都不为过。

MedSP1000的价值，不在于证明AI有多厉害，而在于它诚实地告诉我们AI还有多差。

它像一面镜子，照出了当前医疗大模型的真实水平和致命短板。只有正视这些差距，我们才能脚踏实地地改进技术，让AI真正成为守护人类健康的可靠力量。

毕竟，在医疗领域，我们需要的不是能考满分的"学霸"，而是能看好病的"医生"。

上海交大谢伟迪团队借助Codex打造全球首个大规模标准化病人AI评估基准，给7款主流大模型来了一场临床执业医师考试