演讲核心观点
在今年的红杉AI Ascent 2026上,Jim Fan仅用20分钟,就给机器人行业连开两场“葬礼”。一场送别过去三年几乎统治具身智能的VLA,另一场送别被认为还能持续多年的遥操作。作为英伟达机器人方向负责人,Jim Fan去年还在讲机器人测试,今年已开始探讨旧范式的落幕与新范式的建立。在他看来,新范式很大程度上要借鉴LLM,包括预训练模拟世界状态、动作微调校准有价值部分以及强化学习完成最后一步。过去一段时间,英伟达通过EgoScale、DreamDojo、Dream Zero等工作,定义了具身智能2026年的走向。在“Robotics: Endgame”演讲中,汇聚了Jim Fan对机器人领域多方面的最新思考。
核心观点包括:VLA已死,WAM将成新预训练范式,未来一到两年,遥操占比将降至可忽略不计,机器人数据范式将转向人类传感器数据,英伟达将押注第一视角人类视频;机器人科技树待解锁成就为物理图灵测试(2 - 3年内)、Physical API、Physical Auto Research,有望2040年全部点亮。
演讲全文核心内容
历史回顾与新策略提出
2016年,Jim Fan见到黄仁勋并签名。深度学习的发展经历了GPT - 3预训练、InstructGPT校准、自动化研究三个阶段,语言模型团队处于终局阶段。Jim Fan复制其思路提出“大平行”策略,模拟物理世界状态,通过动作微调校准,强化学习完成最后一步。
模型策略:VLA落幕,WAM崛起
过去三年,VLA占据主导,但设计上“头重脚轻”,语言是核心,物理和动词表现不足。而一些视频模型能自动学习物理规律,在此基础上通过动作微调有了Dream Zero。Dream Zero能同时解码世界状态和动作,可零样本完成新任务,是迈向“开放式任务”和“开放词汇提示”的第一步。VLA已死,WAM当立。
数据策略:从遥操到人类传感器数据
过去三年,遥操统治机器人领域,但数据产能有上限。UMI通过人类手部采集数据,催生两家独角兽公司。后来的DexUMI外骨骼系统打破数据采集限制。然而,UMI仍不够自然,英伟达押注第一视角人类视频,采用EgoScale训练范式,发现了机器人灵巧性的神经scaling law。未来一到两年,遥操占比将降低,数据穿戴设备会增多,机器人“主食”将变为第一视角人类视频。
仿真与强化学习:新范式的探索
当前机器人强化学习需要海量环境,传统路线成本高。通过3D世界扫描管线可将现实场景重建到模拟器,实现Real→Sim→Real流程。Dream Dojo是基于视频world model的神经模拟器,可实时生成画面和传感器状态,使机器人进入新范式,算力、环境和数据形成自我强化的飞轮。
机器人科技树的未来成就
机器人科技树还有三个成就待解锁:物理图灵测试,在复杂现实任务中,人类难以区分是人还是机器人完成工作,预计2 - 3年可实现;Physical API,机器人将成为可编程、可调用、可编排的基础设施,相关科幻场景将落地;Physical Auto Research,机器人将自我设计、优化和制造,迭代速度超越人类团队。Jim Fan有95%的把握,2040年前能走到机器人科技树的终点。