机器人训练，数据模态之热成像，合成数据or真实数据？来自NASA月球车团队的服务方-编程实验室

在之前的具身智能进展回答中：你认为具身智能是通往AGI（通用人工智能）的必经之路吗？

曾复盘了当前训练数据的进展情况：

从2025年上半年和下半年的两段讨论内容进行对比，由此可得到以下结论：
1.数据策略，3月是99%合成数据+1%真实数据；11月是强调真实与仿真数据的融合，还有多类型数据进行补充。
...二问数据：哪些数据模态关键？训练范式是什么？
关键模态：触觉、温度、力反馈、时空感知；视觉、声音；
核心范式：99%合成数据+1%真实数据；

瓶颈：硬件触觉采集局限、数据迭代风险；仿真复杂接触处理难、真机噪声大。
视觉数据权重最高，在互联网上获取最为方便，还可仿真生成；
当前人形机器人缺乏精细数据，比如说，触觉 / 力反馈，精细操作数据必备（比如像抓取物体判断力度），但当前硬件采集仅能采到基础数据；

从本年的技术和产业演进的进展来看，无论是真实数据还是合成数据，仍然是以机器人训练效果为第一要义。

在机器人训练过程中，热成像数据属于温度模态，通常最为常见的是口罩时期，通过热成像显示器检查体温是否异常，

在产线上，识别设备过热部件，像电机、电路板的异常温升。

在训练中，可以和视觉数据形成互补，和图像融合后，可增强目标检测的鲁棒性，参考自驾中的行人检测。

由于硬件成本、仿真精度和多模态融合算法的成熟度等原因，合成数据诞生了。

接下来，我们可以看看机器人是如何通过合成数据来应对训练场景，

文章作者查尔斯·黄，是Bifrost AI的联合创始人兼首席执行官，与NASA喷气推进实验室等组织合作，为行星着陆、海洋领域感知和野外环境自主创建丰富的虚拟环境。

通过和NASA月球车团队等全球最先进的机器人团队合作，发现其训练需要真实数据和合成数据，然而团队收集大量的真实世界数据，但其中大部分是重复的。

问题不在于数量，而在于覆盖范围。

目标是找出这些真实数据集中的差距和偏差，并用有针对性的合成数据来填补，从而方便构造目标训练场。

本文首发自The Robot Report平台，原文名：How robots learn to handle the heat with synthetic data，本文亦在原文基础上有所编辑。

机器人如何通过合成数据学习应对：热成像

热成像相机可以捕获数据以帮助训练机器人应对各种场景。| 来源：Bifrost AI

热成像相机可以捕获如上图所示的数据，合成数据可以在此基础上构建。

机器人团队，传统上需要海量数据来训练和评估他们的系统。

随着需求增长，系统变得更加复杂，对真实世界数据和合成数据的质量要求也水涨船高。

问题在于，大多数真实世界的数据是重复的。

车队记录下的是相同的空旷街道、相同的平静海面、相同的平淡巡逻。有价值的时刻非常罕见，团队需要花费数月时间挖掘。

挑战不仅在于收集边缘案例，还在于获得跨季节、光照、天气的全面覆盖，如今还需要跨不同的传感器，包括热成像传感器。

当能见度下降时，热成像变得至关重要。（在低光照或遮挡场景下，热成像可提供视觉无法捕捉的轮廓信息，如人体姿态、物体边界等。）

没有团队能为了等待合适的季节而耗费一年，也不可能为了收集数据而制造数千次真实碰撞。即使规模最大的车队也无法捕获他们所需的每一种场景。现实世界产生多样化数据的速度，远远跟不上现代自主技术的要求。

因此，团队开始转向合成数据。他们可以按需生成所需的精确场景，从结冰路面到一年仅出现一次的罕见危险。

他们还可以创建这些场景的热成像版本，为机器人提供所需的学习样本，使其学会在光线消失时如何“看见”。

合成数据为机器人团队提供了现实无法提供的覆盖范围，并以现代自主技术所需的速度实现。

合成数据让机器人接触真实世界场景

在合成数据（即复制真实世界条件的计算机生成场景）上训练自主系统，为机器人提供了一种在接触真实世界之前先了解世界的方式。

就像孩子可以通过观看《侏罗纪公园》学习识别恐龙一样，计算机视觉模型可以通过在模拟示例上训练，来学习识别新的物体、环境和行为。

合成数据集可以提供丰富、多样且高度可控的场景，帮助机器人建立对其可能面对的各种情况下世界外观和行为的理解。

超越色彩视觉

与人类类似，机器人不仅仅使用标准摄像头来理解世界。

它们依赖激光雷达、雷达和声纳来感知深度或探测物体。当夜间或有雾时能见度下降，它们会切换到红外传感器。

最常见的红外传感器是热成像相机。它将热量转化为图像，使机器人即使在完全黑暗的环境中也能“看见”人、车辆、发动机和动物。

要良好地训练这些系统，团队需要能够捕捉机器人在现场将面临的各种热模式范围的合成热成像数据。

合成热成像数据在高风险应用中大放异彩

合成热成像数据在那些收集真实世界热成像影像，过于危险或过于罕见的地方最为重要。安全和工业系统在未知混乱、不可预测的环境中运行，它们需要现实无法可靠提供的覆盖范围。

海上自主船只，海上的雾气、浪花和黑暗是常态。当RGB摄像头失效时，热成像能让人、船只和海岸线凸显出来。

夜间无人机，为紧急夜间飞行或在复杂地形中进行避障收集热成像数据既危险又昂贵。合成热成像数据让无人机学会在零光照、穿过烟雾、浓雾和密集植被（传统摄像头在此会失效）的环境中导航。

卫星追踪热信号，大气噪声和传感器限制意味着卫星无法捕获地球上的每一个热成像场景。合成热成像数据为天气预报、气候监测和灾害响应填补了空白，强化了这些卫星所依赖的模型。

合成热成像数据让团队开发机器人速度提升百倍

团队已经开始按需为罕见或难以捕获的场景生成合成数据集，而不是等待数月的现场数据。

这种转变在某些场景下已将迭代速度提高了高达100倍，并结合真实世界数据集将数据采集成本降低了多达70%。

生成场景。| 来源：Bifrost AI

未来是合成数据还是真实数据？

从与NASA月球车团队到Anduril的现场自主团队等全球一些最先进的机器人团队合作的经验中，我们看到，团队需要真实数据和合成数据两者兼有。他们收集大量的真实世界数据，但其中大部分是重复的。

问题不在于数量，而在于覆盖范围。目标是找出这些真实数据集中的差距和偏差，并用有针对性的合成数据来填补。

这种混合方法为团队提供了更强大、更完整的数据策略。

通过结合真实任务的细微差别与合成生成的精确性和规模，机器人团队可以构建出能够应对最严苛条件以及每个机器人最终都会面对的低概率场景的系统。

机器人训练，数据模态之热成像，合成数据or真实数据？来自NASA月球车团队的服务方

机器人如何通过合成数据学习应对：热成像

合成数据让机器人接触真实世界场景

超越色彩视觉

合成热成像数据在高风险应用中大放异彩

合成热成像数据让团队开发机器人速度提升百倍

未来是合成数据还是真实数据？

Granite-4.0-H-Small-Base：23Ttoken的多任务模型

Excalidraw与其他白板工具的数据迁移方案

轻量级大模型在RAG系统中的集成方案

ERNIE-4.5-300B：多模态MoE大模型重磅发布

Excalidraw与Confluence集成的三种可行方案

Ring-flash-linear-2.0：128K长上下文高效推理模型