1. exUMI系统概述:触觉感知与机器人学习的硬件革新
在机器人操作任务中,触觉感知如同人类的指尖触觉,是理解物体属性、调整操作策略的关键感官。然而当前机器人触觉学习面临两大核心挑战:数据收集效率低下(需要大量人力进行遥操作)以及触觉信号本身的稀疏性(有效接触仅占操作轨迹的不到10%)。传统解决方案如纯视觉模仿学习在接触密集型任务(如精密装配、柔性物体操作)中表现欠佳,而现有的触觉表征学习方法又往往忽视了动作对触觉动态的影响。
exUMI系统应运而生,它通过硬件与算法的协同设计,构建了一个全新的触觉感知学习范式。这个便携式手持设备本质上是一个机器人夹持器的物理孪生体,创新性地整合了以下能力:
- 多模态感知融合:AR动作捕捉(Meta Quest 3)+磁旋转编码器(AS5600)提供毫米级精度的6D位姿追踪,解决了传统SLAM和ArUco标记在复杂环境中的脆弱性问题
- 模块化触觉传感:基于9DTact改进的视觉触觉传感器,通过硅胶层的形变光学检测实现接触力分布测量,单个传感器可提供640x480分辨率的触觉图像
- 自动化校准流水线:创新的延迟校准协议(<50ms同步误差)和一站式校准工具,使非专业用户也能快速部署系统
关键设计考量:系统采用Orange Pi作为中央控制器,不仅实现了传感器数据的硬件级同步,还通过磁吸式接口设计支持热插拔更换触觉模块。这种可扩展性使得后续集成力/扭矩传感器成为可能。
在实际数据收集中,exUMI展现出惊人的效率——对于简单的抓取放置任务,用户可在20分钟内完成100次演示采集,数据可用率达到100%(传统UMI系统仅有60%)。这得益于其符合人体工学的设计:1.2kg的重量与平衡配重,让操作者可以长时间自然地进行演示动作。
2. 触觉预测预训练(TPP)框架解析
2.1 触觉表征学习的范式革新
传统触觉学习方法存在明显局限:直接模仿学习受限于数据稀缺;自监督学习(如对比学习)错误地假设触觉信号具有平移不变性;视觉-触觉对齐方法则忽视了接触力导致的"一对多"映射关系。TPP框架的创新在于将触觉理解重构为动作感知的时序预测问题——就像人类可以通过动作意图预测接触效果("如果加大力度左推物体,触觉信号会如何变化")。
技术实现上,TPP采用三级编码架构:
class TPP(nn.Module): def __init__(self): self.tactile_encoder = VAE(in_channels=3) # 触觉编码器(3通道凸凹图) self.vision_encoder = ViT(patch_size=16) # 视觉编码器 self.action_encoder = MLP(hidden_dim=128) # 动作编码器 self.diffusion = LatentDiffusionModel() # 潜在扩散模型 def forward(self, tact_history, act_history, img_current, act_future): # 多模态特征编码 z_t = self.tactile_encoder(tact_history) z_a = self.action_encoder(act_history) z_v = self.vision_encoder(img_current) # 条件扩散过程 noise_pred = self.diffusion(z_t, z_a, z_v, act_future) return noise_pred2.2 数据收集与处理流程
TPP的性能基础来自于exUMI采集的大规模人类操作数据集,其创新性体现在:
- 接触富集策略:通过随机交互300+种物体(从刚性工具到可变形织物),获得60%有效触觉帧(传统方法<10%)
- 高效采集协议:5小时交互即产生100万帧数据,效率是遥操作的10倍
- 多模态对齐:时序同步的触觉图像(9DTact)、动作状态(6D位姿+夹持器宽度)、视觉观察(GoPro鱼眼镜头)
触觉信号预处理采用特殊的三通道表示:
- 通道1:原始灰度图(接触区域亮度变化)
- 通道2:凸起区域分割(硅胶受压隆起)
- 通道3:凹陷区域分割(物体表面特征)
这种表示法在后续实验中显示比单通道输入降低约23%的预测误差。
2.3 扩散模型驱动的预测机制
TPP的核心创新在于用扩散模型学习触觉动态。如图6所示,其工作流程包含:
- 历史上下文编码:过去n帧的触觉和动作特征通过跨注意力机制融合
- 条件扩散过程:以当前视觉观察和未来动作计划为条件,预测未来触觉帧的潜在表示
- 多目标优化:
- 扩散损失(L_diff):预测噪声与真实噪声的MSE
- 重构损失(L_recon):解码器输出的触觉图像与真实值的SSIM
实验数据显示(表1),当同时使用触觉历史、动作历史和视觉条件时,预测误差最低(MSE=0.0099)。这验证了多模态融合对触觉动态建模的必要性。
3. 系统实现与性能验证
3.1 硬件部署细节
exUMI的硬件配置展现出精妙的工程权衡:
| 组件 | 选型方案 | 性能指标 | 成本 |
|---|---|---|---|
| 运动追踪 | Meta Quest 3控制器 | 位置误差<10mm | $499 |
| 夹持器编码器 | AS5600磁编码器 | 0.1mm宽度分辨率 | $3.5 |
| 触觉传感器 | 改进型9DTact | 3mm厚度硅胶层 | $120/个 |
| 主控制器 | Orange Pi 5 | 4核Cortex-A76 | $80 |
特别值得注意的是非平行夹持器机械设计(图4):通过四连杆机构实现自适应抓取,兼容Robotiq 2F等商用夹持器。所有结构件采用3D打印(PETG材料),整套系统成本可控制在$700以内。
3.2 真实任务性能评估
在Flexiv Rizon 4机器人上的测试显示(表3),TPP带来显著性能提升:
基础操作任务:
- 立方体抓取:85%成功率(纯视觉70%)
- 胡萝卜抓取:80%(视觉75%)
接触敏感型任务:
- 抽屉拉动(负重):95% vs 40%
- 孔轴装配:80% vs 50%
- 瓶盖旋开:60% vs 20%
典型失败案例分析:
- 视觉基线:在抽屉拉动中,33%的失败源于错误施力方向导致卡死
- 触觉策略:通过接触区域检测(图8红区)实时调整施力向量
一个令人惊讶的发现是:在"放置软球"任务中,虽然最终成功率提升不大(70%→85%),但触觉策略展现出更精细的操作模式——会在初始抓取后微调至球体质心,这种隐式优化是纯视觉策略无法实现的。
4. 工程实践中的经验总结
4.1 数据收集的黄金法则
- 接触多样性优先:收集数据时应刻意制造滑动、滚动等多种接触状态。我们发现在硅胶表面滴加微量甘油(<0.5ml)可稳定产生剪切力信号
- 动作覆盖策略:采用"探索-利用"循环:先随机探索操作空间,再针对低密度区域集中采样
- 环境干扰处理:强光环境下需给触觉传感器加装遮光罩(3D打印黑色ABS环)
4.2 触觉传感器维护要点
- 硅胶层保养:每周用酒精棉片清洁后,涂抹薄层硅油(厚度<50μm)可延长使用寿命3倍
- 光学校准:每8小时采集需进行白平衡校准(使用配套校准块)
- 故障诊断:图像出现条纹噪声通常是USB接口松动,重新压接后90%问题可解决
4.3 策略部署的实用技巧
- 触觉嵌入降维:将TPP输出的512维特征通过PCA降至64维,可提升推理速度2.3倍且仅损失5%性能
- 混合策略设计:对非接触阶段使用视觉策略,仅当接触置信度>0.7时切换触觉策略
- 实时性优化:在Orange Pi上部署TensorRT加速,使触觉处理延迟从58ms降至22ms
这套系统目前已在上海交通大学机器人实验室部署8套,累计支持了17个研究项目的触觉数据采集。一个有趣的案例是用于灵巧手操作教学——学生通过exUMI的触觉反馈,能更快掌握诸如"鸡蛋转移"这类精细操作的力度控制技巧。