Intel RealSense深度视觉开发：16位深度图与RGB图同步采集与保存实战-编程实验室

1. 从零开始搭建RealSense开发环境

第一次接触Intel RealSense摄像头时，我被它强大的深度感知能力惊艳到了。这玩意儿不仅能像普通摄像头一样捕捉彩色图像，还能通过红外传感器获取每个像素点的距离信息。不过要玩转这个黑科技，得先把开发环境搭好。

安装pyrealsense2库其实特别简单，一行命令就能搞定：

pip install pyrealsense2

但这里有个坑我踩过好几次：一定要确保你的Python版本在3.6以上。我之前用Python 3.5折腾了半天，各种报错，最后才发现是版本不兼容。另外，如果你是Windows用户，建议直接用Intel官方提供的RealSense Viewer工具先测试下硬件是否正常工作。

安装完成后，建议顺手把以下依赖也装上：

pip install opencv-python numpy pypng

这些库后面处理图像数据时都会用到。特别是pypng这个库，很多人不知道它是保存16位深度图的关键。普通jpg格式只能存8位数据，会丢失深度信息的精度，而png格式支持16位存储，正好匹配RealSense的Z16格式深度数据。

2. 深度图与RGB图的同步采集原理

RealSense摄像头最厉害的地方在于它能同时输出深度图和RGB图，而且这两个图像在时间上是严格同步的。这背后的技术原理很有意思 - 它其实是通过两个传感器（一个RGB摄像头和一个红外摄像头）协同工作实现的。

要让两个图像完美对齐，需要用到align对象。我刚开始用的时候总是不明白为什么要对齐，直到有次做物体测量项目时才发现，没对齐的图像会导致深度数据和彩色数据位置不匹配。比如你想知道某个红色物体的距离，结果深度图对应的却是旁边的绿色物体。

看看这个对齐代码的核心部分：

align_to = rs.stream.color align = rs.align(align_to) frames = pipeline.wait_for_frames() aligned_frames = align.process(frames)

这段代码的意思是：把所有数据流（深度、红外等）都对齐到彩色流的坐标系。这样处理后的深度图和RGB图就是像素级对齐的了，每个彩色像素都能找到对应的深度值。

3. 16位深度图的处理技巧

RealSense输出的深度图默认是16位的，这意味着它的取值范围是0-65535。但很多人第一次拿到深度数据时都会懵 - 这数据到底代表什么意思？

其实每个像素值表示的是距离，单位是毫米。不过要注意，这个值不是线性增长的。我做过测试，在1米距离时，深度值大约是1000左右；2米时是2000左右。但超出一定范围后，深度值就会变成0，表示这个点测不到距离。

处理16位深度图时最容易犯的错误就是直接把它当8位图像显示：

# 错误做法：直接显示16位深度图 cv2.imshow('Depth', depth_image) # 这样显示会全黑

正确做法是先做个转换：

# 将16位深度图转为可视化的8位图像 depth_image_8bit = cv2.convertScaleAbs(depth_image, alpha=0.004)

这个0.004的系数是怎么来的呢？因为8位图像最大值是255，16位是65535，255/65535≈0.004。不过这只是为了显示，实际保存时一定要保留原始16位数据。

4. 实战：同步保存RGB和深度图

终于到了最实用的部分 - 如何把采集到的图像保存下来。RGB图保存很简单，用OpenCV的imwrite就行：

cv2.imwrite('rgb.jpg', color_image)

但深度图的保存就讲究多了。我试过好几种方法，最后发现用pypng库最可靠：

with open('depth.png', 'wb') as f: writer = png.Writer(width=depth.shape[1], height=depth.shape[0], bitdepth=16, greyscale=True) writer.write(f, depth.tolist())

这里有几个关键点：

一定要指定bitdepth=16，这样才能保留完整的深度信息
greyscale=True表示保存为单通道图像
tolist()把numpy数组转为png库需要的列表格式

我建议把RGB和深度图成对保存，并在文件名上做关联。比如：

frame_001_rgb.jpg frame_001_depth.png

这样后续处理时就不会搞混。另外，保存相机内参也是个好习惯：

intr = color_frame.profile.as_video_stream_profile().intrinsics camera_parameters = { 'fx': intr.fx, 'fy': intr.fy, 'ppx': intr.ppx, 'ppy': intr.ppy, 'width': intr.width, 'height': intr.height } with open('intrinsics.json', 'w') as f: json.dump(camera_parameters, f)

5. 常见问题排查与性能优化

在实际项目中，我遇到过不少RealSense的坑。比如有时候深度图会出现大面积空洞（值为0的区域），这通常是因为物体表面反光或者距离太远。解决方法是调整摄像头的深度预设：

sensor = profile.get_device().first_depth_sensor() sensor.set_option(rs.option.visual_preset, 3) # 3代表High Accuracy模式

另一个常见问题是帧率不稳定。我做过测试，在USB2.0接口上跑640x480分辨率时，帧率经常掉到15fps以下。换成USB3.0接口后就能稳定30fps了。所以强烈建议使用USB3.0接口，并在代码中检查连接速度：

depth_sensor = profile.get_device().first_depth_sensor() print("实际深度图帧率:", depth_sensor.get_option(rs.option.current_fps))

内存泄漏也是个需要注意的问题。RealSense的管道(pipeline)如果不正确关闭，会导致内存持续增长。正确的做法是在程序退出前调用：

pipeline.stop()

或者在异常处理中也加入这个调用。我在一个长期运行的服务中就遇到过因为异常导致pipeline没关闭，最后内存爆掉的情况。

6. 实际应用案例分享

去年我做过一个智能仓储的项目，就是用RealSense来测量货架上货物的体积。这个项目让我深刻体会到同步RGB和深度图的重要性。我们需要先用彩色图像识别出货物，然后用对应的深度数据计算长宽高。

核心代码逻辑是这样的：

color_image, depth_image = get_aligned_images() # 物体识别（伪代码） boxes = detect_objects(color_image) for box in boxes: x1, y1, x2, y2 = box # 提取ROI区域深度数据 roi_depth = depth_image[y1:y2, x1:x2] # 计算实际物理尺寸 width_mm = (x2-x1) * depth_scale * focal_length height_mm = (y2-y1) * depth_scale * focal_length depth_mm = np.median(roi_depth) * depth_scale

这个项目里最大的收获是发现深度数据的精度会随距离增加而降低。在1米范围内，误差可以控制在±2mm以内；但到了3米外，误差可能达到±1cm。所以做测量类应用时，一定要考虑这个因素。

7. 进阶技巧：深度图后处理

原始深度图往往会有噪声和空洞，这时候就需要一些后处理技巧。我最常用的方法是中值滤波和空洞填充：

# 中值滤波去噪 filtered_depth = cv2.medianBlur(depth_image, 5) # 简单空洞填充（用周围像素均值） mask = (filtered_depth == 0).astype(np.uint8) while np.sum(mask) > 0: filled = cv2.inpaint(filtered_depth, mask, 3, cv2.INPAINT_TELEA) filtered_depth[mask > 0] = filled[mask > 0] mask = (filtered_depth == 0).astype(np.uint8)

对于更专业的应用，RealSense还提供了内置的后处理过滤器：

dec_filter = rs.decimation_filter() # 降采样 spat_filter = rs.spatial_filter() # 空间滤波 temp_filter = rs.temporal_filter() # 时域滤波 filtered_frame = dec_filter.process(depth_frame) filtered_frame = spat_filter.process(filtered_frame) filtered_frame = temp_filter.process(filtered_frame)

这些过滤器效果相当不错，特别是时域滤波，能有效减少帧间的抖动。不过要注意，开启太多过滤器会增加处理延迟，实时性要求高的场景要谨慎使用。