从零读懂RDMA内存注册-编程实验室

在RC、RD、UC、UD操作的背后，有一个非常容易被忽略的基石——内存注册，每一个操作都依赖内存注册才能运转。

那么，为什么RDMA非要搞内存注册这套东西？答案很简单，传统的TCP程序里，你直接往send()里扔一个用户缓冲区就行，CPU的MMU会帮你把虚拟地址翻译成物理地址。但RDMA网卡不认识这套系统页表——每个CPU架构的页表格式都不一样，硬件没法通用。而且页表是核心系统资源，不能随便暴露给外部设备。所以网卡必须有一套自己认得的路和钥匙。

一、先从入口开始：ibv_reg_mr的调用

应用程序调用ibv_reg_mr，参数有以下信息：

pd：所属的protection domain（安全域）；
addr：起始虚拟地址；
length：注册长度；
access：访问权限（本地写、远程读、远程写、原子操作等）；

这里有一些关键点需要注意，权限必须在注册时一次性声明完毕，运行时无法动态提升。驱动将参数发送给硬件，此时执行完毕。

二、页锁定（Pin）：禁止操作系统“动”这片内存

应用程序调用ibv_reg_mr之后，驱动会遍历该虚拟地址范围内的页表，在遍历的过程中会做两件事，首先是强制触发所有缺页异常，确保物理内存被真正分配出来，其次将这些页标记为“锁住”状态，阻止内核将它们交换到磁盘或迁移到其他位置。

那么为什么要做这一步呢？

答案很简单，就是不能换页。

在传统的TCP协议栈中，软件感知的是虚拟地址，CPU中有一个MMU，会帮你把虚拟地址翻译成物理地址。所以TCP协议栈在发送数据时，CPU是全程参与的。

但是RDMA不能这么做，因为网卡是独立硬件，它只知道物理地址，并且网卡不认识CPU的页表，因为不同CPU架构的页表格式不一样，网卡也没法通用，所以网卡必须在注册时把虚拟地址到物理地址的映射关系一次性确定下来，硬编码在硬件可访问的表里。映射确定之后，物理地址就不能再变了；如果内核在注册后偷偷把页换走，网卡拿到老的物理地址去DMA，就会写进别人的内存——这是灾难性的安全问题。

三、MTT（Memory Translation Table）：硬件的“页表”

锁页完成后，驱动面临一个问题，那就是网卡不认识虚拟地址。传统的CPU访问内存靠MMU查系统页表，但RDMA网卡不能直接访问系统页表，每个CPU架构的页表格式都不一样，而且页表是内核核心资源，不能随便暴露给外部设备。所以网卡必须有一套自己专用的页表结构，至此MTT（Memory Translation Table，内存翻译表）便诞生了。

每个MTT表项固定8字节，存放一个物理页的起始地址。MTT本质上是一张以页为单位的大表：注册2GB内存、4KB页大小，就需要2,097,152÷4,096≈512K个表项。但问题随之而来——MTT本身也要存放在内存里。512K个表项占用约4MB内存，这还不是最大的问题。真正的问题是：当注册的内存特别大（比如64GB），MTT表项的数量膨胀到1600万个，占用超过128MB内存，那么单级页表就非常不划算了。

为了解决这个问题，目前一般使用多级MTT结构，这和CPU的多级页表异曲同工，接下来我们来介绍一下多级页表都是干嘛的：