Arm Neoverse CMN-700 SLC内存系统架构与缓存分区技术解析-编程实验室

1. Arm Neoverse CMN-700 SLC内存系统架构解析

在现代多核处理器设计中，系统级缓存(SLC)作为关键的基础设施，直接影响着整体性能表现。Arm Neoverse CMN-700的SLC内存系统采用了一种高度灵活的架构设计，为高性能计算场景提供了精细化的缓存控制能力。

CMN-700的SLC由多个HN-F(Home Node-Fully coherent)节点组成，每个HN-F管理着部分系统级缓存。这种分布式设计带来了几个显著优势：首先，它避免了单一缓存控制节点可能出现的性能瓶颈；其次，分布式架构更易于扩展，可以根据系统需求灵活增减缓存容量；最后，物理分布式的缓存节点可以更好地匹配处理器的NUMA架构，减少远程访问延迟。

关键提示：HN-F节点必须工作在FAM(Full Active Mode)、HAM(Half Active Mode)或SFONLY(Snoop Filter Only)三种操作模式之一，这是所有缓存控制功能正常工作的前提条件。

SLC内存系统的核心功能通过一组精心设计的寄存器实现控制。这些寄存器可以分为几个主要类别：

配置寄存器：控制HN-F的工作模式和基本参数
状态寄存器：反映当前缓存操作的状态和结果
区域锁定寄存器：管理内存区域的缓存锁定
分区控制寄存器：实现缓存的分区管理

特别值得注意的是ABF(Address Based Flush)引擎，它负责在需要时对特定内存区域的缓存进行刷新操作。ABF引擎的工作需要满足几个前提条件：SF(Snoop Filter)必须处于启用状态；在刷新过程中不能修改PWPR(Power and Wakeup Proxy Register)寄存器；必须通过检查cmn_hns_abf_sr寄存器的状态来确认刷新操作是否成功完成。

2. 软件可配置的内存区域锁定技术

2.1 内存区域锁定原理与实现

CMN-700的SLC支持软件可配置的内存区域锁定功能，这项技术对于需要确保关键数据始终驻留在缓存中的场景至关重要。其核心思想是通过预留特定的缓存路(way)来保证特定内存区域的缓存行不会被常规替换算法驱逐。

内存区域锁定的实现依赖于三个关键要素：

锁定的缓存路数量(hnf_slc_lock_ways)
锁定区域的基础地址(hnf_slc_lock_base0~3)
系统总缓存大小

锁定区域大小的计算公式为：

锁定区域大小 = (总SLC大小 × 锁定路数) / 16

例如，在一个16路的SLC中，锁定1路相当于预留1/16的总缓存容量，锁定8路则预留一半容量。

锁定区域的地址对齐要求与区域大小相同，这意味着：

0.5MB区域必须对齐到0.5MB边界
4MB区域必须对齐到4MB边界

这种对齐要求由硬件强制实施，避免了软件配置错误导致的异常情况。

2.2 区域锁定配置实例分析

考虑一个总容量为8MB的SLC配置，下表展示了不同锁定路数对应的区域划分：

SLC大小	锁定路数	总锁定区域大小	有效区域数量	每个区域大小
8MB	1	0.5MB	1	0.5MB
8MB	2	1MB	2	0.5MB
8MB	4	2MB	4	0.5MB
8MB	8	4MB	4	1MB
8MB	12	6MB	4	1MB/2MB

配置这些锁定区域时，软件需要：

设置hnf_slc_lock_ways寄存器指定锁定路数
在hnf_slc_lock_base0~3寄存器中设置各区域基地址
确保HN-F处于FAM模式（其他电源状态不支持区域锁定）

实际经验：在配置多个锁定区域时，建议先通过仿真或计算验证区域大小和地址对齐是否符合要求，避免因配置错误导致系统异常。

2.3 区域锁定的限制与注意事项

内存区域锁定技术虽然强大，但在使用时需要注意几个关键限制：

安全与非安全区域的交互：锁定机制不区分安全和非安全内存区域。如果在这两种区域间存在地址别名，可能导致"过度锁定"现象，即同一物理缓存行被多个逻辑区域锁定。
非2的幂次哈希：当HNF集群中的节点数量不是2的幂次时，可能需要超额配置锁定/OCM路数，这也可能导致过度锁定。
最大支持规模：单个SCG(System Cache Group)中最多支持128个HN-F的SLC路锁定。
电源状态要求：内存区域锁定仅在HN-F处于FAM模式时可用，其他电源状态下无法保证功能正常。

3. 软件可配置的片上内存(OCM)模式

3.1 OCM模式基本原理

CMN-700的HN-F支持一种特殊的操作模式——软件可配置的片上内存(On-Chip Memory, OCM)模式。这种模式允许将SLC用作专门的暂存存储器(scratchpad memory)，甚至可以在没有物理DDR内存的系统中使用。

OCM模式的核心特点是：

HN-F不会向SN-F(Slice Node-Fully coherent)发送请求
所有CMO(Cache Maintenance Operations)操作在SLC中终止
支持动态进入和退出OCM模式

OCM模式的典型应用场景包括：

需要确定性延迟的关键代码段执行
实时系统的专用数据缓冲区
作为特定加速器的专用存储区

3.2 OCM模式配置方法

启用OCM模式需要满足以下条件：

HN-F必须处于FAM电源状态
同一系统缓存组中的所有HN-F必须使用相同的OCM路配置
必须停止所有RN到HN-F的流量后再进行模式切换

OCM模式通过cmn_hns_cfg_ctl寄存器中的hnf_ocm_en位启用。当hnf_ocm_allways_en位设为1时，所有针对HN-F的事务都具有OCM行为。此时OCM区域必须是连续的，并且对齐到配置的总SLC大小。

如果hnf_ocm_allways_en位为0，则由区域锁定寄存器(hnf_slc_lock_ways等)定义OCM区域。这与常规的内存区域锁定机制共享同一套配置接口。

3.3 OCM模式操作流程

进入OCM模式的完整步骤：

停止所有RN到HN-F的流量
将HN-F从FAM模式切换到SFONLY模式
通过配置寄存器启用OCM模式
将HN-F从SFONLY模式切换回FAM模式
恢复RN到HN-F的流量（包括到OCM区域的访问）

退出OCM模式的步骤：

停止所有RN到OCM区域的流量
使用系统软件将OCM区域内容复制到内存的新地址空间
在OCM模式仍启用时，以MakeInvalid模式启动ABF来清除OCM区域
ABF完成后，禁用OCM模式

调试技巧：在OCM模式切换过程中，建议在每个步骤后检查相关状态寄存器，确保操作按预期执行。特别是ABF操作的状态需要仔细监控。

4. 基于请求源的SLC缓存分区技术

4.1 源分区基本原理

CMN-700支持基于请求源(Requestor)的SLC缓存分区技术，这是对地址分区技术的扩展。这种技术允许将特定的缓存路锁定给特定的请求节点(RN-F, RN-I, RN-D)使用，确保关键请求源始终拥有可用的缓存资源。

源分区的主要特点包括：

基于请求节点的逻辑ID或集群ID进行分区
支持两种分配模式：
- 匹配RN只能在锁定路中分配
- 匹配RN可以在锁定或未锁定路中分配（默认）
仅在使用增强LRU(eLRU)模式时支持

配置源分区需要：

设置cmn_hns_rn_region_lock.rn_region_lock_en为1
在cmn_hns_rn*region_vec寄存器中显式启用请求节点
在cmn_hns_slc_lock_ways.ways字段中编程锁定路数

4.2 源分区配置示例

考虑一个需要为特定RN-F保留缓存路的场景：

在cmn_hns_rn_region_lock寄存器中启用源分区(rn_region_lock_en=1)
在cmn_hns_rnf_region_vec寄存器中设置对应RN-F的逻辑ID位
配置cmn_hns_slc_lock_ways指定锁定路数
根据需要设置rn_pick_locked_ways_only位选择分配模式

对于超过32个RN-I/RN-D的配置，索引机制会有所调整：

32-64个节点：丢弃逻辑ID的最低有效位
超过64个节点：丢弃最低两位

性能考虑：源分区可以减少不同请求源间的缓存争用，但过度分区可能导致整体缓存利用率下降。建议通过性能分析确定最佳分区策略。

4.3 源分区的限制

源分区技术有以下重要限制：

不支持在非FAM电源状态下使用
CHI_MPAM_ENABLE参数为True时不支持
不能与区域锁定或OCM模式同时使用
必须使用增强LRU(eLRU)替换策略

5. 基于路的SLC缓存分区技术

5.1 路分区基本原理

CMN-700支持将每个SLC实例分区为不同的区域，每个区域由4个连续的路组成。这种分区方式允许每个请求节点(RN-F, RN-I, RN-D)在一个或多个区域中分配缓存行。

路分区的主要特点包括：

每个分区组有专门的配置寄存器
默认情况下，所有RN可以分配所有16路
支持运行时更改分区配置
仅在使用eLRU模式时支持

路分区通过三组寄存器实现控制：

cmn_hns_slcway_partition[0-3]_rnf_vec：控制RN-F的分区
cmn_hns_slcway_partition[0-3]_rni_vec：控制RN-I的分区
cmn_hns_slcway_partition[0-3]_rnd_vec：控制RN-D的分区

5.2 路分区配置示例

假设我们需要将路0-3保留给RN-F 0-3使用：

向cmn_hns_slcway_partition0_rnf_vec写入64'h000000000000000F
- 允许逻辑RN-F ID 0-3在路0-3中分配
- 禁止其他RN-F ID(4-63)使用这些路
向cmn_hns_slcway_partition0_rni_vec写入32'h0
- 禁止所有RN-I在路0-3中分配
向cmn_hns_slcway_partition0_rnd_vec写入32'h0
- 禁止所有RN-D在路0-3中分配

5.3 路分区的注意事项

配置路分区时需要考虑以下因素：

每个RN必须至少配置一个可分配的分区。如果将所有分区寄存器中某RN的位都设为0，则该RN可以在任何分区中分配（默认行为）。
在CML配置中，需要特别注意远程RN-I和RN-D的LDID分配，应将其分配在本地RN-I和RN-D的逻辑ID之上，以确保SLC分区正确工作。
如果启用了SF集群模式，HN-F使用集群ID而非完整逻辑ID来识别RN，这意味着集群中的所有RN都可以分配到锁定的路。
路分区不能与区域锁定、源分区或OCM模式同时使用。

6. SF中的RN-F跟踪机制

6.1 SF跟踪基本原理

CMN-700的HN-F SF(Snoop Filter)使用RN-F向量索引来跟踪来自特定RN-F的缓存行。这个向量索引的宽度由系统配置决定，最大为128位。

SF向量总宽度计算公式：

SF_TOTAL_WIDTH = SF_MIN_WIDTH + SF_RN_ADD_VECTOR_WIDTH

其中SF_MIN_WIDTH的计算方式为：

SF_MIN_WIDTH = ceil((NUM_LOCAL_RNF + NUM_REMOTE_RNF) / SF_MAX_RN_PER_CLUSTER)

SF支持两种RN-F跟踪模式：

非集群模式：每个向量索引条目关联一个RN-F
集群模式：每个向量索引条目关联一组RN-F

6.2 非集群模式配置

在非集群模式(SF_MAX_RNF_PER_CLUSTER=1)下：

每个RN-F的LDID映射到SF向量索引中的一个条目
系统最多支持128个RN-F
在CML配置中，远程RN必须分配在本地RN-F的LDID之后

示例映射关系：

SF向量索引值	RN-F LDID
0	LDID_0
1	LDID_1
...	...
127	LDID_127

6.3 集群模式配置

集群模式(SF_MAX_RNF_PER_CLUSTER>1)允许将多个RN-F组合成一个集群，从而支持更多RN-F（最多512个）。集群数量限制为128个。

集群模式下，LDID被分为两部分：

集群ID：LDID的高位部分
设备ID：LDID的低位部分，宽度为log2(SF_MAX_RNF_PER_CLUSTER)

示例配置（512 RN-F，4 RN-F/集群）：

集群ID	设备ID0	设备ID1	设备ID2	设备ID3
0	LDID_0	LDID_1	LDID_2	LDID_3
1	LDID_4	LDID_5	LDID_6	LDID_7
...	...	...	...	...
127	LDID_508	LDID_509	LDID_510	LDID_511

6.4 混合跟踪模式

CMN-700支持混合使用集群和非集群模式，这通过适当配置SF_RN_ADD_VECTOR_WIDTH参数实现。例如，可以配置部分RN-F以集群模式跟踪，另一部分以非集群模式跟踪。

在实际系统设计中，选择跟踪模式需要考虑以下因素：

系统规模（RN-F总数）
精确跟踪需求
功耗和面积限制
预期的共享模式访问模式

7. 缓存分区技术的实际应用考虑

7.1 性能优化策略

在实际系统中应用CMN-700的缓存分区技术时，可以考虑以下优化策略：

关键任务优先：为实时性要求高的任务分配专用缓存分区，确保其性能可预测。
负载隔离：将相互干扰大的工作负载隔离到不同的缓存分区，减少争用。
热数据保留：使用区域锁定保留频繁访问的数据，减少缓存失效。
动态调整：根据运行阶段调整分区策略，适应不同的工作负载特征。

7.2 调试与性能分析

调试缓存分区配置时，建议采用系统化的方法：

基线测试：在未启用分区的情况下测量系统性能。
逐步配置：每次只应用一种分区技术，评估效果。
性能监控：使用硬件性能计数器监控缓存命中率、带宽利用率等指标。
验证工具：利用Arm提供的仿真和验证工具提前验证配置。

7.3 典型应用场景

CMN-700的缓存分区技术特别适合以下场景：

实时系统：通过锁定关键数据和代码，确保最坏情况执行时间。
异构计算：为不同处理器类型（CPU、GPU、AI加速器）分配专用缓存资源。
虚拟化环境：为不同虚拟机或容器提供隔离的缓存空间。
安全应用：隔离安全关键数据，防止侧信道攻击。
高吞吐量数据处理：为数据平面和控制平面分配独立的缓存资源。

在实际部署中，我们通常需要根据具体工作负载特征进行多次迭代测试和调整，才能找到最优的缓存分区配置。建议从小的分区开始，逐步扩大范围，同时密切监控系统整体性能变化，避免因过度分区导致缓存利用率下降。

Arm Neoverse CMN-700 SLC内存系统架构与缓存分区技术解析