树张量网络FPGA部署：亚微秒级AI推理的硬件架构与量化实践-编程实验室

1. 项目概述：当量子启发算法遇上硬件加速

在机器学习模型日益庞大、推理延迟要求愈发严苛的今天，我们常常面临一个核心矛盾：模型的强大性能与部署时的资源消耗、计算延迟难以兼得。尤其是在高能物理实验的触发系统、工业实时检测或自动驾驶感知等场景，毫秒级的延迟都显得过于漫长，我们需要的是亚微秒（Sub-microsecond）级别的决策速度。传统深度神经网络虽然强大，但其庞大的参数量和复杂的非线性计算，在追求极致低延迟的硬件部署上常常捉襟见肘。

这时，一种源于量子物理领域的数学工具——张量网络，为我们提供了新的思路。它本质上是一种高维数据的高效表示和计算方法，通过将一个大张量分解为一系列小张量的收缩网络，巧妙地规避了“维度灾难”。而树张量网络作为其中结构最清晰、无环路的架构，不仅保留了强大的表示能力，其内部纯粹的线性张量收缩运算，更是为硬件并行化加速打开了大门。

我最近深入实践了一个将树张量网络部署到FPGA上的项目，目标就是在保持可观分类精度的前提下，将推理延迟压缩到1微秒以内。这不仅仅是把软件算法“翻译”成硬件描述语言那么简单，它涉及从模型特性分析、硬件架构设计、资源与时序的极致权衡，到最终的量化与验证等一系列工程挑战。下面，我就结合在Iris、Titanic以及高能物理b/¯b喷注分类数据集上的实战经验，拆解整个实现过程，特别是全并行与部分并行这两种核心策略的取舍，以及如何通过量化“榨干”每一比特的精度价值。

2. 树张量网络：原理、优势与硬件亲和性解析

在动手写一行硬件代码之前，必须吃透树张量网络本身的特性。理解它为什么“天生”适合FPGA，是后续所有优化设计的基础。

2.1 从张量到树：一种高效的参数化方式

我们可以把一个需要处理的多维数据（比如多个特征组合的联合概率分布）想象成一个高阶张量。直接存储和计算这个张量是不现实的，因为其参数数量会随着维度指数级增长，这就是“维度灾难”。树张量网络的核心思想是因式分解：将这个高阶张量近似表示为许多低阶（通常是三阶）小张量通过特定模式收缩连接而成的网络。

树形结构特指这个网络的连接拓扑像一棵树：有根节点、中间节点和叶子节点，并且没有循环。在我们的实现中，为了方便硬件设计，采用了最简单的二叉树结构。假设有N个输入特征（要求N是2的幂次），那么网络就有L=log₂(N)层。每个叶子节点对应一个输入特征，经过特征映射（如旋量映射 f(x) = [cos(xπ/2), sin(xπ/2)]）后，变成一个D维向量。每个中间节点和根节点都是一个三阶张量，负责将来自两个子节点的向量“收缩”成一个新的向量，传递给父节点，直至根节点输出最终的分类概率向量（对于二分类，输出维度O=1或2）。

关键超参数有两个：特征映射维度D和键维数χ。D决定了输入特征的表示丰富度。χ则定义了网络内部“信息通道”的宽度，它沿着网络从叶子到根可以变化，通常遵循 χ_l = min(D * 2^l, χ_0) 的规则进行裁剪，其中χ_0是一个预设上限。通过控制χ_0，我们可以主动压缩模型，在精度和参数量之间取得平衡。

实操心得：模型剪枝的物理直觉树张量网络一个迷人的特性是其可解释性。由于它源自量子态表示，我们可以计算网络内部连接（键）的纠缠熵，以及不同特征节点之间的量子关联。这不仅仅是理论游戏。在实际操作中，我通过计算Titanic数据集中各特征的纠缠熵（如图4所示），发现“sibsp”（兄弟姐妹/配偶数量）和“embarked”（登船港口）等特征熵值很低，意味着它们携带的、对分类任务有用的信息较少。基于此，我尝试仅用熵值最高的四个特征重新训练模型，参数量从384锐减至48，而准确率仅下降了几个百分点。这种基于物理量的、有指导的剪枝，比盲目的权重裁剪要优雅和有效得多，为将大模型塞进资源有限的FPGA提供了关键前提。

2.2 为什么TTN是FPGA的“理想搭档”？

FPGA的优势在于其可编程的硬件并行性和确定的低延迟。TTN恰好能最大化这些优势：

纯线性操作：TTN的推理过程完全由张量收缩构成，即大量的乘加运算。没有非线性激活函数（如ReLU）、没有复杂的规约操作（如Softmax），计算图极其规整。这完美匹配FPGA擅长构建大规模并行乘加器阵列的特点。
固定计算图：一旦网络结构（N, D, χ序列）确定，计算图就固定了。这意味着我们可以为特定的TTN架构定制一个高度优化的、流水线化的硬件电路，消除任何条件分支或动态调度带来的开销。
参数可压缩：如前所述，通过键维数裁剪和基于熵的特征剪枝，我们可以大幅减少模型参数量，使其能够放入FPGA有限的片上存储（BRAM）中，避免访问外部低速DRAM带来的延迟瓶颈。
数值范围稳定：经过适当归一化处理后，TTN中的权重和激活值通常被限制在一个较小的范围内（例如[-2, 2]）。这为使用定点数而非浮点数进行运算奠定了基础。定点数在FPGA上实现起来面积更小、速度更快、功耗更低。

理解了这些，我们就能明白，将TTN部署到FPGA不是一个“能不能”的问题，而是一个“如何最优”的问题。接下来的核心，就是设计硬件架构来高效执行最基本的操作：张量收缩。

3. 核心运算单元：张量收缩的硬件架构设计

整个TTN的推理，可以归结为层层迭代的单个节点收缩操作。把这个基础单元设计好，整个网络的性能基调就定下了。

3.1 单节点收缩的数学与硬件映射

考虑一个树节点，它有两个维度为D的输入向量x和y，以及一个形状为[D, D, χ]的三阶权重张量V。收缩操作产生一个长度为χ的输出向量z，其每个元素的计算公式为：z[i] = Σ_j Σ_k (x[j] * y[k] * V[j, k, i])这是一个三重求和，核心是三次乘法。然而，FPGA中的基础计算单元——数字信号处理器通常设计用于高效执行两个操作数的乘法。因此，我们必须将三重乘加分解为DSP友好的两级运算。

我采用的策略是先计算向量外积，再与权重张量切片相乘：

第一阶段：计算输入向量x和y的笛卡尔积（外积），得到一个D×D的矩阵P，其中P[j, k] = x[j] * y[k]。这需要D²次乘法。
第二阶段：对于输出向量的第i个元素，将矩阵P与权重张量V的第i个切片（一个D×D矩阵）进行逐元素相乘后求和：z[i] = Σ_j Σ_k (P[j, k] * V[j, k, i])。这需要为每个i执行D²次乘法和一次大求和。

如何安排这两级计算，就引出了两种截然不同的硬件实现策略：全并行和部分并行。它们体现了硬件设计中永恒的权衡：面积（资源） vs. 速度（延迟）。

3.2 策略一：全并行实现——以资源换速度

全并行的设计哲学非常直接：为所有可以并行的计算分配独立的硬件资源，最大化数据吞吐量，最小化延迟。

硬件结构剖析：以D=2, χ=2的节点为例（结构如图7所示）：

第一级乘法阵列：需要D²=4个DSP，分别同时计算x[0]y[0], x[0]y[1], x[1]y[0], x[1]y[1]。
第二级乘法阵列：每个输出维度i都需要D²个DSP来处理其对应的权重切片。因此共需要χ * D² = 2*4=8个DSP。这8个DSP同时工作，分别计算P的每个元素与对应权重的乘积。
加法树：每个输出维度i对应的D²个乘积需要被加总。我们使用一个加法树来实现。加法树是一种多层结构，每一层将上一层的输出两两相加。对于D²个输入，需要log₂(D²)层加法。加法树通常由查找表和触发器实现，不消耗DSP资源。

时序与流水线：在全并行设计中，两级乘法各需固定的时钟周期（记为Δt_DSP，通常为1-4个周期，取决于DSP的流水线深度）。关键在于，所有计算都是同时开始的。第一级乘法完成后，结果立刻被锁存并送入第二级乘法阵列。第二级乘法完成后，所有结果同步地进入加法树。因此，单个节点的总延迟约为：2 * Δt_DSP + log₂(D²) * Δt_DSP。更重要的是，我们可以轻易地对不同数据样本进行流水线处理（如图8所示）。当第一个样本进入加法树阶段时，第二个样本可以开始第一级乘法，从而实现每个时钟周期或每几个时钟周期就能完成一个样本的节点收缩，吞吐量极高。

资源消耗公式：对于一个输入维度为χ_in，输出维度为χ_out的节点，其DSP消耗为：χ_in² * (χ_out + 1)。其中χ_in²对应第一级乘法，χ_in² * χ_out对应第二级乘法。整个网络的DSP总数是各层节点消耗之和（公式4）。

注意事项：加法树的隐藏成本全并行方案中，加法树虽然不占DSP，但会消耗大量的查找表和触发器资源。当D较大时（例如D=8，则D²=64），加法树的层数和复杂度会显著增加，成为布局布线的挑战。在实际综合时，需要密切关注LUT/FF的利用率，防止其成为新的瓶颈。此外，加法树的引入也增加了固定的逻辑延迟层数，这是全并行方案延迟公式中对数项的来源。

3.3 策略二：部分并行实现——以时间换资源

部分并行的设计思路相反：通过时分复用来共享昂贵的硬件资源，显著减少DSP用量，代价是计算时间变长。

硬件结构剖析：同样以D=2, χ=2为例（结构如图9所示）：

高度共享的乘法器：我们只使用1个DSP来计算第一级的外积。通过一个多路选择器，依次将x和y的不同组合送入这个DSP，经过D²个时钟周期，串行计算出所有P[j, k]。
第二级乘法阵列：我们使用D²个DSP（此例中为4个），每个负责计算一个固定的P元素与所有权重切片对应位置的乘积。但由于权重是串行读取的，这D²个DSP在每个时钟周期内，都同时与权重张量不同切片（对应不同输出维度i）的同一个位置(j,k)相乘。
串行累加器取代加法树：由于第二级乘法的结果不再是同时产生的（每个时钟周期产生χ个部分积，分别对应χ个输出维度），我们无法使用同步的加法树。取而代之的是为每个输出维度配备一个累加器。每个时钟周期，将新产生的部分积累加到对应的累加器中。

时序分析：部分并行的延迟显著增加。首先需要D²个周期完成第一级外积。然后，对于每个外积结果，需要χ个周期来与所有权重切片完成乘加。因此，单节点总延迟约为：(D² + χ) * Δt_DSP（公式7）。这里没有对数项，因为累加是串行的。其延迟与χ呈线性关系，与D呈平方关系，增长速度远快于全并行的对数增长。

资源消耗公式：部分并行方案中，单个节点的DSP消耗是固定的：D² + 1（公式5）。它与输出维度χ无关！这是一个巨大的优势。当你需要较大的χ来保持模型表达能力时，全并行方案的DSP消耗会线性增长，而部分并行方案岿然不动。这使得部分并行方案在资源极其受限但允许稍长延迟的场景下极具吸引力。

两种策略的选型决策表：

特性维度	全并行实现	部分并行实现	选型建议
核心目标	极致低延迟	节省DSP资源	根据首要约束决定
DSP消耗	高，与χ线性相关	低，与χ无关	资源紧张选PP
计算延迟	低，对数增长	高，平方/线性增长	延迟敏感选FP
适用场景	触发系统、实时控制	嵌入式、多任务FPGA、原型验证	FP用于关键路径，PP用于资源瓶颈处
控制逻辑	相对简单，同步性好	较复杂，需要调度器	PP对设计验证要求更高

在实际项目中，我通常的做法是：先用部分并行方案快速实现一个原型，验证算法功能并评估资源占用。然后，对延迟要求最苛刻的网络或网络层，尝试替换为全并行实现，并评估资源是否可接受。例如，在Titanic数据集的小模型上，我使用了全并行以追求纳秒级延迟；而在考虑更大规模的网络时，则会优先评估部分并行方案。

4. 从节点到系统：整体网络实现与量化优化

设计好单个节点的收缩引擎后，我们需要将其实例化多次，连接成完整的树状网络，并解决权重存储、数据流以及至关重要的数值精度问题。

4.1 整体网络集成与数据流设计

一个完整的TTN硬件模块，除了计算核心，还需要存储和通信两部分。

权重存储：训练好的TTN节点权重是静态参数。我们将它们存储在FPGA的块RAM中。BRAM具有高带宽、可并行访问的特性，非常适合为并行的乘法阵列提供权重数据。设计时，需要根据并行策略来组织BRAM中的数据布局。对于全并行，需要确保在一个周期内能为所有DSP提供所需的权重，这可能需要对权重进行转置或重排存储。
控制与调度：需要一个有限状态机来协调整个网络的收缩流程。对于二叉树，收缩顺序是确定的：从叶子节点开始，逐层向上。FSM需要控制：a) 从输入接口读取特征向量；b) 从BRAM读取对应节点的权重；c) 启动节点收缩计算单元；d) 将中间结果（上一层的输出向量）写入寄存器或FIFO，作为下一层节点的输入；e) 最终将根节点的输出向量送到输出接口。
外部接口：为了与主机（如CPU）交互，我们通常使用AXI4-Lite总线来配置控制寄存器（如启动信号、复位信号）以及动态加载权重（虽然权重通常是固定的，但此接口允许我们更换模型而不重新烧录FPGA比特流）。数据输入和输出则采用AXI4-Stream接口，实现高速、连续的数据流传输。这种设计使得FPGA可以作为协处理器，从上游接收数据流，并实时输出推理结果。

在我的实现中，整个数据通路被深度流水线化。这意味着当第L层正在处理第n个样本时，第L-1层已经在处理第n+1个样本，而输入接口正在接收第n+2个样本的数据。这种流水线是达到超低延迟吞吐量的关键，虽然单个样本的端到端延迟（从输入到输出）可能是几十个时钟周期，但系统可以每个或每几个周期就输出一个结果。

4.2 定点数量化：在精度与资源间走钢丝

FPGA擅长整数和定点数运算。将软件中训练的浮点权重和数据进行定点化，是减少资源占用、提高运行频率的关键步骤。但这绝非简单的截断，而是一个精细的权衡过程。

量化策略：我们使用静态定点数格式：Qm.n，表示总共使用m+n位，其中m位用于整数部分（含符号位），n位用于小数部分。由于我们的数据范围被归一化到[-2, 2]，因此至少需要2个整数位（包括符号位）。剩下的位宽全部分配给小数部分，以保持精度。

量化流程：

范围分析：在测试集上运行浮点模型，统计所有权重和所有可能中间激活值的动态范围。确认其是否稳定在预设范围内（如[-2,2]）。
精度仿真：在Python/C++中建立一个定点数仿真模型，用不同的分数位宽度n（如从16位到4位）对权重和计算进行模拟。比较定点模型与浮点模型在测试集上的准确率。
硬件资源评估：如图13所示，乘法运算的实现方式取决于操作数位宽。当位宽较小时（例如总数小于~18位），综合工具可能仅用LUT和FF来实现乘法器，节省宝贵的DSP资源。当位宽较大时，工具会自动推断使用DSP。我们的目标是：在满足精度要求的前提下，尽可能选择小的位宽，以促使工具使用LUT/FF实现乘法，或将DSP占用降到最低。

实战中的量化案例：

Titanic [2,4,8,1] 网络：如图14所示，我将分数位从14位逐渐降低测试。发现当分数位降至6位（即总位宽为2+6=8位）时，硬件推理准确率与浮点版本相比没有明显下降。这是一个巨大的成功！这意味着我们可以用8位定点数来实现整个推理，DSP使用量有望远低于理论公式的预测。
LHCb [2,4,8,8,2] 网络：如图16所示，这个更复杂的网络对量化更敏感。分数位必须保持在7位以上，准确率才不会崩塌。这表明，最优的量化位宽是模型和任务特定的，必须逐个进行实证研究，无法一概而论。

避坑指南：量化误差的累积与溢出
中间位宽扩展：两个B位宽的定点数相乘，结果是2B位宽。在加法树中，多个数相加，结果位宽会进一步增长。必须仔细设计数据通路中每个阶段的位宽，进行合理的截断或舍入，防止中间结果溢出导致计算错误，同时避免位宽无限制增长消耗过多资源。我通常会在加法树的每一层后，进行饱和处理或保留额外保护位。
对称量化与非对称量化：我们采用了简单的对称量化（整个动态范围关于0对称）。对于数据分布严重偏斜的情况，可以考虑非对称量化（为最小值和最大值分配不同的零点），但这会增加硬件复杂度。在TTN中，由于数据经过归一化，对称量化通常足够。
量化感知训练：为了获得更好的低精度性能，可以在软件训练阶段就模拟量化噪声，让模型在训练过程中适应低精度计算。这对于将位宽压到极低（如4位）至关重要。在我们的项目中，由于6-8位已满足要求，故未采用，但这是未来进一步压缩的明确方向。

5. 实战部署：从仿真验证到性能实测

理论分析和模块设计完成后，需要经过完整的硬件实现流程，并在实际硬件上验证功能和性能。

5.1 开发流程与验证方法

我的硬件开发基于VHDL/Verilog和Xilinx Vitis HLS工具链混合使用。对于高度规整的计算单元（如乘法阵列），用HLS编写可以快速迭代；对于精细的流水线控制和接口逻辑，则用传统的HDL编写以获得最大控制力。

功能仿真：使用ModelSim等工具，用软件生成的测试向量（浮点精度）驱动RTL仿真，将硬件输出与软件黄金参考模型进行逐周期比对。这一步确保逻辑正确性。
协同仿真：将量化后的定点权重和输入数据导入硬件仿真，比较硬件输出与软件定点模型输出。如图15和图17所示，我分别验证了Titanic和LHCb网络，硬件输出与软件输出的均方误差极小（~10^-3量级），足以保证分类标签完全一致。
综合与实现：将设计放到目标FPGA（如Xilinx XCKU115）上进行综合、布局布线。重点关注时序报告（确保满足250MHz时钟约束）、资源利用率报告（DSP、BRAM、LUT、FF）。
片上验证：生成比特流文件，下载到FPGA开发板。通过PCIe或以太网接口，从主机PC发送大量测试数据流，并接收FPGA的推理结果，进行最终精度和延迟统计。

5.2 性能结果与资源分析

下表汇总了三个不同复杂度TTN模型在XCKU115 FPGA上实现的最终结果：

数据集	TTN结构	实现策略	DSP占用率	BRAM占用率	预测延迟	时钟频率
Iris	[2,4,1]	部分并行	~1%	~2%	108 ns	250 MHz
Titanic	[2,4,8,1]	全并行	~8%	~19%	72 ns	250 MHz
LHCb	[2,4,8,8,2]	全并行	~36.5%	~84%	104 ns	250 MHz

结果解读与洞察：

亚微秒级延迟达成：三个模型的推理延迟均在100纳秒左右，完全满足高能物理触发系统等极端低延迟应用的需求。这证明了TTN+FPGA方案的有效性。
资源与延迟的权衡：Iris模型最简单，采用部分并行，DSP占用极低（1%），但延迟略高。Titanic模型采用全并行，虽然DSP占用升至8%，但延迟反而更低（72ns）。LHCb模型最复杂，即使采用全并行且消耗了36.5%的DSP，其延迟也仅比Titanic模型稍高，这体现了全并行架构在延迟上的优势，以及对数增长规律的体现。
BRAM是潜在瓶颈：对于LHCb模型，BRAM占用率高达84%。这是因为所有节点权重都需要存储在片上。虽然DSP还有余量，但BRAM的耗尽会限制模型规模的进一步扩大。解决方案包括：a) 更激进的模型剪枝；b) 权重压缩（如利用对称性、低秩近似）；c) 在绝对必要时，将部分权重放到片外存储器，但这会引入访问延迟，需要精心设计缓存。
量化带来的红利：实际部署LHCb模型时，通过量化研究将位宽从默认的16位优化到了8位（分数位7）。这不仅没有损失精度，还使得许多乘法操作被综合为LUT/FF实现，实际DSP占用远低于公式4的理论上限值。这凸显了量化作为独立优化维度的巨大价值。

6. 常见问题与调试实录

在将TTN部署到FPGA的整个过程中，我遇到了不少坑。这里把一些典型问题和解决思路记录下来，希望能帮你少走弯路。

问题一：时序违例，无法达到目标时钟频率（如250MHz）。

现象：布局布线后报告建立时间或保持时间违例。
排查：
1. 检查关键路径：时序报告通常会指出最长的逻辑路径。这往往是大型加法树的最后几级，或者连接了过多DSP的输出网络。
2. 检查流水线深度：全并行方案中，如果Δt_DSP设置得太小（比如1），意味着乘法器几乎没有内部流水线寄存器。虽然理论上延迟最小，但组合逻辑路径会很长。尝试将Δt_DSP增加到2或3，在DSP原语中插入更多流水线寄存器，可以显著改善时序。
3. 检查扇出：控制信号（如复位、使能）如果驱动了成百上千个DSP或寄存器，高扇出会导致布线延迟巨大。解决方法是通过寄存器复制来降低扇出。
解决：对于加法树，可以手动在中间插入流水线寄存器，将其分割成多级。对于高扇出网络，使用综合工具的“max_fanout”约束或手动复制寄存器。优先保证关键路径的时序收敛。

问题二：硬件输出与软件仿真结果存在系统性偏差。

现象：功能仿真通过，但协同仿真或上板测试时，输出值整体偏大或偏小，或者出现非随机错误。
排查：
1. 定点数处理不一致：检查软件定点仿真模型和硬件RTL中的舍入模式是否一致（截断、四舍五入、向零舍入）。硬件中通常直接截断低位，而软件仿真若采用四舍五入，会产生微小偏差。确保两者完全一致。
2. 权重加载错误：检查AXI-Lite接口的权重加载逻辑。确认主机发送的权重数据格式（字节序、定点数格式）与FPGA内存中存储的格式完全匹配。一个常见的错误是浮点到定点转换时，缩放因子弄错。
3. 中间结果溢出：这是最隐蔽的错误。检查加法树中每个加法器的输出位宽是否足够。例如，将256个16位数相加，理论上需要16+log2(256)=24位来保证不溢出。如果只保留了20位，在特定输入下就会饱和或溢出，导致结果错误。
解决：建立一个逐层、逐节点的对比测试。将软件计算的每一层中间结果（定点格式）也打印出来，与硬件仿真中抓取的信号进行比对，快速定位首次出现偏差的环节。

问题三：资源利用率过高，无法完成布局布线。

现象：综合通过，但实现（Implementation）阶段因资源占用超过80%-90%而失败，或布线拥塞严重。
排查：
1. 分析资源报告：看是哪种资源（LUT、FF、DSP、BRAM）成为瓶颈。TTN项目通常是DSP或BRAM先耗尽。
2. 审查代码是否生成了意外硬件：检查VHDL/Verilog中是否有本应共享的资源被意外复制了多次？例如，在生成循环中是否错误地实例化了多个本应复用的模块？
解决：
- DSP不足：首先考虑切换到部分并行架构，这是最有效的省DSP方法。其次，进行更激进的量化，尝试将乘法推到LUT中实现。最后，考虑是否能用时间换面积，将单颗FPGA上的计算分时进行（但这会增加延迟）。
- BRAM不足：尝试压缩权重。如果权重矩阵有很多零或重复值，可以使用游程编码等轻量级压缩，并在读取时实时解压。如果网络层次很深，可以考虑将高层不常访问的权重放到片外DDR，但需设计预取机制避免性能抖动。
- 布线拥塞：通常由于逻辑过于集中。尝试使用pblock约束将不同的网络层或计算单元约束在FPGA的不同区域，进行物理隔离。优化代码，减少长距离的信号连接。

问题四：吞吐量不达标，无法持续处理数据流。

现象：单次推理延迟很低，但连续输入数据时，输出间隔不稳定或大于预期。
排查：
1. 流水线气泡：检查控制FSM。确保上一层的输出结果一就绪，就能立刻被下一层使用。任何等待状态都会产生气泡，降低吞吐量。
2. 外部接口瓶颈：AXI-Stream接口的TVALID/TREADY握手信号是否流畅？主机发送数据的速度是否跟得上FPGA的处理速度？FPGA输出结果时，下游接收端是否总是能及时接收？
3. 内存访问冲突：如果权重和数据共享BRAM端口，可能会发生访问冲突。确保为每个需要并行访问的模块提供独立的存储端口或使用双端口BRAM。
解决：在仿真中观察关键握手信号和流水线使能信号。确保设计是“饥饿”的，即计算单元总是在有数据时立刻工作。对于接口，可以添加FIFO作为缓冲，解耦生产者和消费者的速度差异。最终，吞吐量应达到理论值：对于全流水线设计，吞吐量 = 时钟频率 / 流水线深度（周期数）。

这个项目从量子物理的数学概念出发，最终落地为一个在硅片上高速运行的分类器，整个过程充满了跨学科的挑战与乐趣。最深的体会是，硬件加速从来不是简单的“搬运”，而是算法特性和硬件约束之间的深度耦合与相互重塑。树张量网络规整的线性结构，与FPGA天然的并行能力，形成了一种美妙的共振。当你看到那些在软件中需要微妙级计算的推理任务，在硬件上以纳秒级完成时，那种对计算极限的掌控感，正是硬件工程师最大的成就感所在。未来，结合更高级的量化感知训练和自动化硬件架构搜索工具，这套方法有望在边缘AI、金融高频交易等更多对延迟有极致要求的领域发挥威力。