Verilog状态机设计：两段式与三段式写法的工程实践与选择-编程实验室

1. 状态机设计：从概念到代码的工程实践

在数字电路设计，尤其是FPGA和ASIC开发中，状态机（Finite State Machine, FSM）是描述和控制逻辑流程的核心工具。它就像我们生活中的交通信号灯控制器，根据当前是红灯、黄灯还是绿灯（状态），以及倒计时是否结束、是否有紧急车辆通过（输入条件），来决定下一个时刻应该切换到哪个灯（状态转移），并控制相应的灯亮起（输出）。Verilog作为硬件描述语言，其实现方式直接关系到电路的时序性能、资源消耗和可靠性。从业内早期的摸索到如今的成熟方法论，两段式和三段式状态机写法已成为工程师必须掌握的基本功。这篇文章，我将结合十多年的项目踩坑经验，为你彻底拆解这两种写法的本质区别、选用原则以及那些教科书上不会写的实操细节，目标是让你看完后，不仅能写出正确的代码，更能理解每一种写法背后的硬件电路是怎样的，从而在项目中做出最合适的选择。

2. 状态机核心概念与设计范式解析

在深入代码之前，我们必须统一对状态机几个核心概念的理解，这是后续选择不同实现范式的基础。

2.1 状态机的核心要素与硬件映射

一个完整的状态机包含五个核心要素：现态、次态、输入、输出和状态转移逻辑。在Verilog中，这些概念直接映射到具体的硬件结构上。

现态：指当前时钟沿后，状态寄存器所保持的值。它代表了电路当前所处的“历史阶段”。在硬件上，它就是一个由触发器构成的寄存器组。
次态：指根据当前状态和输入条件，由组合逻辑计算出的、下一个时钟沿将要被存入状态寄存器的值。这是一个组合逻辑网络的输出。
状态转移逻辑：这是一个纯组合逻辑电路，其功能是根据“现态”和“输入”，计算出“次态”。它通常由一个case语句或等效的if-else语句实现。
输出逻辑：根据状态机类型不同，输出可能由现态决定（Moore型），或由现态和输入共同决定（Mealy型）。输出逻辑可以是组合的，也可以是时序的，这直接导致了“两段式”与“三段式”的根本区别。

理解这些要素的硬件本质至关重要。例如，当你用reg [2:0] current_state;定义一个状态变量时，综合工具会在FPGA上为你生成3个触发器。当你写next_state = (current_state == IDLE) ? WAIT : WORK;时，综合出的是一系列查找表和选择器构成的组合逻辑网表。

2.2 摩尔型与米利型状态机的工程取舍

状态机分为摩尔型和米利型，这不是学术游戏，而是直接影响输出时序和设计复杂度的工程选择。

Moore型状态机：输出仅与当前状态有关。就像自动售货机的“出货”信号，只会在“出货状态”下产生，与你是按了可乐按钮还是雪碧按钮（输入）无关。其输出相对于输入变化，会延迟至少一个时钟周期。优点是输出稳定，不会因为输入的毛刺而产生瞬间的误输出，设计更简单清晰。
Mealy型状态机：输出与当前状态和输入都有关。就像一个带有“取消”按钮的电梯，在“上升状态”下，如果收到“取消”输入，会立即输出“停止”信号。它的输出可以更快地响应输入变化，但代价是输出路径上包含了组合逻辑，容易受到输入信号毛刺的影响，导致输出出现不希望有的“毛刺”。

在实际工程中，我的经验是：优先使用Moore型。除非对响应速度有极其苛刻的要求（要求输入到输出的延迟必须小于一个时钟周期），并且能确保输入信号经过充分同步和去抖处理，否则Moore型的稳定性和可维护性优势巨大。大部分情况下，我们完全可以通过合理定义状态来规避对Mealy型的依赖。例如，将“上升中且收到取消”定义为一个独立的状态“上升中止中”，这样输出就又只和状态有关了，变回了Moore机。

2.3 状态编码策略：One-Hot vs Binary vs Gray

状态编码方式的选择，是FPGA设计与ASIC或CPLD设计思路的一个分水岭。它本质上是触发器资源与组合逻辑资源之间的权衡。

二进制编码：用最少的触发器来表示状态。例如，4个状态只需要2个触发器（2^2=4）。其状态转移逻辑（比较器）需要比较所有位，组合逻辑相对复杂。在CPLD这种组合逻辑资源丰富而触发器资源稀缺的器件上，这是首选。
格雷码编码：相邻状态间只有一位变化。这能有效减少状态寄存器在跳变时因多位同时变化而产生的“毛刺”和动态功耗。常用于异步FIFO的指针计数，但在同步状态机中优势不明显，因为时钟同步已经解决了竞争冒险问题。
独热码编码：N个状态就用N个触发器，每个状态只有一位为‘1’。这是FPGA设计中的黄金标准。FPGA内部由大量可配置逻辑块组成，每个CLB中都包含丰富的触发器。独热码的优势极其明显：
1. 状态比较速度快：判断“是否处于S_IDLE状态？”只需要检查state[0]这一位，组合逻辑极其简单。
2. 简化状态转移逻辑：次态逻辑常常可以简化为next_state[S_NEXT] = current_state[S_CURRENT] & some_condition;的形式。
3. 利于时序收敛：简单的组合逻辑意味着更短的路径延迟，工具更容易实现高时钟频率。
4. 抗干扰能力强：即使因为亚稳态导致一位触发器出错，也只会跳转到另一个合法状态，而不会像二进制编码那样可能跳转到一个未定义的非法状态。

注意：使用独热码时，必须确保状态机在任何时候有且仅有一位为‘1’。综合工具通常能识别独热码FSM并优化，但为了安全，我们应在代码中明确初始化（全0）并保证转移逻辑的正确性。一个实用的技巧是使用parameter S_IDLE = 4‘b0001, S_WORK = 4’b0010, ...来定义，既清晰又避免了手动编码错误。

3. 两段式状态机：直白但需谨慎的经典写法

两段式状态机是最直观的写法，它将状态转移逻辑和输出逻辑分别用两个always块描述。这种写法结构清晰，但在输出处理上需要格外小心。

3.1 两段式状态机的标准模板与电路映射

让我们先看一个典型的两段式Moore型状态机模板，它描述了一个简单的读数据过程：空闲->发送请求->等待应答->接收数据。

module fsm_two_seg( input wire clk, input wire rst_n, input wire data_ready, input wire ack, output reg rd_req, output reg data_valid ); // 独热码状态定义 parameter IDLE = 3'b001; parameter REQ = 3'b010; parameter WAIT = 3'b100; // 状态寄存器 reg [2:0] current_state, next_state; // 第一段：时序逻辑，状态寄存器更新 always @(posedge clk or negedge rst_n) begin if (!rst_n) current_state <= IDLE; else current_state <= next_state; // 注意是非阻塞赋值 end // 第二段：组合逻辑，状态转移与输出 always @(*) begin // 敏感列表使用@(*)，自动包含所有相关信号 // 默认值赋值，避免生成锁存器 next_state = current_state; rd_req = 1'b0; data_valid = 1'b0; case (current_state) IDLE: begin if (data_ready) begin next_state = REQ; end end REQ: begin rd_req = 1'b1; // Moore输出，仅与状态有关 next_state = WAIT; end WAIT: begin if (ack) begin next_state = IDLE; data_valid = 1'b1; // 输出 end end default: begin next_state = IDLE; // 确保综合出确定电路 end endcase end endmodule

硬件电路是怎样的？第一段always块综合成一个由3个D触发器组成的寄存器组，在时钟上升沿将next_state的值锁存到current_state。第二段always块综合成一个纯组合逻辑网络。这个网络以current_state、data_ready、ack为输入，产生两路输出：一路是next_state，反馈给状态寄存器；另一路是rd_req和data_valid，直接输出到模块外部。

3.2 两段式写法的优势与适用场景

两段式的核心优势在于直观和紧凑。所有逻辑（转移和输出）集中在一个组合逻辑always块中，对于简单的状态机，一眼就能看清在每个状态下做什么、下一步去哪。在以下场景中，两段式可能是更优选择：

组合输出逻辑非常简单：例如输出只是状态的某一位（在独热码中很常见），此时组合逻辑延迟极小，毛刺风险可控。
对面积极度敏感：在一些极低功耗或微型CPLD设计中，希望尽可能减少触发器用量。两段式将输出实现为组合逻辑，节省了用于输出寄存的触发器。
需要Mealy型输出：如果输出必须依赖于当前输入（即Mealy机），那么将输出逻辑和状态转移逻辑写在同一个组合块中是最自然的，因为两者都需要current_state和输入信号。

3.3 两段式的致命陷阱：输出毛刺与时序违例

两段式最大的问题，也是新手最容易栽跟头的地方，就出在它的组合逻辑输出上。

问题一：输出毛刺组合逻辑的输出会随着输入的变化而立即变化。如果current_state或输入信号data_ready、ack存在任何毛刺（可能来自异步输入、逻辑竞争冒险等），这些毛刺会毫无遮挡地直接传递到输出端口rd_req和data_valid上。下游电路如果对这些输出信号敏感（例如用作时钟或复位），就可能引发灾难性的误动作。

问题二：时序路径难以约束输出路径成为了纯组合逻辑路径。从current_state寄存器变化开始，到输出端口稳定为止，这条路径的延迟必须在一个时钟周期内完成。当输出逻辑稍复杂时（例如经过多级门电路），这条路径可能成为整个设计的关键路径，限制系统最高时钟频率。在时序约束文件中，你需要为这些输出端口单独设置set_output_delay约束，管理起来比寄存器输出更复杂。

一个真实的踩坑案例：我曾在一个电机控制项目中采用两段式状态机产生PWM使能信号。在实验室测试一切正常，但产品量产上市后，在个别极端温压条件下，偶发电机异常启动。排查数月，最终用高速逻辑分析仪抓取到，由于电源噪声，状态机的一个中间状态变量产生了纳秒级的毛刺，这个毛刺直接穿透组合逻辑，在PWM使能信号上产生了一个极窄的脉冲，误触发了电机。解决方案就是将其改为三段式，用寄存器打一拍输出，问题根除。

实操心得：如果你坚持使用两段式，一个必须遵循的“安全带”法则是：任何由状态机产生的、用于控制其他时序模块（如计数器、数据通路、使能信号）的输出，必须在状态机外部再用一级寄存器同步。这相当于手动将其“三段式化”，虽然增加了延迟，但换来了稳定性。

4. 三段式状态机：追求稳定与性能的工业级选择

三段式状态机通过增加一个专用的时序逻辑块来寄存输出，彻底解决了组合输出不稳定的问题。它已成为FPGA设计中的推荐和主流写法。

4.1 三段式状态机的精妙结构与设计哲学

三段式状态机将逻辑清晰地划分为三个部分，各司其职：

时序部分：负责状态寄存器的更新。
组合部分：负责计算次态。
时序部分：负责寄存输出。

其标准模板如下，我们实现同样的读数据状态机：

module fsm_three_seg( input wire clk, input wire rst_n, input wire data_ready, input wire ack, output reg rd_req, output reg data_valid ); parameter IDLE = 3'b001; parameter REQ = 3'b010; parameter WAIT = 3'b100; reg [2:0] current_state, next_state; // 第一段：时序逻辑，状态寄存器 always @(posedge clk or negedge rst_n) begin if (!rst_n) current_state <= IDLE; else current_state <= next_state; // 非阻塞赋值 end // 第二段：组合逻辑，次态逻辑 always @(*) begin next_state = current_state; // 默认保持当前状态 case (current_state) IDLE: begin if (data_ready) next_state = REQ; end REQ: begin next_state = WAIT; end WAIT: begin if (ack) next_state = IDLE; end default: next_state = IDLE; endcase end // 第三段：时序逻辑，输出寄存器 always @(posedge clk or negedge rst_n) begin if (!rst_n) begin rd_req <= 1'b0; data_valid <= 1'b0; end else begin // 初始化输出，避免锁存器 rd_req <= 1'b0; data_valid <= 1'b0; // 根据次态（next_state）决定输出 case (next_state) REQ: rd_req <= 1'b1; WAIT: begin // 注意：输出是基于次态的，但实际生效是在下一个时钟周期 // 如果需要在本周期输出，需结合条件，这里演示Moore型 if (ack) data_valid <= 1'b1; // 这是一个Mealy型输出在时序块中的实现 end default: ; // 明确不做任何事，避免综合出不必要的逻辑 endcase end end endmodule

设计哲学解读：

第一段是纯粹的寄存器流水，功能单一。
第二段是纯净的组合逻辑，只计算next_state，不掺杂输出，逻辑更清晰。
第三段是精髓所在。它根据next_state（注意，是next_state而非current_state）来生成输出，并在时钟沿将这些输出锁存到寄存器中。这意味着，输出比对应的状态晚一个时钟周期。例如，在REQ状态，rd_req信号会在进入REQ状态的那个时钟周期上升沿后变为高电平，并持续整个REQ状态周期。这种“预判式”输出是稳定性的关键。

4.2 为何三段式能消除毛刺：同步寄存器的作用

毛刺产生于组合逻辑内部由于输入信号变化不同步、路径延迟差异导致的短暂逻辑错误。在三段式结构中，第二段组合逻辑产生的next_state可能存在毛刺，但它在时钟沿被第一段寄存器过滤了，只有稳定的值会存入current_state。更重要的是，输出路径上的任何毛刺都被第三段的输出寄存器彻底阻隔。

输出寄存器就像一个“守门员”。第二段组合逻辑（计算次态）可能产生的毛刺，或者第三段case语句本身组合逻辑产生的毛刺，在到达rd_req或data_valid的D输入端时，只要不满足寄存器的建立保持时间，就不会被锁存。最终输出的信号永远是干净、同步于时钟的矩形波。这对于驱动后续模块的时钟、复位或使能信号至关重要。

4.3 时序优化与综合工具友好性

三段式结构为综合和布局布线工具提供了最清晰、最友好的电路结构。

清晰的时序路径分组：
- 路径A：current_state-> 第二段组合逻辑 ->next_state-> 第一段寄存器。这是一个标准的寄存器到寄存器的路径。
- 路径B：next_state-> 第三段组合逻辑（case语句） -> 输出寄存器D端。这是另一个寄存器到寄存器的路径。工具可以轻松地对这两条路径分别进行时序分析和优化。而在两段式中，从current_state到输出端口的路径是一条漫长的组合路径，中间还混杂了状态转移逻辑，难以管理和优化。
利于流水线设计：三段式天然地将“状态转移计算”和“输出生成”放在了两个连续的时钟周期内。如果你需要更高的频率，可以在这两部分组合逻辑之间插入流水线寄存器，将关键路径打散，而这在两段式结构中很难优雅地实现。
综合结果更可预测：大多数FPGA综合工具（如Vivado、Quartus）都对标准的三段式模板有很好的识别和优化能力，甚至能识别出状态机并进行特殊的优化（如状态编码优化、安全状态机实现等）。使用标准的三段式模板，可以减少工具误判，得到更稳定、性能更可预期的网表。

5. 深入对比：两段式与三段式的工程抉择

理解了两种写法的本质后，我们可以从多个维度进行系统对比，从而在具体项目中做出明智选择。

5.1 代码风格、可维护性与调试便利性对比

特性维度	两段式状态机	三段式状态机
代码结构	紧凑，逻辑集中。	清晰，职责分离。状态转移、输出生成一目了然。
可读性	对于简单状态机尚可，复杂后输出和转移混在一起，难以阅读。	优秀。每个`always`块功能单一，类似于软件中的函数分离，便于团队协作和后期维护。
可维护性	差。修改输出逻辑可能影响状态转移条件，风险高。	好。修改输出只需改动第三段；修改状态转移只需改动第二段，耦合度低。
调试便利性	在仿真中，输出可能因毛刺出现“抖动”，波形难看，不利于定位问题。	输出信号干净，在波形图上呈现清晰的同步变化，与状态切换的对应关系明确，调试直观。

从工程实践来看，三段式在可维护性上具有压倒性优势。一个项目生命周期中，阅读和修改代码的时间远大于最初编写的时间。清晰的模块划分能极大降低后期升级和调试的成本。

5.2 性能、面积与功耗的硬件开销分析

这是很多工程师关心的核心问题：三段式多了一组寄存器，是不是更耗资源、速度更慢？

硬件指标	两段式状态机	三段式状态机	分析与结论
触发器用量	仅状态寄存器。	状态寄存器 + 输出寄存器。	三段式确实多用了一些触发器。但在FPGA中，触发器资源通常非常丰富，这点开销在绝大多数设计中可忽略不计。CPLD中可能需要权衡。
组合逻辑用量	输出逻辑和状态转移逻辑混合，可能更复杂。	输出逻辑和状态转移逻辑分离，可能因逻辑复制而略增。	差异通常很小。现代综合工具优化能力很强，两者综合出的组合逻辑面积往往相差无几。
最大时钟频率	受限于从状态寄存器经组合逻辑到输出的最长路径。	受限于第一段到第二段，或第二段到第三段两条路径中较长者。通常更高。	三段式将一条长组合路径拆成了两条较短的路径，更易于满足时序约束，往往能跑到更高的频率。
动态功耗	输出信号上的毛刺会导致不必要的翻转，增加动态功耗。	输出干净，无毛刺，减少了不必要的电路翻转，功耗更低。	三段式在功耗上通常更有优势，尤其是输出信号负载较重时。
稳定性与可靠性	低。输出毛刺可能引发系统错误。	高。同步输出，抗干扰能力强。	对于需要高可靠性的工业、汽车电子等领域，三段式是必选项。

结论是：三段式用微小的寄存器面积增加，换来了性能、功耗和可靠性的全面提升，在FPGA设计中是绝对的性价比之选。

5.3 不同应用场景下的选型指南

如何根据项目具体需求做选择？这里有一个简单的决策流：

设计平台是FPGA吗？
- 是->强烈推荐三段式。充分利用FPGA的寄存器资源，换取更好的时序、稳定性和可维护性。
- 否(CPLD或小规模ASIC) -> 进入下一步。
对输出信号的稳定性要求高吗？（例如，输出用作使能、清零、中断等控制信号）
- 是->选择三段式。稳定性压倒一切。
- 否-> 进入下一步。
状态机输出逻辑极其简单吗？（例如，输出就是状态的某一位，几乎没有组合逻辑）
- 是-> 两段式可以作为考虑，但需在外部视情况添加输出寄存器。
- 否->选择三段式。
资源极其紧张吗？（触发器数量是瓶颈）
- 是-> 可以考虑两段式，但必须进行严格的仿真和时序分析，并评估毛刺风险。
- 否->选择三段式。

我的个人经验法则：对于所有新的FPGA设计，默认使用三段式。只有在明确论证资源瓶颈且输出逻辑极其简单时，才考虑两段式，并必须辅以详尽的后仿真和时序分析报告。对于ASIC设计，前期验证也可以使用三段式以保证功能正确，后端综合时可以根据面积和时序要求由工具进行更灵活的优化。

6. 状态机设计的进阶技巧与避坑实录

掌握了基本写法，我们再来看看那些能让你的状态机更健壮、更高效的进阶技巧，以及我多年踩坑换来的宝贵经验。

6.1 安全状态机设计与异常处理

状态机必须考虑所有可能情况，包括上电、异常输入和非法状态跳转。

完整的case与default：在第二段组合逻辑的case语句中，必须使用default分支。对于独热码，可以设置为复位状态IDLE。这告知综合工具，未明确定义的状态如何处理，避免综合出锁存器（Latch）或产生不可预测的行为。
```
always @(*) begin next_state = IDLE; // 或 current_state; 根据设计选择 case (current_state) IDLE: ... // ... 其他状态 default: next_state = IDLE; // 安全恢复 endcase end
```
异步复位与初始化：务必使用异步复位将状态机置于一个确定的初始状态。对于独热码，初始化成全0是安全的，但需要确保你的状态转移逻辑能从全0状态正确进入初始工作状态（如IDLE）。一种更稳妥的“独热零空闲”编码是：parameter IDLE = 3'b000, S1 = 3'b001, S2 = 3'b010, ...，但这样IDLE状态就没有“热”位了，判断逻辑需要调整。
状态恢复电路：在高可靠性设计中，可以添加一个看门狗或软错误纠正电路。定期检查状态寄存器是否为合法的独热码（即是否只有一个‘1’），如果不是，则强制复位状态机到IDLE。这可以防止因单粒子翻转等原因导致的状态机“跑飞”。

6.2 仿真、综合与静态时序分析要点

设计完成后的验证环节同样重要。

仿真：编写测试平台时，不仅要覆盖正常状态流，还要刻意注入异常：如在非法时刻改变输入、快速抖动输入信号、模拟上电复位过程等。特别注意观察两段式状态机的输出波形是否有毛刺。
综合：使用full_case和parallel_case综合指令要极其谨慎。full_case告诉工具所有情况已覆盖，可能导致未定义行为被优化掉而隐藏问题。parallel_case告诉工具case项互斥，在独热码中可能安全，但滥用会导致综合结果与仿真不符。我的建议是：通过完善的代码逻辑（如default分支）来保证完备性和互斥性，而不是依赖综合指令。
静态时序分析：完成综合和布局布线后，一定要查看STA报告。重点关注：
1. 建立/保持时间是否满足。
2. 对于三段式，检查从current_state到next_state的路径，以及从next_state到输出寄存器的路径。
3. 对于两段式，重点检查从current_state到输出端口的组合路径延迟。

6.3 复杂状态机与层次化设计

当状态数量爆炸时（超过10-20个），一个大的状态机会变得难以管理和调试。此时可以采用层次化状态机设计。

主从状态机：将一个复杂的状态机拆分成一个主状态机和多个从状态机。主状态机控制大的流程阶段（如“初始化”、“工作”、“休眠”），每个阶段下用一个从状态机处理具体事务。从状态机可以用独立的模块实现，通过握手信号（start,done,idle）与主状态机通信。
状态机+数据通路：这是更通用的设计模式。状态机作为“控制器”，只产生控制信号（如cnt_en,cnt_rst,data_load）。具体的算法、计算、数据处理则由独立的“数据通路”模块完成。两者通过清晰的接口交互，使得控制逻辑和数据逻辑分离，大大提升了代码的可读性和可复用性。

最后，分享一个我坚持的代码审查清单，在提交任何包含状态机的代码前，我都会对照检查：