Tenstorrent：基于RISC-V的异构计算架构如何挑战AI芯片市场-编程实验室

1. 项目概述：Tenstorrent的野心与Jim Keller的蓝图

在芯片设计的江湖里，Jim Keller这个名字本身就代表着一种传奇。从AMD的K7、K8架构，到苹果A系列、M1芯片的奠基，再到特斯拉的自动驾驶芯片，他参与的每一个项目都深刻影响了行业格局。所以，当这位“硅仙人”在2021年加入一家名为Tenstorrent的初创公司并担任CEO时，整个半导体圈都竖起了耳朵：他这次又要颠覆什么？

答案比许多人预想的更为宏大。Tenstorrent并非仅仅在打造另一款AI加速芯片，而是在下一盘融合了通用处理器与人工智能加速器的大棋。其核心目标，是构建一个从底层指令集架构（ISA）到上层系统解决方案的完整、开放的软硬件生态，直接瞄准数据中心和高性能计算（HPC）中增长最迅猛的AI负载。这不仅仅是设计一颗芯片，更是在尝试定义下一代异构计算的基础设施形态。

简单来说，Tenstorrent想做的是“AI时代的计算底座”。这个底座需要同时具备两种能力：一是强大的通用计算能力，以处理复杂的控制流、数据预处理和模型中的非矩阵运算部分；二是极致高效的专用AI计算能力，用于执行大规模的矩阵乘加运算（即张量运算）。而Jim Keller团队选择的武器，是开源的RISC-V指令集，以及他们自研的、名为Tensix的AI加速核心。

为什么这件事值得关注？因为当前的数据中心AI计算市场，正被NVIDIA的CUDA生态所主导，其GPU虽然强大，但本质上仍是较为通用的图形处理器演化而来。而Google的TPU、Graphcore的IPU等专用AI芯片，则在通用性上有所妥协。Tenstorrent试图走一条中间道路：通过将高性能RISC-V CPU与高度可编程的AI加速单元紧密耦合，在保持灵活性的同时，追求极致的能效比。如果成功，这可能会为AI硬件赛道开辟一条新的技术路径。

2. 核心战略解析：为什么押注RISC-V？

在x86和Arm几乎垄断了服务器与移动计算市场的今天，一家志在数据中心高性能芯片的初创公司，选择从零开始基于RISC-V构建其CPU核心，无疑是一个大胆甚至有些反直觉的决定。毕竟，围绕x86和Arm的软件生态（操作系统、编译器、库函数）已经积累了数十年，成熟度无可比拟。Tenstorrent做出这个选择，背后是一套清晰的、基于长远发展的战略考量。

2.1 挣脱架构束缚，掌控创新节奏

首先，是对于“创新自主权”的极致追求。x86架构的指令集由英特尔和AMD两家公司严格掌控，任何第三方想要设计兼容的CPU，几乎不可能获得授权。Arm架构虽然通过授权模式开放，但其架构演进的方向和节奏最终由Arm公司决定。正如Tenstorrent首席CPU架构师Wei-Han Lien（这位参与设计了苹果A6、A7和M1芯片的大牛）所指出的，大公司内部的决策流程往往变得官僚化，创新速度会放缓。

当Tenstorrent为其AI加速器设计配套的CPU时，他们可能需要支持一些新的数据类型（例如BF16，一种常用于AI训练的脑浮点格式）。如果使用Arm，提出这样的需求后，需要经历漫长的内部评估、与众多架构被许可方的协调，这个过程可能长达一两年。但在RISC-V的生态中，由于指令集开源，Tenstorrent可以直接与SiFive（一家领先的RISC-V IP供应商）这样的伙伴合作，快速地将所需指令添加到其定制化的核心中。这种“没有中间商赚差价”的敏捷性，对于在AI这个快速迭代的战场上竞争至关重要。

注意：这里的关键不是RISC-V本身比x86或Arm技术更先进，而是其开放的商业模式赋予了设计者前所未有的“架构自由”。你可以像搭积木一样，在基础指令集上添加自己需要的扩展指令，而不必等待或请求某个“架构所有者”的批准。

2.2 为异构计算量身定制

其次，RISC-V的模块化特性与Tenstorrent的异构计算愿景天然契合。一个典型的Tenstorrent芯片，内部并非只有一种核心。它包含了用于通用任务的RISC-V CPU核心群，和用于AI张量计算的Tensix核心群。这两种核心需要通过高效的一致性互联、共享内存等方式紧密协作。

采用RISC-V，允许Tenstorrent从最底层开始，为这种异构互联设计最优的硬件支持。例如，他们可以自定义缓存一致性协议、设计专用的高速片上网络（NoC）接口、甚至为CPU和AI加速器之间的数据搬运定义特殊的指令。如果使用Arm或x86，这些底层的、涉及架构的改动将异常困难甚至被禁止。RISC-V则提供了画布，让顶尖的架构师能自由地绘制最适合AI负载的芯片蓝图。

2.3 长远生态与成本考量

从更长远和商业的角度看，RISC-V代表着一种“去中心化”的行业趋势。尽管其服务器级软件生态仍在建设中，但发展速度惊人。Linux、GCC/LLVM编译器、主流编程语言均已提供良好支持。对于Tenstorrent的目标客户——那些构建大型AI数据中心或HPC设施的公司——他们有能力也有动力去适配一个新的、但更具潜力和成本优势的生态。

此外，使用RISC-V可以避免昂贵的架构授权费。Arm的Neoverse系列服务器核心授权费用不菲，这对于初创公司而言是一笔巨大的固定成本。将这部分资金投入到自研核心的研发和优化上，从长期看可能带来更高的性能壁垒和差异化优势。

3. 技术架构深潜：从“宽度”到“小芯片”的全面进击

理解了“为什么是RISC-V”，我们再来拆解Tenstorrent具体“怎么做”。其技术架构可以概括为两个核心支柱：一是可伸缩的、超宽乱序RISC-V CPU微架构；二是高度可编程、持续演进的Tensix AI加速核心。两者通过先进的封装和互联技术，组合成灵活的产品形态。

3.1 一个微架构，五种CPU IP：灵活性的极致

这是Tenstorrent设计中非常精妙的一点。通常，一家公司会为手机、笔记本、服务器等不同场景设计完全不同的CPU核心。但Tenstorrent的CPU团队，在Wei-Han Lien的带领下，开发了一套统一的、高性能的乱序执行RISC-V微架构。然后，他们通过调整关键参数，将其“实例化”为五种不同规格的CPU IP核：

CPU IP 名称	解码宽度	目标应用场景	核心特点
小核 (未命名)	2宽	极低功耗控制、IoT	面积小，功耗极低，用于管理、调度等轻量任务
中核A	3宽	嵌入式、边缘计算	平衡性能与能效
中核B	4宽	高性能边缘、客户端PC	类似主流笔记本CPU的单核性能
Alastor	6宽	高性能计算、高端客户端	高吞吐量，用于数据密集型应用
Ascalon	8宽	数据中心、HPC	旗舰核心，极致单线程与多线程性能

这个“解码宽度”是什么意思？它指的是CPU每个时钟周期能够从指令缓存中取出并解码的指令条数。宽度越大，理论上每个周期能投入执行的指令就越多，性能潜力越高。目前，AMD的Zen 4架构是4宽解码，英特尔Golden Cove是6宽解码。而Tenstorrent的Ascalon核心直接做到了8宽解码，这需要极其复杂的分支预测、指令调度和寄存器重命名机制来支撑，设计难度呈指数级上升。

Wei-Han Lien在苹果主导的“Firestorm”核心（用于A14/M1）正是8宽设计，其能效比至今令人称道。他将这套设计哲学带到了RISC-V世界，旨在打造一个在绝对性能上不输于当代顶级x86/Arm服务器核心的RISC-V核心。每个Ascalon核心内部集成了6个整数ALU（算术逻辑单元）、2个浮点单元和2个256位宽的向量单元，构成了一个强大的执行引擎。

实操心得：设计超宽乱序核心，最大的挑战在于“喂饱”它。如果指令缓存、分支预测器、数据预取器的性能跟不上，解码器再宽也会闲置，形成性能瓶颈。因此，这类设计必须伴随巨大的、智能化的片上缓存（L1/L2）和极高的内存带宽。这也解释了为什么Tenstorrent的服务器芯片方案如此强调高速互连和大容量内存。

3.2 Tensix核心：不止是AI加速器

如果说CPU是“大脑”，负责逻辑和调度，那么Tensix核心就是专为“体力活”——大规模并行矩阵计算——而生的“肌肉群”。但Tensix并非一个固定的、黑盒化的硬件单元，而是一个高度可编程的、持续演进的计算集群。

一个Tensix核心的内部结构可以看作一个微型计算机：

5个精简RISC-V控制核心：负责管理张量运算的流程、地址生成和同步。
张量数学阵列：这是计算主力，以极高的能效执行INT8、FP16、BF16、FP32等格式的矩阵乘加运算。
SIMD向量单元：处理非矩阵形式的向量化计算。
大型片上SRAM（1-2MB）：作为高速缓存，存储频繁使用的数据和权重，减少访问外部慢速内存的延迟。
专用硬件加速器：用于网络数据包处理、数据压缩/解压缩等常见数据中心任务。

这种架构使得Tensix非常灵活。开发者可以通过编程，让这些核心协同工作来处理复杂的AI模型层，而不仅仅是执行单一的矩阵乘法。其支持的数据类型从用于极致推理能效的BF4、INT8，到用于高精度训练的BF16、FP64，覆盖了从云端训练到边缘推理的全场景。

3.3 Chiplet与小芯片战略：通往3nm的阶梯

Tenstorrent的产品路线图清晰地展示了其采用“小芯片”（Chiplet）技术的演进路径。这是一种将大型单片芯片（SoC）拆分成多个更小、功能模块化的芯片，并通过先进封装技术互联的设计方法。

初期产品（Grayskull/Wormhole）：可以理解为“纯AI加速卡”，本身没有强大的通用CPU，需要插在x86服务器上作为协处理器使用。
Black Hole（2023年）：这是第一个“CPU+AI”集成芯片。它采用了Chiplet设计，将24个来自SiFive的X280 RISC-V CPU核心（作为通用计算单元）与多个第三代Tensix核心（作为AI加速单元）集成在一起。它使用台积电6nm工艺，通过高达2TB/s的芯片间互连带宽将不同的小芯片连接起来。Black Hole标志着Tenstorrent具备了提供独立AI解决方案的能力。
Grendel（2024年及以后）：这是终极形态。它包含两种核心小芯片：
- Aegis CPU Chiplet：集成128个自研的、8宽解码的Ascalon RISC-V核心，采用台积电3nm工艺制造。这将是业界首批采用3nm工艺的高性能服务器CPU之一，极具前瞻性。
- AI加速Chiplet：集成更多、更先进的Tensix核心，同样可采用3nm工艺以实现更高密度和能效。

这些小芯片通过超高速的互连总线（如UCIe标准）组合在一起，客户可以根据需要灵活配置CPU算力和AI算力的比例。这种模块化设计降低了超大尺寸单片芯片的制造难度和成本（良率更高），也使得技术迭代更灵活——可以单独升级CPU或AI芯片部分。

4. 商业模式创新：既是IP商，也是产品商，还是系统商

Tenstorrent的野心不仅体现在技术上，也体现在其独特的商业模式上。它不像传统的芯片公司只专注于某一环，而是试图覆盖从IP到系统的全价值链。

商业模式层级	提供的产品/服务	目标客户	竞争优势
IP授权	将2宽到8宽的RISC-V CPU IP以RTL（硬件描述语言）、硬核（布局布线后的设计）甚至GDS（掩膜版图）形式授权。	其他芯片设计公司	提供高性能、可定制的RISC-V核心，避免客户自研的高风险和高成本。
芯片/小芯片销售	销售Black Hole、Grendel等完整的芯片或Aegis、Tensix等独立小芯片。	服务器OEM厂商、大型互联网公司	提供即插即用的高性能AI计算模块，客户可集成到自研系统中。
加速卡销售	销售基于自家芯片的PCIe加速卡（如Grayskull卡）。	企业用户、云服务商	提供标准化的AI算力扩展方案，类似NVIDIA的GPU卡。
整机系统销售	销售预集成好的4U服务器（如Nebula），内部包含多个加速卡和自研CPU。	需要端到端AI解决方案的客户	提供开箱即用的全栈软硬件优化系统，简化部署和维护。

这种“四管齐下”的模式看似矛盾：它既向潜在竞争对手（其他芯片公司）授权IP，又向系统集成商（服务器厂商）销售芯片，同时还自己卖整机，与所有客户都存在一定程度的竞争关系。

然而，这在半导体行业并非没有先例。NVIDIA既卖GPU芯片，也卖DGX整机系统；AMD既卖CPU/GPU芯片，也授权其芯片组技术。关键在于找到差异化的价值点。Tenstorrent的核心赌注在于：其基于RISC-V的异构计算架构具有独特的性能和能效优势，使得无论是哪一层的客户，都能从中获得超越现有方案的价值。对于只想买IP的客户，他们获得了顶尖的RISC-V核心；对于想买芯片的客户，他们获得了高度集成的AI解决方案；对于想买整机的客户，他们获得了深度优化的软硬件一体机。

5. 挑战与前景：在巨头的阴影下开辟新路

尽管蓝图宏伟，技术顶尖，但Tenstorrent面前的道路绝非坦途。它正闯入一个由资金雄厚、生态稳固的巨头把守的战场。

首要挑战是软件生态。NVIDIA的CUDA护城河深不可测，几乎所有AI框架和模型都优先适配。Tenstorrent需要构建一个同样易用、高效的软件栈，包括编译器、驱动程序、运行时库以及模型转换和优化工具。这需要巨大的工程投入和开发者社区建设，非一朝一夕之功。他们的策略可能是聚焦于少数关键模型和框架，做到极致优化，以点带面。

其次是制造与供应链。其路线图中涉及的3nm工艺，是台积电最先进、最昂贵也最紧俏的产能。作为一家初创公司，如何确保产能、控制成本，将是巨大的考验。Chiplet设计虽然降低了单个大芯片的制造难度，但增加了封装测试的复杂性和成本。

最后是市场接受度。数据中心客户普遍保守，对新架构、新生态的采纳非常谨慎。Tenstorrent需要找到愿意“第一个吃螃蟹”的标杆客户，用实实在在的性能、能效和总拥有成本（TCO）优势来说服市场。

不过，机遇同样巨大。AI计算的需求仍在爆炸式增长，且呈现出越来越多样化的趋势，单一架构很难通吃。RISC-V的开放生态正在快速成熟，得到了全球从学术界到产业界的广泛支持。Jim Keller及其团队过往无与伦比的成功记录，也为公司带来了顶级的关注度和人才吸引力。

我个人看来，Tenstorrent更像是一个“架构探险家”。它可能不会在短期内撼动NVIDIA或英特尔的统治地位，但它所探索的“超宽RISC-V CPU + 可编程AI加速单元 + Chiplet”技术路径，很可能为行业指明一个重要的方向。即使其商业成功有待验证，其在技术上的创新与突破，也必将推动整个高性能计算和AI芯片领域向前发展。这场由硅仙人领衔的冒险，值得我们持续关注。