1. 项目概述:Tenstorrent的野心与Jim Keller的蓝图
在芯片设计的江湖里,Jim Keller这个名字本身就代表着一种传奇。从AMD的K7、K8架构,到苹果A系列、M1芯片的奠基,再到特斯拉的自动驾驶芯片,他参与的每一个项目都深刻影响了行业格局。所以,当这位“硅仙人”在2021年加入一家名为Tenstorrent的初创公司并担任CEO时,整个半导体圈都竖起了耳朵:他这次又要颠覆什么?
答案比许多人预想的更为宏大。Tenstorrent并非仅仅在打造另一款AI加速芯片,而是在下一盘融合了通用处理器与人工智能加速器的大棋。其核心目标,是构建一个从底层指令集架构(ISA)到上层系统解决方案的完整、开放的软硬件生态,直接瞄准数据中心和高性能计算(HPC)中增长最迅猛的AI负载。这不仅仅是设计一颗芯片,更是在尝试定义下一代异构计算的基础设施形态。
简单来说,Tenstorrent想做的是“AI时代的计算底座”。这个底座需要同时具备两种能力:一是强大的通用计算能力,以处理复杂的控制流、数据预处理和模型中的非矩阵运算部分;二是极致高效的专用AI计算能力,用于执行大规模的矩阵乘加运算(即张量运算)。而Jim Keller团队选择的武器,是开源的RISC-V指令集,以及他们自研的、名为Tensix的AI加速核心。
为什么这件事值得关注?因为当前的数据中心AI计算市场,正被NVIDIA的CUDA生态所主导,其GPU虽然强大,但本质上仍是较为通用的图形处理器演化而来。而Google的TPU、Graphcore的IPU等专用AI芯片,则在通用性上有所妥协。Tenstorrent试图走一条中间道路:通过将高性能RISC-V CPU与高度可编程的AI加速单元紧密耦合,在保持灵活性的同时,追求极致的能效比。如果成功,这可能会为AI硬件赛道开辟一条新的技术路径。
2. 核心战略解析:为什么押注RISC-V?
在x86和Arm几乎垄断了服务器与移动计算市场的今天,一家志在数据中心高性能芯片的初创公司,选择从零开始基于RISC-V构建其CPU核心,无疑是一个大胆甚至有些反直觉的决定。毕竟,围绕x86和Arm的软件生态(操作系统、编译器、库函数)已经积累了数十年,成熟度无可比拟。Tenstorrent做出这个选择,背后是一套清晰的、基于长远发展的战略考量。
2.1 挣脱架构束缚,掌控创新节奏
首先,是对于“创新自主权”的极致追求。x86架构的指令集由英特尔和AMD两家公司严格掌控,任何第三方想要设计兼容的CPU,几乎不可能获得授权。Arm架构虽然通过授权模式开放,但其架构演进的方向和节奏最终由Arm公司决定。正如Tenstorrent首席CPU架构师Wei-Han Lien(这位参与设计了苹果A6、A7和M1芯片的大牛)所指出的,大公司内部的决策流程往往变得官僚化,创新速度会放缓。
当Tenstorrent为其AI加速器设计配套的CPU时,他们可能需要支持一些新的数据类型(例如BF16,一种常用于AI训练的脑浮点格式)。如果使用Arm,提出这样的需求后,需要经历漫长的内部评估、与众多架构被许可方的协调,这个过程可能长达一两年。但在RISC-V的生态中,由于指令集开源,Tenstorrent可以直接与SiFive(一家领先的RISC-V IP供应商)这样的伙伴合作,快速地将所需指令添加到其定制化的核心中。这种“没有中间商赚差价”的敏捷性,对于在AI这个快速迭代的战场上竞争至关重要。
注意:这里的关键不是RISC-V本身比x86或Arm技术更先进,而是其开放的商业模式赋予了设计者前所未有的“架构自由”。你可以像搭积木一样,在基础指令集上添加自己需要的扩展指令,而不必等待或请求某个“架构所有者”的批准。
2.2 为异构计算量身定制
其次,RISC-V的模块化特性与Tenstorrent的异构计算愿景天然契合。一个典型的Tenstorrent芯片,内部并非只有一种核心。它包含了用于通用任务的RISC-V CPU核心群,和用于AI张量计算的Tensix核心群。这两种核心需要通过高效的一致性互联、共享内存等方式紧密协作。
采用RISC-V,允许Tenstorrent从最底层开始,为这种异构互联设计最优的硬件支持。例如,他们可以自定义缓存一致性协议、设计专用的高速片上网络(NoC)接口、甚至为CPU和AI加速器之间的数据搬运定义特殊的指令。如果使用Arm或x86,这些底层的、涉及架构的改动将异常困难甚至被禁止。RISC-V则提供了画布,让顶尖的架构师能自由地绘制最适合AI负载的芯片蓝图。
2.3 长远生态与成本考量
从更长远和商业的角度看,RISC-V代表着一种“去中心化”的行业趋势。尽管其服务器级软件生态仍在建设中,但发展速度惊人。Linux、GCC/LLVM编译器、主流编程语言均已提供良好支持。对于Tenstorrent的目标客户——那些构建大型AI数据中心或HPC设施的公司——他们有能力也有动力去适配一个新的、但更具潜力和成本优势的生态。
此外,使用RISC-V可以避免昂贵的架构授权费。Arm的Neoverse系列服务器核心授权费用不菲,这对于初创公司而言是一笔巨大的固定成本。将这部分资金投入到自研核心的研发和优化上,从长期看可能带来更高的性能壁垒和差异化优势。
3. 技术架构深潜:从“宽度”到“小芯片”的全面进击
理解了“为什么是RISC-V”,我们再来拆解Tenstorrent具体“怎么做”。其技术架构可以概括为两个核心支柱:一是可伸缩的、超宽乱序RISC-V CPU微架构;二是高度可编程、持续演进的Tensix AI加速核心。两者通过先进的封装和互联技术,组合成灵活的产品形态。
3.1 一个微架构,五种CPU IP:灵活性的极致
这是Tenstorrent设计中非常精妙的一点。通常,一家公司会为手机、笔记本、服务器等不同场景设计完全不同的CPU核心。但Tenstorrent的CPU团队,在Wei-Han Lien的带领下,开发了一套统一的、高性能的乱序执行RISC-V微架构。然后,他们通过调整关键参数,将其“实例化”为五种不同规格的CPU IP核:
| CPU IP 名称 | 解码宽度 | 目标应用场景 | 核心特点 |
|---|---|---|---|
| 小核 (未命名) | 2宽 | 极低功耗控制、IoT | 面积小,功耗极低,用于管理、调度等轻量任务 |
| 中核A | 3宽 | 嵌入式、边缘计算 | 平衡性能与能效 |
| 中核B | 4宽 | 高性能边缘、客户端PC | 类似主流笔记本CPU的单核性能 |
| Alastor | 6宽 | 高性能计算、高端客户端 | 高吞吐量,用于数据密集型应用 |
| Ascalon | 8宽 | 数据中心、HPC | 旗舰核心,极致单线程与多线程性能 |
这个“解码宽度”是什么意思?它指的是CPU每个时钟周期能够从指令缓存中取出并解码的指令条数。宽度越大,理论上每个周期能投入执行的指令就越多,性能潜力越高。目前,AMD的Zen 4架构是4宽解码,英特尔Golden Cove是6宽解码。而Tenstorrent的Ascalon核心直接做到了8宽解码,这需要极其复杂的分支预测、指令调度和寄存器重命名机制来支撑,设计难度呈指数级上升。
Wei-Han Lien在苹果主导的“Firestorm”核心(用于A14/M1)正是8宽设计,其能效比至今令人称道。他将这套设计哲学带到了RISC-V世界,旨在打造一个在绝对性能上不输于当代顶级x86/Arm服务器核心的RISC-V核心。每个Ascalon核心内部集成了6个整数ALU(算术逻辑单元)、2个浮点单元和2个256位宽的向量单元,构成了一个强大的执行引擎。
实操心得:设计超宽乱序核心,最大的挑战在于“喂饱”它。如果指令缓存、分支预测器、数据预取器的性能跟不上,解码器再宽也会闲置,形成性能瓶颈。因此,这类设计必须伴随巨大的、智能化的片上缓存(L1/L2)和极高的内存带宽。这也解释了为什么Tenstorrent的服务器芯片方案如此强调高速互连和大容量内存。
3.2 Tensix核心:不止是AI加速器
如果说CPU是“大脑”,负责逻辑和调度,那么Tensix核心就是专为“体力活”——大规模并行矩阵计算——而生的“肌肉群”。但Tensix并非一个固定的、黑盒化的硬件单元,而是一个高度可编程的、持续演进的计算集群。
一个Tensix核心的内部结构可以看作一个微型计算机:
- 5个精简RISC-V控制核心:负责管理张量运算的流程、地址生成和同步。
- 张量数学阵列:这是计算主力,以极高的能效执行INT8、FP16、BF16、FP32等格式的矩阵乘加运算。
- SIMD向量单元:处理非矩阵形式的向量化计算。
- 大型片上SRAM(1-2MB):作为高速缓存,存储频繁使用的数据和权重,减少访问外部慢速内存的延迟。
- 专用硬件加速器:用于网络数据包处理、数据压缩/解压缩等常见数据中心任务。
这种架构使得Tensix非常灵活。开发者可以通过编程,让这些核心协同工作来处理复杂的AI模型层,而不仅仅是执行单一的矩阵乘法。其支持的数据类型从用于极致推理能效的BF4、INT8,到用于高精度训练的BF16、FP64,覆盖了从云端训练到边缘推理的全场景。
3.3 Chiplet与小芯片战略:通往3nm的阶梯
Tenstorrent的产品路线图清晰地展示了其采用“小芯片”(Chiplet)技术的演进路径。这是一种将大型单片芯片(SoC)拆分成多个更小、功能模块化的芯片,并通过先进封装技术互联的设计方法。
- 初期产品(Grayskull/Wormhole):可以理解为“纯AI加速卡”,本身没有强大的通用CPU,需要插在x86服务器上作为协处理器使用。
- Black Hole(2023年):这是第一个“CPU+AI”集成芯片。它采用了Chiplet设计,将24个来自SiFive的X280 RISC-V CPU核心(作为通用计算单元)与多个第三代Tensix核心(作为AI加速单元)集成在一起。它使用台积电6nm工艺,通过高达2TB/s的芯片间互连带宽将不同的小芯片连接起来。Black Hole标志着Tenstorrent具备了提供独立AI解决方案的能力。
- Grendel(2024年及以后):这是终极形态。它包含两种核心小芯片:
- Aegis CPU Chiplet:集成128个自研的、8宽解码的Ascalon RISC-V核心,采用台积电3nm工艺制造。这将是业界首批采用3nm工艺的高性能服务器CPU之一,极具前瞻性。
- AI加速Chiplet:集成更多、更先进的Tensix核心,同样可采用3nm工艺以实现更高密度和能效。
这些小芯片通过超高速的互连总线(如UCIe标准)组合在一起,客户可以根据需要灵活配置CPU算力和AI算力的比例。这种模块化设计降低了超大尺寸单片芯片的制造难度和成本(良率更高),也使得技术迭代更灵活——可以单独升级CPU或AI芯片部分。
4. 商业模式创新:既是IP商,也是产品商,还是系统商
Tenstorrent的野心不仅体现在技术上,也体现在其独特的商业模式上。它不像传统的芯片公司只专注于某一环,而是试图覆盖从IP到系统的全价值链。
| 商业模式层级 | 提供的产品/服务 | 目标客户 | 竞争优势 |
|---|---|---|---|
| IP授权 | 将2宽到8宽的RISC-V CPU IP以RTL(硬件描述语言)、硬核(布局布线后的设计)甚至GDS(掩膜版图)形式授权。 | 其他芯片设计公司 | 提供高性能、可定制的RISC-V核心,避免客户自研的高风险和高成本。 |
| 芯片/小芯片销售 | 销售Black Hole、Grendel等完整的芯片或Aegis、Tensix等独立小芯片。 | 服务器OEM厂商、大型互联网公司 | 提供即插即用的高性能AI计算模块,客户可集成到自研系统中。 |
| 加速卡销售 | 销售基于自家芯片的PCIe加速卡(如Grayskull卡)。 | 企业用户、云服务商 | 提供标准化的AI算力扩展方案,类似NVIDIA的GPU卡。 |
| 整机系统销售 | 销售预集成好的4U服务器(如Nebula),内部包含多个加速卡和自研CPU。 | 需要端到端AI解决方案的客户 | 提供开箱即用的全栈软硬件优化系统,简化部署和维护。 |
这种“四管齐下”的模式看似矛盾:它既向潜在竞争对手(其他芯片公司)授权IP,又向系统集成商(服务器厂商)销售芯片,同时还自己卖整机,与所有客户都存在一定程度的竞争关系。
然而,这在半导体行业并非没有先例。NVIDIA既卖GPU芯片,也卖DGX整机系统;AMD既卖CPU/GPU芯片,也授权其芯片组技术。关键在于找到差异化的价值点。Tenstorrent的核心赌注在于:其基于RISC-V的异构计算架构具有独特的性能和能效优势,使得无论是哪一层的客户,都能从中获得超越现有方案的价值。对于只想买IP的客户,他们获得了顶尖的RISC-V核心;对于想买芯片的客户,他们获得了高度集成的AI解决方案;对于想买整机的客户,他们获得了深度优化的软硬件一体机。
5. 挑战与前景:在巨头的阴影下开辟新路
尽管蓝图宏伟,技术顶尖,但Tenstorrent面前的道路绝非坦途。它正闯入一个由资金雄厚、生态稳固的巨头把守的战场。
首要挑战是软件生态。NVIDIA的CUDA护城河深不可测,几乎所有AI框架和模型都优先适配。Tenstorrent需要构建一个同样易用、高效的软件栈,包括编译器、驱动程序、运行时库以及模型转换和优化工具。这需要巨大的工程投入和开发者社区建设,非一朝一夕之功。他们的策略可能是聚焦于少数关键模型和框架,做到极致优化,以点带面。
其次是制造与供应链。其路线图中涉及的3nm工艺,是台积电最先进、最昂贵也最紧俏的产能。作为一家初创公司,如何确保产能、控制成本,将是巨大的考验。Chiplet设计虽然降低了单个大芯片的制造难度,但增加了封装测试的复杂性和成本。
最后是市场接受度。数据中心客户普遍保守,对新架构、新生态的采纳非常谨慎。Tenstorrent需要找到愿意“第一个吃螃蟹”的标杆客户,用实实在在的性能、能效和总拥有成本(TCO)优势来说服市场。
不过,机遇同样巨大。AI计算的需求仍在爆炸式增长,且呈现出越来越多样化的趋势,单一架构很难通吃。RISC-V的开放生态正在快速成熟,得到了全球从学术界到产业界的广泛支持。Jim Keller及其团队过往无与伦比的成功记录,也为公司带来了顶级的关注度和人才吸引力。
我个人看来,Tenstorrent更像是一个“架构探险家”。它可能不会在短期内撼动NVIDIA或英特尔的统治地位,但它所探索的“超宽RISC-V CPU + 可编程AI加速单元 + Chiplet”技术路径,很可能为行业指明一个重要的方向。即使其商业成功有待验证,其在技术上的创新与突破,也必将推动整个高性能计算和AI芯片领域向前发展。这场由硅仙人领衔的冒险,值得我们持续关注。