Jim keller新推出一款RISC

Jim keller新推出一款RISC–V芯片

乡村经济

2024-07-20 16:26:23

40 0

（原标题：Jim keller新推出一款RISC–V芯片）

如果您希望可以时常见面，欢迎标星收藏哦~

来源：内容由半导体行业观察（ID：icbank）编译自anandtech，谢谢。

由Jim keller领导的芯片公司Tenstorrent 发布了用于 AI 工作负载的下一代 Wormhole 处理器，该处理器有望以低廉的价格提供不错的性能。该公司目前提供两款附加 PCIe 卡，可搭载一到两个 Wormhole 处理器，以及面向软件开发人员的 TT-LoudBox 和 TT-QuietBox 工作站。今天发布的全部产品都是针对开发人员的，而不是那些将 Wormhole 板用于商业工作负载的人。

“将更多我们的产品交到开发人员手中总是一件值得欣慰的事情。使用我们的 Wormhole™ 卡发布开发系统有助于开发人员扩大规模并开发多芯片 AI 软件。”Tenstorrent 首席执行官 Jim Keller 表示。“除了这次发布之外，我们很高兴看到我们的第二代产品 Blackhole 的流片和上电进展顺利。”

每个 Wormhole 处理器包含 72 个 Tensix 内核（包括 5 个支持各种数据格式的 RISC-V 内核）和 108 MB SRAM，可在 1 GHz 频率下以 160W 热设计功率提供 262 FP8 TFLOPS。单芯片 Wormhole n150 卡配备 12 GB GDDR6 内存，带宽为 288 GB/s。

Wormhole 处理器提供灵活的可扩展性，以满足工作负载的不同需求。在具有四个 Wormhole n300 卡的标准工作站设置中，处理器可以合并为一个单元，在软件中显示为统一的、广泛的 Tensix 核心网络。这种配置允许加速器处理相同的工作负载，在四个开发人员之间分配或同时运行多达八个不同的 AI 模型。这种可扩展性的一个关键特性是它可以本地运行而无需虚拟化。在数据中心环境中，Wormhole 处理器将使用 PCIe 在一台机器内部扩展，或使用以太网在一台机器外部扩展。

从性能角度来看，Tenstorrent 的单芯片 Wormhole n150 卡（72 个 Tensix 核心，频率为 1 GHz、108 MB SRAM、12 GB GDDR6，频率为 288 GB/s）能够在 160W 下实现 262 FP8 TFLOPS，而双芯片 Wormhole n300 板（128 个 Tensix 核心，频率为 1 GHz、192 MB SRAM、聚合 24 GB GDDR6，频率为 576 GB/s）可以在 300W 下提供高达 466 FP8 TFLOPS。

为了将 300W 时 466 FP8 TFLOPS 这个数字放在上下文中，让我们将其与 AI 市场领导者 Nvidia 在此热设计功率下提供的产品进行比较。Nvidia 的 A100 不支持 FP8，但它支持 INT8，其峰值性能为 624 TOPS（稀疏时为 1,248 TOPS）。相比之下，Nvidia 的 H100 支持 FP8，其峰值性能在 300W 时高达 1,670 TFLOPS（稀疏时为 3,341 TFLOPS），这与 Tenstorrent 的 Wormhole n300 有很大不同。

不过，还有一个大问题。Tenstorrent 的 Wormhole n150 售价为 999 美元，而 n300 售价为 1,399 美元。相比之下，一张 Nvidia H100 显卡的零售价为 30,000 美元，具体取决于数量。当然，我们不知道四个或八个 Wormhole 处理器是否真的可以提供单个 H300 的性能，但它们的 TDP 分别为 600W 或 1200W。

除了卡之外，Tenstorrent 还为开发人员提供预建的工作站，其中包含四张 n300 卡，位于价格较便宜的基于 Xeon 且具有主动冷却功能的 TT-LoudBox 内，以及基于 EPYC 且具有液体冷却功能的高级 TT-QuietBox 内。

Jim Keller：舍弃HBM

被誉为「处理器架构传奇人物」、现为美国AI芯片设计新创商Tenstorrent执行长的Jim Keller ，正在试着设计比英伟达(Nvidia Corp.)产品更具效率的芯片，借此压低AI应用的成本，目标是夺取英伟达一部分市占率。

日经新闻15日报导，Keller表示，英伟达产品目前还有许多市场尚未涵盖到。随着AI拓展至智慧型手机、电动车及云端服务，许多业者正在寻找较便宜的解决方案，不少小企业不愿支付2万美元购买英伟达的高阶绘图处理器(GPU)。

Tenstorrent今(2024)年底准备推出第二代多用途AI芯片。据公司说法，在某些领域，这款AI芯片的能源、处理效率优于英伟达AI GPU。事实上，跟英伟达DGX系列AI伺服器相比，Tenstorrent的Galaxy系统不但效率高三倍、价格也便宜33%。

这是如何办到的呢？Keller说，其中一个原因，就是Tenstorrent并未使用高频宽记忆体(HBM)。HBM是生成式AI芯片的重要元件，英伟达产品能获致成功、HBM扮演重要角色。然而，HBM同时也是导致AI芯片耗电严重、价格高昂的元凶之一。

一般来说，AI芯片组每处理一次任务，GPU就会把数据传送至记忆体。这需要HBM的高速数据传输能力。然而，Tenstorrent芯片大幅降低了数据传输次数，其特点是数百个核心中、每个核心都有一颗小型CPU，能自行判定哪些数据得优先处理、哪些非必要的任务可以放弃，进而提升整体效率。

Keller认为，全新方式可让Tenstorrent芯片在部分AI研发领域取代GPU及HBM。不只如此，该公司也会尽量提升产品成本效益，但Keller坦言想要干扰现今规模庞大的HBM产业、恐得花上数年时间。他预测，未来将有更多新兴业者抢进英伟达目前还无法服务到的AI市场，而不是出现单独一家完全取代英伟达的企业。

根据Sequoia Capital分析师David Cahn日前估算，AI企业每年必须赚取约6,000亿美元，才能负担它们的AI基础建设(例如数据中心)。

Cahn的计算方式相对简单。首先，他将英伟达的营收运转率(run-rate，指按照运行速度推估未来表现)预估值乘以二，来估算AI数据中心的总成本(GPU占据一半，其余是能源、建筑及后援发电机)。然后，Cahn再将这个数字乘以二，来涵盖终端用户(例如新创商、或向AWS等云端商购买AI算力的业者)的50%毛利率。

然而，就算是乐观情境下，科技巨擘也难以创造6,000亿美元的AI营收。Cahn指出，假设Google、微软、苹果(Apple)及Meta各创造100亿美元AI相关年营收，而甲骨文(Oracle)、字节跳动(ByteDance)、阿里巴巴(Alibaba)、腾讯(Tencent)、X及特斯拉(Tesla)各创造50亿美元AI年营收，这跟AI企业每年需赚取的6,000亿美元相比，还是有多达5,000亿美元的差距。

值得注意的是，英伟达新推的B100/B200处理器，已承诺效能可望高2.5倍、成本仅增加25%。英伟达执行长黄仁勋(Jensen Huang) 2月曾表示，AI处理器的架构创新，比产量更重要。

黄仁勋2月12日在杜拜举办的世界政府峰会(World Governments Summit)对阿联的AI部长Omar Al Olama表示，不能预设自己能买更多电脑，而是要假设电脑运算速度会加快，因此不必买下那么多电脑。

https://www.anandtech.com/show/21482/tenstorrent-launches-wormhole-ai-processors-466-fp8-tflops-at-300w

点这里加关注，锁定更多原创内容

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3832内容，欢迎关注。

『半导体第一垂直媒体』

实时专业原创深度

公众号ID：icbank

喜欢我们的内容就点“在看”分享给小伙伴哦