• 当前位置:网站首页-> 乡村资讯 -> 乡村经济

    Jim keller新推出一款RISC–V芯片

    乡村经济

    2024-07-20 16:26:23

    40 0

    (原标题:Jim keller新推出一款RISC–V芯片)

    如果您希望可以时常见面,欢迎标星收藏哦~

    来源:内容由半导体行业观察(ID:icbank)编译自anandtech,谢谢。

    由Jim keller领导的芯片公司Tenstorrent 发布了用于 AI 工作负载的下一代 Wormhole 处理器,该处理器有望以低廉的价格提供不错的性能。该公司目前提供两款附加 PCIe 卡,可搭载一到两个 Wormhole 处理器,以及面向软件开发人员的 TT-LoudBox 和 TT-QuietBox 工作站。今天发布的全部产品都是针对开发人员的,而不是那些将 Wormhole 板用于商业工作负载的人。

    “将更多我们的产品交到开发人员手中总是一件值得欣慰的事情。使用我们的 Wormhole™ 卡发布开发系统有助于开发人员扩大规模并开发多芯片 AI 软件。”Tenstorrent 首席执行官 Jim Keller 表示。“除了这次发布之外,我们很高兴看到我们的第二代产品 Blackhole 的流片和上电进展顺利。”

    每个 Wormhole 处理器包含 72 个 Tensix 内核(包括 5 个支持各种数据格式的 RISC-V 内核)和 108 MB SRAM,可在 1 GHz 频率下以 160W 热设计功率提供 262 FP8 TFLOPS。单芯片 Wormhole n150 卡配备 12 GB GDDR6 内存,带宽为 288 GB/s。

    Wormhole 处理器提供灵活的可扩展性,以满足工作负载的不同需求。在具有四个 Wormhole n300 卡的标准工作站设置中,处理器可以合并为一个单元,在软件中显示为统一的、广泛的 Tensix 核心网络。这种配置允许加速器处理相同的工作负载,在四个开发人员之间分配或同时运行多达八个不同的 AI 模型。这种可扩展性的一个关键特性是它可以本地运行而无需虚拟化。在数据中心环境中,Wormhole 处理器将使用 PCIe 在一台机器内部扩展,或使用以太网在一台机器外部扩展。

    从性能角度来看,Tenstorrent 的单芯片 Wormhole n150 卡(72 个 Tensix 核心,频率为 1 GHz、108 MB SRAM、12 GB GDDR6,频率为 288 GB/s)能够在 160W 下实现 262 FP8 TFLOPS,而双芯片 Wormhole n300 板(128 个 Tensix 核心,频率为 1 GHz、192 MB SRAM、聚合 24 GB GDDR6,频率为 576 GB/s)可以在 300W 下提供高达 466 FP8 TFLOPS。

    为了将 300W 时 466 FP8 TFLOPS 这个数字放在上下文中,让我们将其与 AI 市场领导者 Nvidia 在此热设计功率下提供的产品进行比较。Nvidia 的 A100 不支持 FP8,但它支持 INT8,其峰值性能为 624 TOPS(稀疏时为 1,248 TOPS)。相比之下,Nvidia 的 H100 支持 FP8,其峰值性能在 300W 时高达 1,670 TFLOPS(稀疏时为 3,341 TFLOPS),这与 Tenstorrent 的 Wormhole n300 有很大不同。

    不过,还有一个大问题。Tenstorrent 的 Wormhole n150 售价为 999 美元,而 n300 售价为 1,399 美元。相比之下,一张 Nvidia H100 显卡的零售价为 30,000 美元,具体取决于数量。当然,我们不知道四个或八个 Wormhole 处理器是否真的可以提供单个 H300 的性能,但它们的 TDP 分别为 600W 或 1200W。

    除了卡之外,Tenstorrent 还为开发人员提供预建的工作站,其中包含四张 n300 卡,位于价格较便宜的基于 Xeon 且具有主动冷却功能的 TT-LoudBox 内,以及基于 EPYC 且具有液体冷却功能的高级 TT-QuietBox 内。

    Jim Keller:舍弃HBM

    被誉为「处理器架构传奇人物」、现为美国AI芯片设计新创商Tenstorrent执行长的Jim Keller ,正在试着设计比英伟达(Nvidia Corp.)产品更具效率的芯片,借此压低AI应用的成本,目标是夺取英伟达一部分市占率。

    日经新闻15日报导,Keller表示,英伟达产品目前还有许多市场尚未涵盖到。随着AI拓展至智慧型手机、电动车及云端服务,许多业者正在寻找较便宜的解决方案,不少小企业不愿支付2万美元购买英伟达的高阶绘图处理器(GPU)。

    Tenstorrent今(2024)年底准备推出第二代多用途AI芯片。据公司说法,在某些领域,这款AI芯片的能源、处理效率优于英伟达AI GPU。事实上,跟英伟达DGX系列AI伺服器相比,Tenstorrent的Galaxy系统不但效率高三倍、价格也便宜33%。

    这是如何办到的呢?Keller说,其中一个原因,就是Tenstorrent并未使用高频宽记忆体(HBM)。HBM是生成式AI芯片的重要元件,英伟达产品能获致成功、HBM扮演重要角色。然而,HBM同时也是导致AI芯片耗电严重、价格高昂的元凶之一。

    一般来说,AI芯片组每处理一次任务,GPU就会把数据传送至记忆体。这需要HBM的高速数据传输能力。然而,Tenstorrent芯片大幅降低了数据传输次数,其特点是数百个核心中、每个核心都有一颗小型CPU,能自行判定哪些数据得优先处理、哪些非必要的任务可以放弃,进而提升整体效率。

    Keller认为,全新方式可让Tenstorrent芯片在部分AI研发领域取代GPU及HBM。不只如此,该公司也会尽量提升产品成本效益,但Keller坦言想要干扰现今规模庞大的HBM产业、恐得花上数年时间。他预测,未来将有更多新兴业者抢进英伟达目前还无法服务到的AI市场,而不是出现单独一家完全取代英伟达的企业。

    根据Sequoia Capital分析师David Cahn日前估算,AI企业每年必须赚取约6,000亿美元,才能负担它们的AI基础建设(例如数据中心)。

    Cahn的计算方式相对简单。首先,他将英伟达的营收运转率(run-rate,指按照运行速度推估未来表现)预估值乘以二,来估算AI数据中心的总成本(GPU占据一半,其余是能源、建筑及后援发电机)。然后,Cahn再将这个数字乘以二,来涵盖终端用户(例如新创商、或向AWS等云端商购买AI算力的业者)的50%毛利率。

    然而,就算是乐观情境下,科技巨擘也难以创造6,000亿美元的AI营收。Cahn指出,假设Google、微软、苹果(Apple)及Meta各创造100亿美元AI相关年营收,而甲骨文(Oracle)、字节跳动(ByteDance)、阿里巴巴(Alibaba)、腾讯(Tencent)、X及特斯拉(Tesla)各创造50亿美元AI年营收,这跟AI企业每年需赚取的6,000亿美元相比,还是有多达5,000亿美元的差距。

    值得注意的是,英伟达新推的B100/B200处理器,已承诺效能可望高2.5倍、成本仅增加25%。英伟达执行长黄仁勋(Jensen Huang) 2月曾表示,AI处理器的架构创新,比产量更重要。

    黄仁勋2月12日在杜拜举办的世界政府峰会(World Governments Summit)对阿联的AI部长Omar Al Olama表示,不能预设自己能买更多电脑,而是要假设电脑运算速度会加快,因此不必买下那么多电脑。

    https://www.anandtech.com/show/21482/tenstorrent-launches-wormhole-ai-processors-466-fp8-tflops-at-300w

    点这里加关注,锁定更多原创内容

    *免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

    今天是《半导体行业观察》为您分享的第3832内容,欢迎关注。

    『半导体第一垂直媒体』

    实时 专业 原创 深度

    公众号ID:icbank

    喜欢我们的内容就点“在看”分享给小伙伴哦

    推荐阅读

    文章评论

    注册或登后即可发表评论

    登录注册

    全部评论(0)