网页客服,欢迎咨询
联系我们
      工作时间
  • 周一至周五:09:00-17:30
  • 周六至周日:10:00-16:00
一场芯片大战正在上演,英伟达被围攻
2024-09-11 20:37:45 58
  • 收藏
  • 管理

    (原标题:一场芯片大战正在上演,英伟达被围攻)

    如果您希望可以时常见面,欢迎标星收藏哦~

    来源:内容编译自nextplatform,谢谢。

    主要的云构建商及其超大规模提供商(在许多情况下,一家公司既充当云提供商又充当超大规模提供商)在部署 AI 训练平台时做出了自己的技术选择。他们都使用 Nvidia 数据中心 GPU,如果有的话,还会使用他们自己开发的 XPU 加速器。如今,他们有时可能会使用 AMD GPU。

    除了少数例外,人工智能训练完全是关于研究和开发的,既包括人工智能模型,也包括利用这些模型的产品,而且由于时间至关重要,金钱似乎不是问题,这些公司很难选择第三种选择。(至少四十年来,世界上顶级的政府资助的 HPC 中心一直都是这种情况。)

    在云构建者和超大规模企业中,很难打入 AI 训练领域,这也是为什么尽管 Nvidia GPU 匮乏,但世界上许多 AI 芯片初创公司仍未利用其芯片和软件堆栈在系统销售方面引起轰动的原因之一。但这些初创公司(其中 Cerebras Systems、SambaNova Systems 和 Groq 是重要的几家)现在认为,他们有机会建立硬件业务(无论是通过直接系统销售,还是通过云交付模式下的租赁),因为压力正在转向 AI 推理。

    事实上,数据中心的 AI 推理成本高昂,是企业推出 GenAI 以增强现有应用程序或创建全新应用程序的主要制约因素。没有人确切知道未来几年全球 IT 市场可能消耗多少推理能力,但大家一致认为,这将是进行 AI 训练所需的计算安装基数的数倍。可能是 3 倍、4 倍,或 10 倍或更多。越来越多的人认为,推理的成本(即生成 token 而不是构建可以生成 token 的模型)必须低得多,但必须使用相当笨重的硬件来完成,而不是一些可以放在铅笔橡皮擦末端的 50 美元推理芯片,并且可以在成熟的半导体工艺上批量生产,封装需求适中。

    考虑到所有这些限制,降低推理成本是一项艰巨的任务。但如果 GenAI 要蓬勃发展,就必须这样做。这个比例不能是需要 8,000 个 GPU 来训练一个模型,然后需要 8 或 16 个 GPU 以 200 毫秒的人类眨眼速度进行推理。(早期的 GPT-4 变体就是这种情况。)现在,我们最多需要 24,000 到 32,000 个 GPU 来训练,需要 16 个或 32 个 GPU 来进行推理,而业界正朝着单个系统中 50,000 或 64,000 或 100,000 个 GPU 的方向发展(有时跨越多个数据中心甚至多个区域),这意味着需要 32 个到 96 个 GPU 来对响应时间为 200 毫秒的最大模型进行推理。

    根据推理图像大小的传闻证据,该比率实际上正在变得更好。但这还不足以对 AI 推理的成本产生重大影响。推理容量可能是训练容量的 10 倍,但需要便宜几个数量级才能获得需求的弹性可扩展性,从而实现广泛采用。

    一个八 GPU 节点的价格约为 40 万美元,推理所需的资金将迅速增加。如果现在全世界有数百万个数据中心 GPU 进行 GenAI 训练,而在不久的将来将需要数千万个 GPU,那么我们将需要数亿个 GPU 进行推理。有趣的是:如果 AI 推理的成本是其十分之一,而销售的容量是其十倍,那么产生的收入将是 AI 训练的 1 倍。这对我们来说意味着 AI 推理的利润远不及 AI 训练,因为每个人都在拼命赚钱。

    就我们而言,AI 推理尚无定论,而且仍有可能大量推理仍停留在张量驱动的 CPU 上。我们多年来一直在说这个,到目前为止,我们觉得这很愚蠢,因为第一轮 GenAI 绝对不是这种情况。但是,我们一直在谈论长远目标。

    与此同时,AI 芯片初创公司正在转向推理,他们都希望将以类似云的方式租用容量的客户转变为系统买家。如果我们处于这些新贵的位置,我们也会做同样的事情。

    昼夜不停的 Groq

    数据中心推理之战于去年秋天正式拉开帷幕,Groq 向 Nvidia 的 GPU 发起了挑战。正如 Groq 联合创始人兼首席执行官 Jonathan Ross 所解释的那样,在此之前,AI 模型还不够大,它们的推理能力不足以扼杀 GPU。但随着 GPT-3 和 GPT-4 及其 GenAI LLM 同类产品的推出,情况已不再如此。现在,AI 推理变得像十年前的 AI 训练一样成问题,就在 15,000 家初创公司和超大规模企业试图将其商业化时,经济效益开始变得不合理。

    因此,Groq 采用了两块多一点的 GroqChips(总共 576 个语言处理单元,有时也被称为 LPU),并将它们串联起来运行 Llama 2 70B 推理。这些 LPU 的有趣之处在于它们不使用 HBM,也不需要台湾半导体制造公司的 CoWoS 中介层。GroqChips 还采用非常成熟的 14 纳米工艺蚀刻而成,这意味着它们可以以低成本制造。

    无论如何,Groq 表示,这个庞大的系统每秒可以处理 315.06 个token。当时,罗斯表示,典型的 Nvidia DGX H100 系统每秒推送 10 个到 30 个tokens就算幸运了。(我们不知道罗斯在 Nvidia 机器上谈论的量化级别和数据分辨率是什么。)Groq 声称其系统以十分之一的成本运行推理的速度提高了 10 倍,或者性价比提高了 100 倍。(我们强烈怀疑这是使用 Groq 和其他云为推理服务提供的云 API 服务的成本,而不是底层系统的成本。)

    两周前,Cerebras 在其 CS-2 晶圆级平台上宣布了自己的推理套件;到目前为止,该公司只正式销售用于训练的机器,事实上,今年 3 月,该公司刚刚宣布与高通合作开发推理计算 Sidecar。产品和战略高级副总裁 Andy Hock 向我们介绍了推理服务的数据。

    Cerebras 以 FP16 分辨率运行其模型权重,而不是将其降低到 FP8、MX6、MX4 或 FP4 分辨率,这会牺牲模型的一些质量以换取更高的吞吐量。

    以下是 Cerebras 使用 Llama 3.1 8B 模型对四晶圆系统与 Groq 集群以及在各种云中运行的一堆单个八路 H100 节点进行测量的方法:


    上图中的数据来自独立基准测试公司 Artificial Analysis。

    随着 LLM 中参数数量的增加,模型变得更加密集,并且必须通过更多的权重来传输数据,因此吞吐量下降:


    Cerebras 在四晶圆机上表现出的性能(需要有足够的 SRAM 来加载模型权重和注意键值)是云 LLM API 的 20 倍,比在云上运行的最佳 DGX H100 好 5 倍左右。据我们所知,没有与多节点 HGX 或 DGX 系统进行比较,这似乎不公平。

    Cerebras 正在为 Llama 3.1 405B 模型以及 Mistral Large 2、OpenAI Whisper 和 Cohere Command R LLM 实施其推理服务。

    Cerebras 对其推理服务的收费方式如下:


    随着模型的参数数量不断增加,需要更多内存和更多处理,输入和输出tokens的成本也会随着每个“实例”的吞吐量下降而上升。Cerebras 为这两种模型提供免费套餐,每分钟最多 30 个请求,每天最多 100 万个tokens。

    顺便说一句,Cerebras 声称 Groq 对其 Llama 3.1 70B 型号收取每百万代币 64 美分的费用,并且它使用 8 位精度而不是 16 位精度,以达到每位用户每秒 250 个代币。Cerebras 以 16 位分辨率为每位用户提供每秒 450 个代币,成本为每百万代币 60 美分。这意味着每位用户的吞吐量是原来的 1.8 倍,精度是原来的 2 倍,成本略低。

    现在,SambaNova 也开始涉足推理领域,其 SambaNova Cloud 上公布了 Llama 3.1 基准测试结果。该公司还为该服务提供免费、开发者和企业级服务,该服务运行在配备 SN40L 可重构数据单元的机器上,该单元于一年前推出。

    SambaNova 产品副总裁 Anton McGonnell 向我们详细介绍了其系统(配置了 16 个 RDU)在 Artificial Analysis 运行的 Llama 3.1 基准测试中的表现。

    在 Llama 3.1 8B 型号上,SambaNova 机器能够以全 BF16 精度每秒处理 1,100 个tokens。看起来这些不是多个用户的批量结果,而是让每个用户访问完整的 16 个 RDU,以在最短的时间内完成 LLM 的查询。在 Llama 3.1 70B 型号上,McGonnell 估计峰值性能将在每秒 580 个tokens左右,而人工分析的最终结果将在每秒 500 个tokens左右,因为 SambaNova 进行了优化,使其更接近峰值性能。

    在 Llama 3.1 405B 型号上,Artificial Analysis 测量的峰值性能为每秒 132 个tokens,这远远超过了为 Llama 3.1 型号提供 API 访问的云 Hopper 实例。请看一看:


    SambaNova Cloud 的免费层和企业层推理现已推出;开发者层的费用可能与企业层相比象征性地低一些,但能够处理比免费层更多的tokens并托管更多用户。(我们不知道免费层的限制。)

    但是我们确实知道企业级输入和输出tokens的混合价格。对于 Llama 3.1 8B,每 100 万个tokens的价格为 12 美分。对于 Llama 3.1 70B 型号,正如我们所说,它的密度要大得多,价格上升到每 100 万个tokens 70 美分。这意味着参数数量增加了 8.75 倍,但每 100 万个tokens的成本仅增加了 5.8 倍。对于 Llama 3.1 405B 型号,每 100 万个tokens的价格为 6 美元,这意味着参数数量比 70B 型号增加了 5.8 倍,每 100 万个tokens的成本增加了 8.6 倍。

    云 LLM API 是真实存在的。如果这是 Groq、Cerebras 和 SambaNova 从初创公司和真正的企业那里获得资金的唯一途径,而这些企业希望以比使用 GPU 少得多的钱(但不一定更少的硬件)进行 AI 推理,那么他们无疑会很乐意接受这些资金。但我们认为这些服务是试图销售硬件的亏本销售。数据和模型主权不仅适用于国家政府 - 它们适用于所有人,我们认为将 GenAI 投入生产的组织不会急于将其数据和模型存放在超大规模或云构建器中。

    这对销售 AI 计算引擎的所有人而言都是好消息,包括 Nvidia、AMD,从长远来看,可能还包括英特尔。因为超大规模企业和云构建者正在制造自己的 AI 加速器,他们从 GPU 中获取巨额利润,并且可能会尝试用他们的 AI 加速器做同样的事情。

    最后一件事:使用单个用户或批量用户进行自己的基准测试,并测试所有这些内容。然后从供应商那里获取实际的系统硬件价格,看看安装自己的硬件是否可以省钱 - 以及省多少钱。掌控自己的命运,即使前端更难。

    https://www.nextplatform.com/2024/09/10/the-battle-begins-for-ai-inference-compute-in-the-datacenter/

    半导体精品公众号推荐

    专注半导体领域更多原创内容

    关注全球半导体产业动向与趋势

    *免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

    今天是《半导体行业观察》为您分享的第3882内容,欢迎关注。

    『半导体第一垂直媒体』

    实时 专业 原创 深度

    公众号ID:icbank

    喜欢我们的内容就点“在看”分享给小伙伴哦



    上一页:RISC-V:搅动AI时代“一池春水” 下一页:HKMG工艺,打破常规
    全部评论(0)