• 当前位置:网站首页-> 乡村资讯 -> 乡村经济

    百万GPU集群?有点不符合逻辑

    乡村经济

    2024-12-23 20:47:18

    9 0

    (原标题:百万GPU集群?有点不符合逻辑)

    如果您希望可以时常见面,欢迎标星收藏哦~

    来源:内容编译自theregister,谢谢。

    随着 AI 热潮进入第三年,明年将有一些真正庞大的计算项目开始实施。迄今为止披露的最大项目之一是 xAI 计划将其 Colossus AI 超级计算机从已经令人印象深刻的 100,000 个 GPU 扩展到 100 万个。

    这样的数字似乎不符合逻辑。即使你能为这款新的 Colossus提供足够的 GPU ,支持它所需的电力和冷却(更不用说资本)也将是巨大的。

    按照每台 30,000 到 40,000 美元的价格计算,再增加 900,000 个 GPU 将使 xAI 损失 270 到 360 亿美元。即使有慷慨的批量折扣,无论它们是否在几年内部署,它仍然不便宜。哦,这还没有考虑到支持所有这些加速器的建筑、冷却和电力基础设施的成本。

    说到电力,根据 xAI 计划部署哪一代加速器,仅 GPU 节点就需要大约 1.2 到 1.5 千兆瓦的发电量。这比典型的核反应堆还要多,而且比大型反应堆还要多。再说一遍,这只是用于计算。

    您的直觉反应可能是将这些数字归功于一位古怪的亿万富翁,他的即兴妙语被当地商会奉为真理,并被当作事实重复。然而,当您考虑到竞争对手的做法时,这个新巨人的规模看起来就没那么疯狂了。

    人工智能热潮的末期

    就在孟菲斯大商会公布 xAI 扩建计划细节的同一周,竞争对手 Model Dev 和 Xitter 竞争对手 Meta宣布将建设自己的大型数据中心园区。该设施计划在路易斯安那州里奇兰教区建设,占地 400 万平方英尺,耗资 100 亿美元。

    Meta 尚未透露该工厂可能容纳多少台加速器,但首席执行官马克·扎克伯格已经承诺仅今年一年就部署 60 万台 GPU。从这个数字来看,分析师认为 Nvidia 在 2023 年全年出货的 H100 级 GPU 数量几乎与此相当。

    据我们所知,该核电站很可能在未来几年分阶段建设,而且将消耗大量电力。

    作为参考,一个拥有多个数据大厅的典型云数据中心园区的额定容量约为 50 兆瓦并不罕见。鉴于美国的电力限制已经给数据中心运营商带来了问题,您可能会认为这对所有这些痴迷于 AI 的超大规模企业、云提供商和模型构建者来说都是一个问题——但事实上,他们只是在为自己的发电厂提供资金。

    至于 Meta 的路易斯安那州园区,它已与 Entergy 合作建造了三台燃气轮机,总发电量超过 2.2 千兆瓦。

    我们必须拭目以待,看看整个网点是否能完工。我们只能想象,人工智能泡沫破裂可能会迅速破坏这些计划——假设它确实是一个泡沫。

    无论如何,有了如此庞大的数字,建造一座核电站的想法突然听起来并不那么疯狂。事实上,Meta 似乎非常有信心其电力需求将继续增长,以至于它开始寻找能够在 2030 年代初为其提供 1 至 4 千兆瓦核能的供应商。

    科技巨头们共同掀起的人工智能热潮对整个核工业产生了翻天覆地的变化,云计算提供商纷纷出资恢复退役反应堆,甚至将他们的数据中心放在电表后面,比如 AWS 的新Cumulus 数据中心综合体。

    说到亚马逊,当然不仅仅是 Meta 和 xAI 在做着大梦。这家电子商务巨头转型为云提供商,上周加大了其人工智能野心。在 re:Invent 大会上,这家超大规模企业展示了一系列人工智能产品、系统和模型,其中包括一台与模型构建商 Anthropic 合作打造的人工智能超级计算机,使用了“数十万”台定制的 Trainium2 加速器,我们只能想象,这些加速器本身也需要相当大的功率。

    今年夏初,我们对 Oracle 的“zettascale”超级计算机进行了一些嘲讽,在 4 位精度和稀疏性的帮助下,其峰值输出将达到 2.4 zettaFLOPS。

    虽然在当今最常用的 FP/BF16 精度下,实际训练性能将接近 459 exaFLOPS,但它仍将使用大量 GPU(总计 131,072 个)。虽然数量不及一百万,但与 CoreWeave 和其他公司部署的集群相比,这仍然相当庞大。

    我们可以继续——但是你明白了。

    新的军备竞赛

    似乎围绕生成式人工智能的炒作不仅改变了我们对扩展计算的看法。

    从许多方面来看,我们在人工智能领域看到的资本调动都让人想起了太空竞赛,只是中国扮演的是红色威胁的角色,而不是俄罗斯。

    将人类送入轨道(更不用说送入月球)需要克服无数困难,这迫使科学家和工程师们克服挑战,推进技术进步,推动整个世界前进。

    虽然这其中肯定有民族主义的因素,但这并非是一个国家与另一个国家之间的竞争。推动这些投资的是世界上一些最大、最强大的公司。

    看来,在这场新的人工智能军备竞赛中,我们可能会看到类似的情况,因为电力、冷却和经济约束推动了对核能或可持续计算等领域的投资。这不是因为这是正确的做法,而是因为这关系到比赛的胜负——以及赚钱。

    https://www.theregister.com/2024/12/19/scale_ai_defies_logic/

    半导体精品公众号推荐

    专注半导体领域更多原创内容

    关注全球半导体产业动向与趋势

    *免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

    今天是《半导体行业观察》为您分享的第3984期内容,欢迎关注。

    『半导体第一垂直媒体』

    实时 专业 原创 深度

    公众号ID:icbank

    喜欢我们的内容就点“在看”分享给小伙伴哦


    推荐阅读

    文章评论

    注册或登后即可发表评论

    登录注册

    全部评论(0)