AMD如何在数据中心赚到1000亿美元?

资讯2个月前发布 huangjun
83 0 0

本文由半导体产业纵横(ID:ICVIEWS)编译自thenextplatform

AMD的良性循环与大胆预测。

犯错会带来恶性循环,但从困境中挣脱出来,不仅不再犯错,还能通过良好的工程技术、辛勤工作和一点运气赶上并超越竞争对手,从而形成良性循环。

由于种种原因,AMD十年前彻底退出了数据中心市场,不得不像一家初创公司一样,从CPU开始,到如今凭借GPU以及通过收购赛灵思、Pensando和中电系统获得的网络协议栈和系统设计等部分领域,重新赢得首席信息官们的信任。

AMD 首席执行官 Lisa Su 和她的核心管理团队表示,现在 AMD 已准备好乘着人工智能的浪潮,在传统企业计算领域获得远超其应有的份额。

AMD更新了其数据中心总潜在市场规模(TAM)的估算,并对其CPU和GPU计算引擎在该TAM中的表现进行了评估——这里指的是销售给数据中心的芯片,而不是基于这些芯片构建的系统,也不是为实现实际运行系统而添加的软件。AMD销售芯片,但免费提供软件,因此其TAM仅包含CPU、GPU(包括其转售的HBM显存)、DPU、机架级系统的向上扩展网络以及横向扩展网络的DPU。

AMD AI业务发展趋势_AMD 市场份额增长_AMD数据中心市场增长

粗体红色和粗体蓝色斜体数字是The Next Platform的估算值,旨在填补数据空白,并进一步完善和量化AMD的TAM模型。

在本次FAD 2025大会上,AMD主要谈及数据中心业务,并向投资者展示了其CPU和GPU业务的未来发展前景。以下是苏姿丰绘制的最新数据中心TAM图表:

AMD AI业务发展趋势_AMD数据中心市场增长_AMD 市场份额增长

苏姿丰说:“要准确定义潜在市场规模(TAM)总是很困难的。我们最初讨论人工智能的潜在市场规模时,最初定的是3000亿美元,后来更新到4000亿美元,再后来又提高到5000亿美元。我想当时很多人都会说:‘丽莎,这个数字似乎太高了。你为什么会认为这个数字应该这么高呢?’事实证明,就人工智能的加速发展而言,我们的估计可能更接近正确答案。这主要得益于我们与众多客户进行了深入的讨论,了解他们如何看待自身的计算需求。”

这就是AMD(以及英伟达)正在争夺的潜在市场规模。苏姿丰表示:“毫无疑问,数据中心是目前最大的增长机遇,而AMD在这方面拥有非常非常有利的地位。我真正想强调的是,我们的战略一直非常坚定。我认为在科技领域,保持战略的一致性至关重要,因为坦白说,产品周期很长。这些是我们的战略支柱。我们首先在计算技术领域保持领先地位,这是我们一切工作的基石。我们极其重视数据中心领域的领先地位。而数据中心领域的领先地位涵盖芯片、软件以及与之配套的机架级解决方案。”

苏姿丰在演讲中表示,未来三到五年内,AMD数据中心AI业务的复合年增长率(CAGR)将超过80%,同期,公司服务器CPU业务的市场份额将超过50%,客户端CPU业务的市场份额将超过40%,FPGA业务的市场份额将超过70%。她补充道,未来三到五年内,AMD数据中心业务的复合年增长率将超过60%,而核心客户端、嵌入式、定制和FPGA业务的复合年增长率将达到10%,从而推动AMD整体营收复合年增长率超过35%。最后,苏姿丰表示,AMD预计到2025年营收将达到约340亿美元,其中约160亿美元来自数据中心业务。我们认为,今年 Instinct 数据中心 GPU 的销售额将达到约 62 亿美元,Epyc 服务器 CPU 的销售额将达到约 93 亿美元,DPU 和 FPGA 的销售额将略有剩余。

复合年增长率(CAGR)的计算方法是选取数据集中的任意两个端点,绘制一条穿过该数据集的直线,然后计算这条直线的斜率。它只是一个非常粗略的工具,完全忽略了任何市场中自然出现的峰值和低谷。就人工智能而言,未来几年的增长速度将高于 TAM 模型后期阶段的增长速度。2026 年、2027 年和 2030 年将是人工智能市场整体增长势头强劲的年份。

下图是AMD的模型,该模型还加入了英伟达数据中心销售额的日历数据。(英伟达的财年于1月结束,因此您需要从N、N-1和N-2财年的1月份收入中减去1月份的收入,再从N-1财年的1月份收入中减去N财年的1月份收入,最后将N-2财年的1月份收入加到N-1财年的1月份收入中,才能得到当前日历年的预估收入。)

AMD AI业务发展趋势_AMD数据中心市场增长_AMD 市场份额增长

观察发现:若要让AMD数据中心收入实现60%的复合年增长率,同时保持核心业务(个人电脑、嵌入式及FPGA)10%的复合年增长率,则AMD总营收增速必须远超35%的复合年增长率——这在数学上似乎难以实现。上图的模型试图平衡这些因素,并确保在预测期结束时,数据中心AI业务的收入潜力超过1000亿美元。

AMD计算和企业人工智能总经理丹·麦克纳马拉表示基于Zen 6和Zen 6c核心的“Venice”Epyc处理器将于2026年发布。

AMD数据中心市场增长_AMD AI业务发展趋势_AMD 市场份额增长

Zen 6 版本拥有 172 个核心,而 Zen 6c 半缓存版本则拥有 256 个核心。“Turin”架构的 Epyc 9005 芯片的 Zen 5 版本最多拥有 128 个核心,而 Zen 5c 版本则拥有 192 个核心。

另一张图表显示,由于GPU驱动的GenAI工作负载,服务器CPU市场出现了复苏。如果将AI系统排除在外,通用服务器市场正处于衰退期,而正如从以下数据中看到的,情况确实如此:

2022年至2023年间,只有高端AI系统服务器CPU的销售才勉强维持了市场平稳。事实上,通用服务器的收入在2024年下降得更快,但得益于AI系统CPU的销售,其收入有所回升。(系统收入层面也反映了同样的总体趋势,而且考虑到每个系统销售的GPU数量以及GPU的单价要高得多,这种趋势甚至被放大了。)

今年,由于大量老旧服务器需要升级,并且为了提高效率需要整合工作负载,从而释放出电力、空间和预算用于人工智能系统,通用服务器市场(及其CPU子集)再次兴起,AMD预计该市场将持续增长至2030年。但人工智能服务器CPU市场预计将从2025年的约82亿美元增长到2030年的约300亿美元,这对于服务器CPU而言是一个巨大的增长。

关键在于,人工智能工作负载需要进行大量的串行处理,而这需要快速且昂贵的处理器来完成。

在 AMD 数据中心 GPU 方面,MI350 和 MI355X GPU 正在加速生产,2026年即将推出的 MI400 系列,该系列显卡可以插入AMD 与 Meta Platforms 联合开发的“Helios”机架中。此外,产业也在期待 2027 年的MI500 系列 GPU。

AMD数据中心市场增长_AMD 市场份额增长_AMD AI业务发展趋势

浮点运算次数在 FP4 和 FP8 精度下很重要,但或许更重要的是 HBM4 内存的容量和性能。这意味着 FP16 训练将获得所需的内存容量和带宽,从而比 GPU 更高效地运行;此外,在 FP8 和 FP4 模式下,也将拥有足够的内存带宽,能够比以往甚至目前英伟达和 AMD 的 GPU 更快地处理上下文标记并输出答案标记。

MI400系列共有三个版本,全部采用台积电的2纳米(N2)工艺制造。正如苏姿丰本周指出的,它们是全球首批采用该工艺的芯片。MI450面向八路开放式基板设计,采用微软和Meta Platforms开发的OAM模块,目前AMD和英特尔(但英伟达)均已采用该模块。如上图所示,MI450X将应用于Helios机架式系统。AMD最初推出的Helios机架式系统将72个GPU捆绑在一起(类似于英伟达“Oberon”机架式系统中的NVL72配置),但也有64个和128个GPU的版本。MI455X是该系列的高端产品,我们认为它配备了432GB的HBM4显存——远高于今年早些时候提到的288GB。

Helios机架在FP8精度下可提供1.45 exaflops的运算能力,在FP4精度下可提供2.9 exaflops的运算能力,配备31 TB的HBM4显存(基于MI455X),总带宽为1.4 PB/s。UALink over Ethernet (UALoE)纵向扩展网络是Nvidia NVSwitch的替代方案,可在72个GPU(每个GPU 3.6 TB/s)上提供260 TB/s的总带宽,而机架外部的横向扩展网络带宽为300 GB/s。

以下是 AMD 将其 Oberon 机架中的未来 Vera-Rubin 计算引擎与其 Helios 机架中的 Venice-Altair 计算引擎的对比:

AMD AI业务发展趋势_AMD数据中心市场增长_AMD 市场份额增长

关于 Altair GPU 的 MI430X 版本将面向的是国家实验室中正在转型为人工智能中心的高性能计算中心。

AMD AI业务发展趋势_AMD数据中心市场增长_AMD 市场份额增长

AMD GPU平台副总裁、IBM Power CPU项目资深负责人Brad McCredie曾暗示AMD正在酝酿“将芯片拆分成具有不同浮点精度的计算单元,然后根据需要添加具有FP64/FP32、FP16、FP8和FP6/FP4精度的计算单元,并将向量和张量运算单元也放在不同的芯片上。”这就引出了下图,AMD机架式GPU系统的近期发展前景:

除了“Verano”一代的 Zen 7 和 Zen 7c 处理器之外,AMD 还将推出 MI500 系列。AMD 对 MI500 系列 GPU 的信息透露不多,以下是其相对性能路线图:

AMD数据中心市场增长_AMD 市场份额增长_AMD AI业务发展趋势

如果这张图表是按比例绘制的,那么 MI500 系列的 FP4 浮点运算性能应该能达到 72 petaflops 左右,比 MI455X 高出 80%,比目前正在快速发展的 MI355X 高出 7.8 倍。

某种意义上,企业购买的是产品路线图,而不是具体的产品,但终究它们需要实际采购才能达成目标。尽管总有人想等待下一代计算引擎以提升效率,但若想真正推进工作,就不能让这种选择焦虑阻碍进程。AMD、英伟达等企业正是深谙此道——事实证明,它们总能借此赚得盆满钵满。

© 版权声明

相关文章

暂无评论

none
暂无评论...