美国Micro Center近日挂出了AMD Ryzen AI Halo Developer Platform的预购页面,定价3999美元(约2.7万人民币),机身尺寸仅149×149×43mm,巴掌大,铝合金壳,120W功耗,却标了一个很抓眼球的参数:128GB统一内存,本地可运行最高2000亿参数大模型。
卖点听着像科幻,但拆开来看,它真正在攻的,不是”算多快”,而是”显存天花板”这个卡了本地AI好几年的死结。
统一内存解决的是”搬箱子”问题
传统PC架构里,CPU有系统内存,GPU有独立显存,两边各管各的。跑大模型时,数据要在CPU内存和显存之间来回搬运——这就是瓶颈。消费级显卡顶级也就48GB显存(RTX 5090/4090系列),想更大就得上数据中心卡,价格跳一个量级。
Halo平台的做法是把墙拆了:128GB LPDDR5X-8000统一内存池,CPU、GPU(Radeon 8060S,40CU)、NPU(XDNA 2,50 TOPS)全部共享,不存在”显存满了要往系统内存swap”这件事。模型权重直接住在那128GB里,大家就地读写。
这就是AMD敢说”跑2000亿参数”的底气——不是这颗Zen 5的16核32线程有多暴力,而是内存容量和带宽够装、够快,搬运开销被压下去了。
3999美元贵不贵,取决于你跟谁比
跟自己攒一台顶配游戏PC比,价格差不多甚至略高,但你拿到的可用内存池大了将近三倍。跟NVIDIA DGX Spark比,AMD便宜了约700刀,还多给了原生Windows 11 Pro选项——这点在开发体验上差距很大,毕竟很多工具链和工作流还是Windows优先。
但得说一句老实话:能装下2000亿参数≠跑得舒服。 模型权重吃掉的显存只是底线,推理时的KV缓存、上下文窗口、并发请求,都会继续吃空间。128GB塞2000亿参数的量化版本(比如Q2_K之类极低比特)可行,但要开大上下文或多路并发,内存余量很快就紧了。AMD自己也说可分配最高96GB作显存——这个数字比128GB”理论值”更贴近实际可用上限。
它真正的意义不在参数表
这台机器的本质是:把”本地大模型开发”从服务器机房搬到了桌面上。
过去中小团队做本地实验,要么赌云API(用一次算一次钱),要么咬牙买二手A100(电费+噪音+空间+保修全是非技术问题)。Halo给出第三条路——买断式、静音级、桌面大小的私有AI工作站,预装ROCm 7.x,出厂就配好PyTorch/vLLM/llama.cpp等路径,Linux和Windows双选,开箱到出第一个token的时间按分钟计。
对独立开发者、AI创业团队、高校实验室来说,这笔账确实值得算:AMD估算每月能省约750美元的云支出,几个月回本——前提是你的工作流确实吃本地推理而非云端训练。
一句话收住
Halo不是来颠覆GPU算力的,它是来把统一内存架构从纸面技术变成桌上一台能下单的商品。这一步一旦走通,本地AI开发的门槛就不只是”降一点”,而是从”大公司玩具”挪向”小团队工具”的分界点。
值不值3999美元,取决于你是拿来跑benchmark,还是拿来干活。
本文基于Micro Center预购页面披露及AMD官方规格说明公开信息整理,产品已于6月开放预购,具体发货日期待渠道确认。不构成投资建议。