算力密度提20倍PUE达1.04:天津智博会中科曙光首展万卡超集群

资讯14小时前发布 测试用户
9 0 0

> 随着大模型参数规模指数级增长及AI for Science(AI4S)的快速发展,全精度、大算力需求已从“可选项”变为“刚需项”。2026年5月28日,在天津开幕的世界智能产业博览会上,中科曙光首次公开展出其自主研发的scaleX万卡超集群真机——这也是全国首个实现落地部署的开放架构万卡集群。中科曙光董事长历军在演讲中强调:!(blockview://markdown-image-tos-cn-i-tt/6aa2fcf1d6ab44a4bd8566ac54aca68f)> “算力就是AI4S时代的‘电力’。没有强大的算力基础设施,一切科学智能创新都无从谈起。”## 真机亮相:从模型演示到实体运行与往届展会常见的模型演示不同,这次展出的是正在运行的实体设备。现场,标准化的机柜阵列通过高速互联网络连接,相变浸没液冷系统维持着运行温度。中科曙光公司高级技术顾问侯伟杰介绍,这套系统与**今年2月**已部署在国家超算互联网核心节点的机型一致。**3套scaleX万卡超集群系统**当时已同步上线试运行,全面覆盖万亿参数模型训练、高通量推理与AI4S等大规模AI计算场景。!(blockview://markdown-image-tos-cn-i-tt/e118d4065f1740b5b0b431e671629a24)## 全栈协同:破解万卡级集群工程难题要真正释放超大规模AI集群的潜力,其效率与稳定性绝非单一硬件所能决定,而是依赖计算、存储、网络、散热与调度等全栈能力的系统级协同。中科曙光首次系统展示了覆盖 **“算、存、网、冷、管、软”** 全谱系的自研技术与产品。- **计算层**:除万卡超集群外,还同步展出了全球首个单机柜级**640卡超节点scaleX640**、世界首个**无线缆箱式超节点scaleX40**,形成完整的超节点-超集群产品谱系。其中,scaleX640算力密度提升**20倍**。- **存储与网络层**:提供了FlashNexus高端全闪存存储、ParaStor分布式存储及全栈自研的scaleFabric高速网络产品,以满足万卡并发读写的极致带宽需求,通信延迟被压缩至**微秒级**。自研400G原生RDMA高速网络将延迟压到**1微秒以内**。- **散热层**:相变浸没液冷系统通过冷却液相变带走热量,使**PUE降至1.04**的行业极值,在超大规模部署中有效控制能耗。- **软件与管理层**:通过OneScience科学大模型一站式开发平台、Gridview集群运维系统等,实现从物理集群数字孪生到智能化调度的全流程管理,系统可用性高达**99.99%**。## 落地应用:AI4S场景交出实绩目前,中科曙光AI4S计算集群已升级至**60000卡规模**,完成了**70余项万卡规模测试**。实打实的应用成果已开始显现:- **3万卡算力**已应用于蛋白质折叠模拟,加速生物医药研发。- **4.5万卡算力**实现414.7亿原子DFT精度模拟,刷新微观尺度计算纪录。- **十亿级网格仿真效率**由周级提升至小时级,让科研从“试错”走向“预测”。## 开放架构:适配国产芯片多元生态与封闭架构不同,scaleX万卡超集群采用了更复杂的**开放架构**设计。这一选择进一步加大了系统集成难度,但实现了**兼容多品牌国产加速卡**,全面适配主流AI框架与数百款大模型。该平台目前已深度适配了**400多个行业大模型**。!(blockview://markdown-image-tos-cn-i-tt/3924509a822844b7ac168da184e44764)这种架构有效降低用户迁移成本与厂商绑定风险,更适合当前国产芯片多元发展和现实场景需求快速迭代的市场环境。## 未来挑战:从算力供给到“数算模用”协同历军指出,科学智能时代的挑战,并不只是“有没有算力”,更在于如何建立 **“数算模用”协同体系**,让数据、算力、模型与应用真正联动起来。随着AI4S的发展,算力竞争正从单点性能转向系统协同能力。中科曙光通过构建覆盖全栈的自研体系,并推动流体、生物、量子力学等专业软件的国产化适配,让算力基础设施真正成为产业创新的公共底座。当科学研究的范式加速转变,这套开放架构的万卡超集群,不仅是中国AI基础设施工程能力的一次展示,也为激活本土科学智能生态提供了关键支撑。

© 版权声明

相关文章

暂无评论

none
暂无评论...