> 2026年5月28日,中科曙光在天津世界智能产业博览会上公开展出其scaleX万卡超集群真机。这不仅是一次技术展示,更标志着国产超大规模算力基础设施已从概念走向实战——今年2月,3套同款系统已在国家超算互联网核心节点上线试运行。在高端算力网络长期受制于海外的背景下,这一全栈自研的突破,正试图改写中国在AI与科学计算竞赛中的底层规则。## 从展台到节点:破解算力封锁的工程答卷与过往的模型演示不同,此次智博会1700平方米展台上运行的是**标准化机柜阵列、高速互联网络与相变浸没液冷系统**组成的实体设备。中科曙光公司高级技术顾问侯伟杰证实,这套系统与**今年2月部署在国家超算互联网核心节点的机型一致**。长期以来,**高端算力集群的核心技术,特别是高速互联网络,存在进口价格高昂与替代方案稳定性不足的困境**。中科曙光董事长历军指出,释放超大规模集群潜力的关键,绝非单一硬件,而是依赖**计算、存储、网络、散热与调度等全栈能力的系统级协同**。## 全栈自研:系统性瞄准三大行业痛点scaleX万卡超集群的设计直指**高端算力供给不足、散热能耗压力攀升、数据传输瓶颈**三大共性难题。其技术体系覆盖“算、存、网、冷、管、软”:- **计算层**:除万卡超集群外,还包括全球首个单机柜**640卡超节点scaleX640**、世界首个**无线缆箱式超节点scaleX40**,形成完整产品谱系。- **存储与网络层**:通过自研**FlashNexus全闪存存储**、**ParaStor分布式存储**及**scaleFabric 400G原生无损RDMA高速网络**,满足万卡并发读写的极致带宽需求,将**通信延迟压缩至微秒级**。该网络已实现批量出货,摆脱海外技术依赖。- **散热层**:采用**相变浸没液冷技术**,在超大规模部署中有效控制能耗。第三方分析指出,其系统**PUE可降至1.04的行业极值**。- **软件与管理层**:通过**OneScience开发平台**、**Gridview运维系统**实现智能化调度,**系统可用性高达99.99%**。## 实战检验:AI4S与产业赋能的效率革命这套系统并非实验室产物。在国家超算互联网核心节点,它已提供**超3万卡国产AI算力**,服务于万亿参数模型训练、高通量推理与AI for Science(AI4S)等场景。中科曙光**AI4S计算集群已升级至6万卡规模**,并完成了**70余项万卡规模测试**。具体应用已产生关键效率提升:- **3万卡算力**应用于**蛋白质折叠模拟**,加速新药研发。- **4.5万卡算力**实现了**414.7亿原子DFT精度模拟**。- 将十亿级网格的仿真效率,从**“周级”提升至“小时级”**。> “算力就是AI4S时代的‘电力’。没有强大的算力基础设施,一切科学智能创新都无从谈起。”中科曙光董事长历军在智博会演讲中表示。## 开放生态:降低门槛与激活本土创新与封闭架构不同,scaleX万卡超集群是**全国首个实现落地部署的开放架构万卡集群**。这一设计带来了显著的兼容性优势:- 已**深度适配超过400个全球主流行业大模型**。- 完成了流体、生物、量子力学、工业仿真等领域**专业软件的国产化适配与迁移优化**。- 其自研网络**scaleFabric全面兼容国产CPU、GPU等算力硬件**,并支持PyTorch、TensorFlow等主流框架无需修改代码即可迁移。这种“数算模用协同”的路径,旨在把模型、算力、数据与行业软件组织成完整体系,降低用户使用国产算力的门槛与迁移成本。## 重塑底座:从技术突破到产业自主中国算力基础设施正快速扩张。截至2026年3月,全国智算总规模已达**1882 EFLOPS**,全国一体化算力网监测调度平台已接入约七成智能计算资源。在此背景下,自主可控的全栈技术突破更具战略意义。中科曙光万卡超集群的从部署到应用,表明国产算力在解决超大规模工程挑战上取得了实质性进展。它不仅在打破垄断,更通过开放生态,为**人工智能、基础科研及产业升级**提供了一个可迭代、安全可控的算力底座。当算力成为新质生产力的核心要素,此类突破的意义已超越单点技术,关乎整个科技自立自强体系的韧性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
暂无评论...