华为引领智算中心光互联革命 DC-OXC以光为基改写全球AI竞合规则

人脑网讯 4月21日专稿(蒋均牧)当大模型参数量突破万亿级、智算集群规模向百万卡迈进,智算中心作为数字经济的核心基础设施,正面临前所未有的挑战与机遇。如何以更低的功耗承载更高的带宽,如何以更灵活的架构支撑动态的算力需求,如何以更可靠的联接保障持续的训练?答案,或许就藏在光互联技术的革新中。

华为引领智算中心光互联革命 DC-OXC以光为基改写全球AI竞合规则

就在4月17日下午举办的“超大规模智算中心:1.6T时代的全光互联”上,华为光产品线专家刘晓妮系统阐述了智算中心光互联的演进趋势与华为创新成果。她指出,谷歌作为行业先行者,已在数据中心网络(DCN)核心层和智算参数面规模化部署全光交叉(OCS),完成了90%的替代,并推动OCS从“单点突破”走向“全局重构”。而华为推出的数据中心全光交叉(DC-OXC)解决方案,通过光电混合架构与动态拓扑调度能力,为超万卡集群的弹性扩展与高效协同提供了全新范式。

从谷歌实践,看光互联核心价值

LightCounting数据显示,2024年以太网光模块市场规模突破100亿美元,同比增长近100%,未来五年仍将保持15%~18%的复合增速。增长背后,是超大规模集群对高速互联的极致追求:英伟达Rubin架构下,288卡GPU集群需5184个1.6T光模块,传统电互联在密度与功耗上渐渐变得难以为继。

谷歌的探索为行业提供了重要参考,其Jupiter网络通过OCS替代传统电交换机核心层,实现了跨代际网络的高效互通。刘晓妮援引谷歌公开数据指出,OCS的引入使DCN核心层不再受电芯片迭代周期束缚,网络拓扑可按流量亲和性动态调整,效率提升10倍,停机时间减少98%,同时降低40%功耗与30%设备投资。

刘晓妮强调,OCS不仅是联接工具,更是算力资源动态调度的核心枢纽。谷歌将OCS下沉至智算参数面,基于3D-Torus架构构建TPU集群。以TPU v4为例,64个机柜通过OCS互联,形成4096卡的超大规模算力单元,故障隔离效率提升50倍,集群可用性从8%跃升至75%。谷歌TPU v7延续了这一架构,并在6000卡集群中完成PaLM大模型训练,验证了光互联在超大规模AI训练中的可行性。

华为DC-OXC:破解智算中心三大困局

随着智算集群规模的迅速膨胀,全球智算中心建设普遍面临着“规模受限、可靠性衰减、效率瓶颈”三大挑战。有鉴于此,华为推出了DC-OXC解决方案,以三层创新实现破局。

首先是架构之变,从“堆叠枷锁”到“乐高式扩展”:传统CLOS架构受限于电交换机端口密度,万卡集群需多层堆叠,导致时延与拥塞点激增。华为DC-OXC在顶层构建全光交换平面,支持计算单元(POD)按需分批接入,理论可扩展至百万卡规模。“光层一次规划、电层分步扩容”的模式,既降低初期投资门槛,又避免重复布线带来的资源浪费。

可靠性跃升,光模块故障削减92%的“零妥协”:据统计,光模块故障占智算网络故障的92.3%,而华为DC-OXC采用免光模块设计,通过MEMS微镜阵列实现全光交换,端口可靠性提升20%以上。实测数据显示,光电混合架构下,网络平均无故障时间(MTBF)较全电方案优化超20%,年停机时间减少25%。华为CloudMatrix 384超节点更将断点恢复时间压至10秒级,支撑大模型训练稳定运行40天。

效率优化,跳数减1,性能增益3.5%:在时延敏感型场景中,华为DC-OXC通过扁平化架构将传输跳数从5跳降至4跳,单跳时延降低5~6μs。仿真和实测显示,可助力GPT-MoE等模型训练任务吞吐量提升1.5%~3.5%,小规模集群实测性能增益达2%。在推理场景下,一次All-to-All通信时延减少6.57μs,58层模型静态时延累计降低762μs,10ms场景性能可提升7%。此外,光互联的物理隔离特性还为多租户场景提供了更高的安全性和灵活性。

从谷歌的OCS规模化实践,到华为DC-OXC的多场景突破,光互联正从“技术选项”升级为“战略必选”。基于光电混合架构的“稳定光底座”将成为平衡规模、效率与成本的核心基础设施,而华为通过端到端光技术创新,为全球智算中心提供了一条清晰、高效的演进路径——以光为基,改写全球AI竞合的规则。

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/7279.html

(0)
人脑网的头像人脑网
上一篇 2025年4月23日 下午3:01
下一篇 2025年4月23日 下午3:03

相关推荐

  • 10000mAh!国产手机终结比赛!

    上半年,国产手机的电池容量大战太离谱了!从6000毫安时一路飙到8000毫安时,简直杀疯了! 至于年底的续航天花板能到啥地步?别说咱们吃瓜群众了,连厂商自己都不敢打包票! 不过,今天想给追求极端续航的朋友安利一款直接把续航卷到顶的国产硬核选手——道格S200 Plus! 这款新机上周才刚刚上市,主打海外市场,目标用户是户外工作者、极限运动发烧友,还有一些特殊…

    2025年4月12日
    1400
  • 为什么你每次和开发沟通需求,都像打仗一样?

    今天不谈产品规划,也不谈框架,更不谈原型,咱们谈谈为什么你的需求每次和开发沟通,都像打仗一样?

    2017年4月21日
    1201
  • 卧槽!红米K80至尊版含金量+N

    你猜怎么着?红米K80至尊版的硬件配置又双叒加码了! 4月14日,知名博主数码闲聊站发帖爆料称:“ 天玑9400+新机和小平板可能会小提前,听说现在在争取6月底。然后这两个新品马达我都很喜欢,工程机振感反馈都不错,一个0916,一个双0815 ” 。 好家伙,这配置一曝光,我直接两眼放光——红米这回是憋了大招啊! 来,咱们把K80至尊版的亮点掰开揉碎聊聊,看…

    2025年4月14日
    1600
  • 外观泄露!“西装暴徒”一加13T现身

    好家伙,一加这次可真会吊胃口!这款直屏“小钢炮”13T被捂得严严实实,官方预热了整整一个月,愣是没透露啥上市日期。 不过,憋了这么久,终于有猛料了! 4月12日,有眼尖的网友拍到了一加代言人蒋奇明手拿13T的画面,这款6.3英寸的“西装暴徒”总算掀开了神秘面纱。 随着一加中国区总裁李杰的持续剧透和数码博主的密集爆料,一加13T的核心参数也基本上浮出了水面。 …

    2025年4月13日
    1800
  • 杭州征求意见:加快推进具身智能行业应用中试

    每经AI快讯,4月15日,杭州市发展和改革委员会发布《杭州市建设人工智能产业发展高地实施方案(2025 年版)(征求意见稿)》,其中提出,加快推进具身智能行业应用中试。谋划推进国家具身智能行业应用中试基地建设,打造人工智能企业、机器人企业、行业应用企业等多元优势主体共创发展的创新联合体,强化大脑、小脑、本体等关键技术的研发、测试与验证,推进人形机器人和具身智…

    2025年4月15日
    1900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信