中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

来自国内的光电混合芯片技术,登上最新顶刊Nature

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

这次的成果主要聚焦在了自主研发的光子计算处理器——PACE(Photonic Arithmetic Computing Engine)。

简单来说,PACE是一种基于光电混合的架构,它通过光执行矩阵向量乘法,可以实现超低延迟和高能效的计算。

根据论文中公开的数据显示,PACE在解决组合优化问题(如伊辛问题和最大割/最小割问题)时,计算延迟低至3纳秒,比传统GPU快了两个数量级。

这一突破的核心在于PACE的高度集成设计

这个系统集成了超过16000个光子组件,并通过创新的2.5D混合先进封装技术,将光子集成电路(PIC)与电子集成电路(EIC)无缝集成。

这种设计不仅解决了大规模光电系统集成中的技术难题,更为商业化落地奠定了基础。

而这个芯片技术,正是来自国内初创企业曦智科技

据了解,这是继八年前曦智科技创始人沈亦晨博士在Nature发表封面论文后,再一次登上这一顶刊。

那么PACE如此的速度,到底是如何做到的呢?

首次公开:16000个光子组件的高度集成

随着人工智能的快速发展,计算需求呈爆发式增长,传统电子计算面临着功耗、速度等方面的瓶颈。

光子计算凭借光的独特性质,如同时进行乘法和累加过程、数据传输能耗低、避免电阻损耗和发热问题等,成为极具潜力的替代方案,受到全球广泛关注。

然而,光子计算在发展过程中面临诸多挑战。一方面,集成光子学制造相对不成熟,缺乏先进的封装解决方案,导致大规模集成光子系统在性能提升、标准设计与验证以及封装等方面困难重重。

另一方面,光子计算在光学存储、计算精度(尤其在大规模复杂电路中)以及适配模型和算法等方面存在不足,限制了其商业化进程。

为此,曦智科技提出的PACE采用混合架构(首次对外公开),将光子集成电路(PIC)和电子集成电路(EIC)集成在一个系统级封装(SiP)中。

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术
△PACE系统部署

PIC 负责执行光矩阵向量乘法(oMAC)操作,EIC则处理控制、迭代逻辑、数据输入输出、存储以及时钟控制等功能。

这种架构设计充分发挥了光子计算在速度和低延迟方面的优势,以及电子计算在逻辑处理和存储方面的长处。

在PIC中,团队设计了1×64光学数据模块和64×64权重模块执行oMAC操作。

光信号通过高性能光栅耦合器从外部激光阵列耦合进入电路,经过向量调制器阵列和权重调制器模块进行调制,最后在光电探测器阵列进行信号转换和合并。

EIC基于28-nm商业CMOS技术设计,PIC则是基于65-nm硅光子技术构建,单个芯片集成了超过16000个光子组件,实现了高度集成。

这种混合架构充分发挥了光计算的并行优势:光信号在波导中传输时天然完成乘加运算(oMAC),而电子电路则处理逻辑控制与数据存储。

实验数据显示,64×64矩阵运算延迟仅3纳秒,比传统GPU快500倍

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

除此之外,研究团队创造性地将光学矩阵运算应用于组合优化问题。

通过设计”噪声驱动递归算法”,PACE系统能够高效求解伊辛模型:

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

在求解63节点Max-cut问题时,系统经过平均537次迭代(耗时2.7μs)即可达到92.7%的收敛率,相比NVIDIA A10 GPU提速295倍。

更引人注目的是”图像搜索”演示,系统能从随机初始状态收敛到预设的”猫”图像目标。

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

Nature审稿人对曦智科技团队在光子计算工程化方面作出的努力给予了高度肯定:

还全球首发了新一代光电计算卡

就在前不久的3月25日,曦智科技还正式推出全新一代光电混合计算卡 ——曦智天枢

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

曦智天枢深度融合了光芯片与电芯片的优势,采用先进的3D封装技术,是一款高度可编程的光电混合计算卡。

与前代产品相比,其在光电集成度、光子矩阵规模、计算精度及可编程性等方面均实现了显着提升。

它不仅支持科学计算(如伊辛算法),还增强了对ResNet50等商业算法的适配性,进一步拓宽了应用场景。

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

曦智天枢采用非相干架构设计,具备出色的抗干扰能力和高计算精度。

其核心处理器由光学处理单元(OPU)和电学专用集成电路(ASIC)组成,通过3D先进封装技术实现协同工作,主频速率达1GHz,输出精度为8bit。

光芯片面积提升至600平方毫米,器件数量超过四万个,集成度大幅提高。

此外,其最大支持128×128矩阵规模,运算能力和灵活性均得到显着增强。用户可通过API自由配置计算矩阵系数,实现更高效的优化与适配。

在软件方面,产品搭载了曦智光电混合计算软件栈,支持主流框架如PyTorch和ONNX,用户可通过曦智编译器灵活构建高效的应用模型。

不仅如此,平台还支持用户自定义算子,进一步扩展了算法开发的灵活性。

对此,沈亦晨博士表示:

参考链接:
https://www.nature.com/articles/s41586-025-08786-6

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/5401.html

(0)
人脑网的头像人脑网
上一篇 2025年4月14日 下午3:16
下一篇 2025年4月14日 下午3:16

相关推荐

  • 整整157页,比尔盖茨亲自公开微软起家的源代码:Altair Basic

    一段时隔整整50年的源代码,更是让微软这家科技巨头起家的源代码,正式被公开了—— Altair Basic,整整157页,由比尔盖茨亲自撰文发布。 在文章的开头,比尔盖茨对于这段代码做了这样的高度总结: 毕竟涉及Basic这门古早编程语言,以及个人计算机的发展源头,网友们在看到比尔盖茨的分享之后,也是感慨不已。 有人这样点评到: 也有与现在AI大模型结合的感…

    2025年4月6日
    2000
  • 粉笔CTO:大模型打破教育「不可能三角」,因材施教真正成为可能

    2025,当大模型来到应用爆发之年,越来越多的垂直行业当中,开始涌现出AI落地的经典实践案例。 教育领域中,专注于职业教育培训的粉笔,就是其中之一。 就在第三届AIGC产业峰会现场,粉笔CTO陈建华坦言: 并且这种可能性,正在粉笔的亲身实践中逐渐成为可以量化观察的实例。 为了完整体现陈建华的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给…

    2025年4月18日
    1300
  • 扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"重建交互式场景

    DP-Recon团队 投稿 你是否设想过,仅凭几张随手拍摄的照片,就能重建出一个完整、细节丰富且可自由交互的3D场景? 在传统方法中,这几乎是不可能完成的任务,稀少的拍摄视角往往导致模型无法还原被遮挡的区域,生成的场景要么残缺不全,要么细节模糊。更令人困扰的是,传统的重建算法无法解耦场景中的独立物体,重建结果无法交互,严重限制了在具身智能、元宇宙和影视游戏等…

    2025年4月23日
    700
  • 微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

    微软以小搏大,发布首个开源2B参数规模“原生1bit”LLM—— BitNet b1.58 2B4T,单CPU就能跑,性能与同规模全精度开源模型相当。 它采用三进制{-1, 0, 1}存储权重,相较于传统的16位浮点数可大幅降低显存需求。 只需0.4GB内存即可运行。 基于4T token语料训练,BitNet b1.58 2B4T在保持性能的同时,计算效率…

    2025年4月21日
    1300
  • 中国首个晋级!智能辅助驾驶全球赛:德美日系共同选择Momenta

    这届上海车展,重头戏依然是智能辅助驾驶。 全球汽车品牌这两天齐聚上海,场面空前,热闹程度创下历史之最,短短2天召开了近200场发布会。 智能辅助驾驶仍然是发布会的热点话题,释放出的消息让从业者惊呼: 太快了 1年前,北京车展上头部玩家还在比拼「全国都能开」 而今天,已经有玩家率先迈向了「全球都能开」 一家中国智能辅助驾驶供应商,率先获得了全球认证,在全球化赛…

    2025年4月26日
    500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信