一文看懂光模块:从“数据快递员”到AI时代的“基建核心”(2/2)
另外,ai训练的数据量还在指数级增长:2020年训练一个大模型需要几十tb的数据,2024年需要几百tb甚至几pb(1pb=1000tb)的数据,这就要求光模块的“容量”也要跟着涨,从400g到800g,再到1.6t,甚至未来的3.2t,只有这样才能“喂饱”gpu。
2. ai推理:需要光模块“不卡顿”
ai训练完后,要用来“干活”,比如你用ai写文案、生成图片、做语音翻译,这个过程叫“推理”。推理虽然不需要像训练那样多的gpu,但需要“实时响应”——你发出一个请求,希望几秒钟内就能收到ai的回复,这就需要光模块“快速传数据”。
比如你用ai生成一张“未来城市”的图片:你在手机上点击“生成”,请求会先传到ai数据中心的服务器,服务器里的gpu算出图片后,再通过光模块把图片数据传回到你的手机。如果光模块速度慢,比如用100g光模块,这个过程可能要5秒;用800g光模块,1秒内就能完成,你感觉不到任何延迟。
而且现在ai推理的“并发量”越来越大——比如某ai绘画工具,同时有10万人在用,每秒要处理几十万次请求,这就需要光模块能“同时传很多数据”,不能堵车。中际旭创的800g光模块支持“8通道并行传输”,就像一条8车道的高速路,能同时走8路数据,不会因为并发量高而卡顿。
3. ai集群:需要光模块“连得密”
ai数据中心里的gpu不是零散分布的,而是组成“集群”——比如一个集群有1024台gpu,这些gpu要通过光模块连接成一个“网络”,才能协同工作。这个网络的“密度”(每台gpu连接的光模块数量)直接影响ai的算力。
以前的gpu集群,每台gpu可能只连1个光模块,能和几十台其他gpu通信;现在的ai集群,每台gpu要连4个甚至8个光模块,能和几千台其他gpu通信,这样才能处理更复杂的模型。比如英伟达的dgx h100集群,每台服务器装8块gpu,每块gpu连2个800g光模块,整个集群能支持几千台gpu协同工作,这背后就是光模块的“高密度连接”在支撑。
中际旭创为ai集群设计的“光模块阵列”,能把多个800g光模块集成到一个“盒子”里,每台gpu只需要插一个“盒子”,就能实现和几千台gpu的连接,大大简化了集群的布线,还提高了连接的稳定性。
五、光模块的“技术升级”:从传统到cpo,未来还能怎么进化?
光模块不是一成不变的,为了跟上数据量和ai算力的增长,它的技术也在不断升级。从早期的“可插拔光模块”到现在热门的“cpo技术”,每一次升级都在解决“速度更快、成本更低、功耗更小”的问题。
1. 传统可插拔光模块:灵活但有瓶颈
我们之前讲的100g、400g、800g光模块,大多是“可插拔式”的——就像u盘一样,能插进服务器或交换机的接口,坏了可以直接拔下来换,灵活性很高。
这种模块的优点很明显:安装方便、维护简单,比如数据中心里某个光模块坏了,工程师不用拆服务器,直接换个新的就行,不影响其他设备工作。但随着速度提升到800g、1.6t,它的瓶颈也越来越明显:
- 功耗高:可插拔模块需要独立的电源和信号接口,速度越快,功耗越高。比如800g可插拔模块的功耗约12-15瓦,1.6t可能达到20瓦以上,成千上万的模块一起工作,总功耗会非常惊人。
- 延迟略高:信号要从服务器芯片传到可插拔模块的接口,再转换成光信号,这个过程会有微小的延迟。对普通数据传输来说没问题,但ai训练需要“零延迟”,这点延迟就可能影响效率。
- 成本高:高速可插拔模块的芯片和光学组件成本高,比如1.6t可插拔模块的价格目前还是800g的2倍多,对中小企业来说负担较重。
2. cpo技术:把光模块“焊”在芯片上,突破瓶颈
为了解决传统可插拔模块的瓶颈,行业里出现了“cpo技术”(共封装光学,co-packaged optics),简单说就是“把光模块和服务器\/交换机的芯片直接封装在一起”,不用再做可插拔的接口。
你可以理解为:传统可插拔模块是“外置的快递站”,数据要先从服务器(家里)送到快递站,再发出去;cpo就是“把快递站搬进家里”,数据直接从服务器芯片传到光模块,不用绕路。
cpo技术的优势很突出:
- 功耗大幅降低:没有了可插拔接口的信号损耗和独立供电,cpo的功耗能比传统模块低30%-50%。比如1.6t cpo模块的功耗可能只有10瓦左右,比传统可插拔模块省一半电,对ai数据中心来说,每年能省上亿的电费。
- 延迟几乎为零:光模块和芯片直接连接,信号传输距离缩短到几毫米,延迟能从传统模块的几十纳秒(1纳秒=10的-9次方秒)降到几纳秒,完全满足ai训练的“零延迟”需求。
- 成本更低:去掉了可插拔接口的组件,cpo的硬件成本能降低20%以上,而且随着量产规模扩大,成本还会继续下降。
目前,cpo技术已经进入“试点验证”阶段,很多头部企业都在推进。比如中际旭创的cpo原型机已经通过了英伟达quantum-x平台的认证,和英伟达联合开发的cpo交换机预计2026年量产;谷歌、亚马逊也计划在2025-2026年的ai数据中心里试点cpo技术,未来3-5年,cpo可能会成为800g以上高速光模块的主流方案。
3. 硅光技术:用“做芯片的方法”做光模块,降本又提效
除了cpo,“硅光技术”也是光模块的重要升级方向。传统光模块的光学组件(比如激光器、探测器)大多用“化合物半导体”(比如铟磷化物)做的,成本高、生产难度大;硅光技术则是“用做计算机芯片的硅材料来做光学组件”,把光学元件和电路芯片集成在一块硅片上。
这种技术的好处很直接:
- 成本低:硅材料是半导体行业最常见的材料,价格便宜,而且能像做计算机芯片一样“批量生产”,大幅降低光模块的成本。比如中际旭创把硅光技术用在800g光模块上,成本比传统方案降低了20%以上。
- 集成度高:能在一块硅片上集成更多的光学元件,比如把多个激光器、探测器和电路芯片整合在一起,让光模块体积更小、速度更快。比如硅光技术能做出“8通道同时传输”的800g模块,体积和传统400g模块一样大。
- 可靠性强:硅材料的稳定性比化合物半导体好,能适应更恶劣的环境(比如高温、高湿度),光模块的故障率会更低。
现在硅光技术已经在400g、800g光模块上批量应用,未来随着1.6t、3.2t模块的普及,硅光技术会成为主流,进一步推动光模块的“降本提效”。
六、光模块的“市场格局”:谁在做?竞争激烈吗?
光模块是个“技术密集型+资金密集型”的行业,不是谁都能做,目前全球市场主要被几家头部企业垄断,中国企业在其中占据重要地位。
1. 全球市场:中国企业“领跑”高速光模块
全球光模块市场规模很大,2024年约150亿美元,预计2025年因为ai需求爆发,会增长到200亿美元以上。主要玩家分两类:
- 中国企业:以中际旭创、华为、海信宽带、新易盛为代表,尤其是在高速光模块(400g及以上)领域,中国企业的市场份额超过60%。比如中际旭创的800g光模块全球市场份额超40%,是全球最大的800g光模块供应商;华为的400g光模块在电信领域占据优势,全球份额约25%。
- 国外企业:以美国的coherent、finisar(已被ii-vi收购)、日本的sumitomo为代表,它们在传统低速光模块(10g、25g)和电信相干光模块领域有一定优势,但在高速光模块领域,中国企业的技术和成本优势更明显。
中国企业能领跑高速光模块,主要有两个原因:
- 技术研发快:中国企业在800g、1.6t模块和cpo、硅光技术上的研发进度和国外企业同步,甚至更快。比如中际旭创2022年就推出了800g光模块,比国外部分企业早半年;1.6t模块也和英伟达同步完成认证,2025年就能量产。
- 成本控制好:中国有完整的半导体产业链,从芯片设计到封装测试都能自主完成,光模块的生产制造成本比国外企业低15%-20%,在价格竞争中更有优势。
2. 竞争焦点:高速光模块和cpo技术
目前光模块行业的竞争主要集中在两个方向:
- 800g\/1.6t高速模块:2024-2025年是800g模块的“放量期”,ai数据中心的需求爆发,谁能产能大、交付快,谁就能抢占市场。比如中际旭创2024年800g模块的产能达到100万只,能满足全球40%的需求;新易盛、海信宽带也在扩产,争取更多份额。
- cpo技术:2025-2026年是cpo技术的“试点期”,谁能先推出成熟的cpo产品、通过头部客户(比如英伟达、谷歌)的认证,谁就能在未来的竞争中占据先机。目前中际旭创、华为、coherent都在加速推进,预计2026年cpo模块会开始批量出货。
七、总结:光模块——数字时代和ai时代的“隐形基石”
可能很多人没听过光模块,但它其实是我们每天上网、用ai工具的“隐形功臣”:没有它,数据传不远、速度慢,刷视频会卡顿,ai大模型也练不出来、用不了。
从技术发展来看,光模块会朝着“更快、更省、更密”的方向进化:速度从400g到800g、1.6t,未来还会到3.2t;功耗从12瓦降到10瓦、5瓦;体积从“打火机大小”变成“指甲盖大小”,甚至和芯片封装在一起。
从市场价值来看,ai时代的光模块不再是“普通的硬件配件”,而是“ai算力的血管”,需求会持续爆发。比如2024年全球ai数据中心对光模块的需求约50亿美元,预计2027年能增长到150亿美元,3年增长3倍,是整个光模块市场增长最快的部分。
简单说,光模块就像“数字世界的高速公路”,路修得越宽、越快,数据和ai就能跑得越顺畅。而像中际旭创这样的企业,就是“修这条路的核心施工队”,在背后支撑着我们的数字生活和ai未来。