光互連光交換CPO是本土超節點集群“以量補質”的破局機遇
不久前,“2025世界人工智能大會暨人工智能全球治理高級別會議(WAIC2025)”在上海舉行。期間評出了最高獎——SAIL獎(卓越人工智能引領者獎),有5個項目從240個項目中脫穎而出。其中唯一一個包含芯片創新的項目是由曦智科技聯合壁仞科技、中興通訊、上海儀電的“分布式OCS全光互連芯片及超節點應用創新方案”,作為本年度最具代表性的原始創新項目,成為SAIL四大維度(Superior,Application, Innovation, Leading)中“I”的代表。

頒獎現場:光躍LightSphere X榮獲SAIL大獎
這個獎項的關鍵一環是曦智的LightSphere X分布式OCS(光交換)全光互連芯片及超節點解決方案。那么,它是如何助力本土GPU實現超節點算力躍升的?為此,曦智創始人兼首席執行官沈亦晨博士等領導接受了電子產品世界網/EEPW的采訪。
1 實現從“電互連”向“光互連”的躍遷
隨著生成式人工智能的發展,算力需求不斷升級。不僅在我國,在世界范圍內都看到需要越來越大的算力集群,使人們有能力訓練和推理更大的模型。
就像過去一百多年來在交通網絡上的技術革新和突破,使人們的出行效率有了巨大的飛躍。在計算互連網絡上是否也可以有類似的互連技術突破,以應對近幾年出現的算力需求激增?答案是從電互連上升到光互連。
曦智就是致力于光互連解決方案的公司,例如把GPU/xPU/機柜的銅互聯、LPO/NPO升級為CPO(如圖1);另外,從“0到1”地提出光交換方案,以獲得更大的交換通道數、更低功耗、更大集成度,以及增加靈活調度能力,助力本土GPU在目前工藝節點受限的情況下,實現“以量代質”的超節點集群。

圖1
曦智等合作伙伴此次獲獎的另一個重要原因是推出時間快。因為盡管此次WAIC上有很多超節點機柜在展出,但還沒有一個機柜已是批量部署的。而曦智與合作伙伴的解決方案早在2024年就有批量部署(注:2024年6月已經在上海儀電落地數千卡的全光直聯超節點,如圖2)。在本屆大會上,曦智又聯合壁仞科技、中興通訊又首次示范應用LightSphere X,也即將于上海儀電國產超節點算力集群落地。

圖2
2 超節點成為超級熱點
超節點(SuperPod)可謂本屆WAIC的熱點之一,而去年很多客戶還對此很陌生,但今年對于這個趨勢判斷已經沒有任何疑問。近期在積極布局超節點的國內廠商主要包括AI芯片廠商和服務器廠商。
所謂“超節點”是英偉達最早提出的概念,用于描述一種縱向擴展(Scale-Up)的GPU集群形態。英偉達也是較早布局超節點的代表廠商,去年發布了NVL72超節點系統。英偉達有一種特有的互連方式NVlink及NVSwitch,與傳統通訊和網絡不同,其帶寬/密度極高,傳輸延遲極低。例如,NVL72把72張英偉達GB200 GPU通過NVlink的方式連接在一起,形成72卡超節點。相比于傳統,例如把一模一樣的芯片和卡組成傳統單機8卡服務器,再把單機8卡服務器通過傳統網絡互連的方式9臺連在一起。性能對比如圖3所示,盡管二者的算力是一樣的——都是72顆GB200芯片,唯一的不同點在于它們的連接方式不同,但是當模型做得越來越大及客戶對響應度的要求越來越高時,NVL72超節點會顯著好于傳統網絡互連方案。當TPS/用戶超過200時,會看到一模一樣的算力,但是超節點的吞吐量可以比非超節點提升3倍以上。

圖3
3 實現超節點的兩條路徑
由于地緣影響,現在英偉達超節點體系在我國還沒有商用化。國內客戶包括云大廠,現在能獲得的最好官方產品是英偉達H200,是單機8卡系統。
國內客戶如果想實現超節點,目前主要有兩條路徑可選。
3.1 跟隨英偉達,采用單機柜,目前是銅互連
這里帶來另外一個問題:NVL72里的芯片是GB200。GB200用的是最先進的工藝(臺積電4nm工藝)。圖4是GB200相比于英偉達的A100(臺積電7nm工藝)。A100與現在典型的國產GPU 7nm算力比較接近。

圖4
B200比A100的單芯片計算能力高5~10倍,因此72張NVL72的GB200約等于500張國產GPU的計算能力,相當于1個NVL72超節點需要500個國產GPU來匹配計算能力。
這就帶來一個問題:現在國內絕大部分數據中心用的還是非超節點方案,例如傳統的單機8卡+RoCE網絡。
我們當然可以選擇一條完全跟隨或復制英偉達的道路,繼續把更多GPU塞到機柜里,GPU間通過短距離銅導線連接起來去做超節點。這件事情我們也一定要去做。但是有幾個痛點:
①把500個GPU塞到一個機柜里,無論是從功耗、散熱還是體積等都是很難實現的,因為高帶寬數據在傳統的銅導線里傳輸,通常只能傳輸一兩米——在這個距離內放下如此多的GPU很困難。
②英偉達的GPU制程還在進步,例如下一代的Rubin(注:計劃于2026年初開始量產)用的是3nm(臺積電第三代3nm制程工藝(N3P)),再往后將是2nm工藝,……因此在目前國產制程的水平下,需要塞到一個機柜內的GPU量將越來越大,將越來越難實現。
所以就必須開拓第二路徑,必須具備跨機柜的帶寬互連能力,才有可能追趕上甚至超越英偉達GPU的密度。
3.2 實現跨機柜,用硅光互連
跨機柜往往會超過1米的距離,因此只有一種方案——用光進行互連,而不能繼續沿用原來的銅導線方案。
所以未來國內超節點方案,首先每個機柜內會盡量放更多算力,然后會有多個機柜通過光互連的方式連接成一個超節點。這需要GPU直接出光,然后做跨機柜的長距離互連。
4 光互連——大量帶寬連大量芯片,創造同等算力
如果把光互連與傳統的電互連比較,光互連像軌道交通,電互連更像是公路交通。軌道交通的優勢是可以傳得更遠,速度更快,并且有自己獨特的網絡體系。
實際上光互連并不陌生,已出現幾十年,光纖通訊也已廣泛應用在長距離通訊里。光互連技術本身也有非常大的迭代空間。網絡互連的光模塊就像軌道交通里的綠皮車。光模塊有兩個特點,①光電轉換芯片往往離GPU較遠,現在光模塊都存在于數據中心交換機里,與GPU之間至少有1米以上的銅導線距離,②傳輸延遲較大。
因此需要進一步提升單通道互連帶寬,還要提升通道的密度和數量,這就催生出新一代的光電融合技術,目前已有三個發展階段,如圖1。
①近封裝/板載光學(NPO/OBO)技術,把光電轉換芯片從交換機直接放到GPU板卡上,這樣距離就從1米縮短到10厘米。互連密度也能提高2~3倍。另外可以把DSP芯片去掉,這樣能大大減少GPU與GPU之間的通訊延遲。近封裝光學是目前已經批量落地的一套互連方案,也是目前唯一通過NPO方式連接的GPU超節點。
②下一階段是共封裝光學(CPO),最近炒得比較火。CPO可進一步把光電芯片到GPU的距離從10厘米級別縮短到1毫米,原理是直接把光芯片和電芯片放在一個封裝里,以進一步增加互連帶寬。因為只需要把電信號傳1毫米就行了,這進一步提升了3倍左右的帶寬,同時減少了延遲。
值得一提的是,共封裝(CPO)光學在全球范圍內第一個落地場景是交換機的共封裝,博通產品以及英偉達在今年GTC(GPU技術大會,2025年3月)上都發布了共封裝交換機,在國內,曦智也與國內頭部交換芯片廠商在合作項目。
CPO的第二步是用于GPU互連。在本屆WAIC上已經展出GPU共封裝的Demo(演示)。在全球范圍內,英偉達也在非常積極地研究該技術,落地只是時間問題,而且會非常快。國內企業也在研發,而且光電共封裝可能在國內意義會更大,因為國內制程是受限的。在此次WAIC大會上,曦智展示了一款與國內GPU公司,應該也是全球第一次實現這種方案的Demo,即把一個GPU芯片通過短距離(只能傳1毫米)Serdes,直接以共封裝的方式把信號在GPU上轉換為光信號,并直接連出來(圖5)。

圖5 曦智的國內首款xPU-CPO光電共封裝原型系統
③未來,光互連方式應該是光芯片和電芯片在同一顆芯片上——3D共封裝方案。現在美國已有公司在做此類事,預計5年之內就會出現。3D CPO把光芯片和電芯片堆疊在一起,直接進行數據傳輸。上層會有很多電芯片,下面是較大的硅光芯片。電芯片所有信號直接垂直傳導到硅光芯片上。隨著硅光芯片上的Routing,通過周圍連接的接口往外進行連接,這會最大化地提升互連帶寬。最終通過這種方式,可以比現有的互連方式再提高1~2個數量級的互連帶寬(如圖6)。

圖6
曦智的規劃是:①希望通過近封裝、共封裝,以及最終3D共封裝光電融合的方式,大大增加單芯片帶寬,目標把單芯片帶寬從現在的2TB量級,最終做到100T量級。②通過光來代替電去做互連,把超節點內的芯片數量從8顆提高到500顆。預計二者疊加起來,在1個超節點內的總帶寬可以比今天單機8卡的超節點提高到3個數量級。未來如果能用3D共封裝方案,可以在3個數量級上再上一個數量級,達到4個數量級超節點總帶寬的提升,這樣才能應對未來幾年需要用大數量GPU彌補工藝上的不足問題。
當連接的GPU節點數量越來越多以后,要面對一個新的問題:在不同光互連光纖中的調度能力。因為不可能上千張GPU都是一種方式連接,需要有調度復雜網絡的能力。
5.1 電交換的三個痛點如下。
①電交換像一輛輛小汽車,每個信號都可以在電交換機上選擇方向,就像每輛小汽車的司機都可以去選擇,因此整個交換容量或交換速率主要取決于電交換芯片本身的運算能力,相當于紅綠燈的能力,這在大型的超節點網絡上容易造成堵塞。
②不同品牌的小汽車就像國內不同的GPU、采用不同的互連協議,無法把多個廠商的GPU通過同一種交換芯片互連,所以每種 GPU都要定制交換芯片,以覆蓋互連協議。
③先進的電交換芯片要用先進的工藝節點。例如博通最先進的電交換芯片與英偉達GPU一樣的工藝節點推進。因此,國產電交換芯片的交換能力也受到了本土工藝節點的限制。
5.2 曦智dOCS的優勢
為此,曦智開發了dOCS(分布式光交換)系統,原理類似于取消了工廠中的中央物流中心,而是在每個車間或工作站附近設置小型的物流中轉站,使物料傳輸路徑更短、更直接(如圖7)。

圖7
光交換芯片可以通過中央信號控制調配所有光纖,讓光信號在波導之間進行信號的切換。基于dOCS(分布式光交換)超節點的性能優勢如下。
● 在單位互連成本上,因為不需要電交換機,直接通過光模塊的方式,可以做到NVL72成本的31%。
● GPU冗余率比NVL72和谷歌TPU v4低一個數量級。當把幾百個GPU卡連成一個超節點以后會遇到一個問題:如果一個GPU壞了,在邏輯上與它一起形成的整個超節點都會需要下線。隨著超節點越來越大,超節點里有GPU會壞的概率成倍增長。所以冗余是必須要解決的問題。因此,能否在任何一個GPU壞的時候,能迅速把一個好的冗余GPU協調到超節點內,讓它能夠繼續運行?傳統的電插拔方案,每次壞了得重新插光纖。現在有了光交換的能力后,所有壞了的GPU可以在毫秒時間內直接把一個好的GPU給切換上去,可以大大減少由于冗余帶來的成本增加。
● 每個GPU使用效率提高3.37倍。這與NVL72相比NVL8帶來的提升效率是類似的。
除此之外,它不受協議限制,同時所有硅光芯片都可以在國內自主生產,不受任何先進制程的限制。
6 目標及規劃
曦智的目標是在年內落地萬卡集群,去年6月已經在上海儀電落地數千卡的全光直聯超節點。今年6月,曦智與沐曦在上海儀電落地“光互連電交換”超節點體系。現在曦智正與上海儀電落地數千卡光互連/光交換連接體系。圖2是曦智的技術路徑。
7 為何中國GPU直接出光的時間會更早
在全球范圍之內,我國的硅光產業與國外基本處于同一起跑線,甚至有一定的領先。例如現在GPU直接出光在美國還沒有批量落地,只在中國有。
原因之一是我國沒有其他選擇(例如沒有更好的制程選擇),所以國內生態更愿意嘗試新技術。另外,美國GPU公司一家獨大,并且這家在已經占據全球市場份額超過90%的情況下,對于突破性互連技術,可能并沒有特別強的動力去改變。但是中國不同,中國GPU廠商有小幾十家,相互都在尋找差異化,怎樣在同樣的制程下尋找突破?新一代的光互連光交換技術使門檻降低了很多。如果有幾家選擇光互連光交換方案,就會形成幾萬卡節點的落地。
8 dOCS光交換的拓撲結構是什么樣的?
8.1 OCS與電交換機的區別
通常的OCS叫光路交換、光路切換,外形像盒子,與電交換機從外形上看起來很像,即有很多口進,也有很多口出。電交換是一個電信號過去,有點像發信件,有個郵編,盒子會讀郵編去哪兒。光交換像軌道切換,上面并沒有郵編,因為光的交換機是無法感知里面傳的東西是什么,所以一定是源控制——發的人決定它去哪兒。有點像物流中轉站,貨物過去,例如這個件要去鄭州,它就裝上鄭州的車。
8.2 傳統光交換(OCS)的不足如下。
①(分布式光交換)與傳統的光交換相比,光交換(OCS)盒子為什么現在沒有在數據中心大規模使用?弱點在于若把很多光纖連到上面,一旦出現問題,故障影響會很大,對于很多大型元數據中心是很大的問題。但是業界技術在持續研發解決這種技術。
②傳統的盒子成本較貴。
8.3 dOCS的優勢
分布式OCS(dOCS)在架構上做了創新,無需把交換功能做到一個大盒子里,而是做到模塊里。盡管曦智的dOCS產品最終形態看起來像光模塊,但只是把交換的功能放到模塊里面。由于它是硅光固態產品,所以可靠性比盒子/模塊好很多。
另外,成本大幅降低。因為dOCS本身也是光電轉換,即在整個系統里節省了光模塊。例如假如不是dOCS,而是GPU出來接一個交換機,這中間需要光纜,因為交換機信號出來后還要再接回去,所以如果是GPU出光的情況,中間要用4個光模塊(每端2個,例如國內某友商的解決方案)。而dOCS只需2個模塊,節約了成本。另外,系統應用方面可以省掉電交換。
所以這個產品是集技術、產品定義、應用場景聯合的創新。可見曦智找到了一個非常好的切入點,體現了其在技術、產品及市場上的綜合把控能力。
9 光電合封
在本土產業鏈方面,現在中國至少有3條硅光產線已經具備量產能力,并且在工藝節點上不落后于臺積電。因為硅光產線并不特別依賴工藝,況且臺積電的硅光產線是65nm,而國內頭部幾條硅光產線也能做到比65nm好的工藝。
封裝能力方面,確實臺積電比較有優勢,基于其CoWoS(Chip on Wafer on Substrate,臺積電開發的一種2.5D/3D封裝技術)等在光電融合封裝上比較領先。對于國內廠商,一方面在硅光產線上正具備更好的封裝能力;同時封裝與生產本身并不一定要在一條產線上。
曦智也在推動國內頭部封裝廠商具備光電合封的能力。目前分成三步,Fab端做光芯片生產,在OSAT(外包半導體組裝和測試服務)端做光電的合封,曦智有一條產線在南京,做純光的光纖耦合。
目前OSAT封裝的良率很高,95%以上沒有問題。還會有一些新的技術,例如做到可插拔。目前較大的挑戰是:產業鏈比較長。例如一家GPU公司找一家OSAT或光模塊公司幫助把CPO做出來,這是很難的。所以一定要有對整個產業鏈非常精通的公司幫助把控整個鏈條,然后協同設計,最后交付一個光電共封裝產品。
10 CPO(共封裝光學)會帶來哪些行業的繁榮?
所有與光芯片相關的產業會更繁榮,因為共封裝代表今后主流的電芯片,諸如交換芯片、GPU等都會配以數個硅光芯片,有點像現在的GPU邊上都配了一圈HBM,以后GPU除了左右是HBM,上下可能就是硅光芯片(共封裝)。因此整個硅光生態產業鏈都會受益,包括晶圓廠、光的封裝廠、激光光源、激光芯片公司、光纖,都會大大起量,因為現在計算互連之間的帶寬需求遠遠超過現在網絡互連帶寬。
(本文登于《EEPW》202508期)


評論