聯合光學:推動下一波AI數據中心創新浪潮
協包光學(CPO)將在提升網絡性能、效率和能力方面發揮根本性作用,尤其是在AI系統的擴展結構中。
實現這些優勢還需要對計算和交換資產在數據中心中的設計和部署方式進行根本性變革。Marvell正與設備制造商、電纜專家、互聯公司及其他相關方合作,確保在客戶準備好采用CPO時,交付CPO的基礎設施能夠隨時準備就緒。
推動CPO的趨勢
人工智能對帶寬的無盡需求以及銅的物理限制推動了對CPO的需求。網絡帶寬每兩到三年翻一番,隨著帶寬增加,銅線覆蓋范圍顯著減少。與此同時,數據中心運營商正急于提升每瓦和機架的性能。
CPO通過將電轉光的轉換從面板上的外部插槽移至盡可能靠近ASIC的位置來緩解這一問題。這縮短了銅線走線,可能改善鏈路預算,從而取消數字信號處理器(DSP)或重定時器功能,從而降低整體每比特功耗,而每比特功率是AI數據中心管理中的關鍵指標。然而,實現商業可行性和可擴展性需要整個生態系統多年的研發,其收益很可能取決于CPO的應用場景和應用。
雖然像LightCounting這樣的分析公司預測,光模塊將在未來十年內繼續占據數據中心內光鏈路的主體,CPO很可能會成為一個有意義的領域。
CPO 服務器托盤
下圖展示了一個概念化的AI計算托盤,配備CPO,由SENKO Advanced Components和Marvell的產品開發。設計中可容納四個XPU,帶寬可達102.4 Tbps,通過1024根光纖傳輸,全部置于1U托盤中。CPO所帶來的密度和覆蓋范圍為擴大規模化領域打開了遠超銅材規模的大門。

在最近的貿易展上被問及托盤包含多少纖維時,大多數與會者猜測大約有250根纖維。實際數量是1152根纖維。
XPU的特寫顯示了設計的另一個方面:可維修性。每個XPU連接四臺Marvell 6.4T輕型發動機,實現光電轉換。這些輕型發動機與SENKO的兩臺36光纖可拆卸金屬PIC聯掛器(MPC)接口。MPC通過集成手柄識別,設計用于精確且可重復地對準微透鏡及其他光學組件,這些元件將光線傳輸到網絡中。每個計算托盤共有32個MPC,超過36,000條光纖,重復性和可靠性至關重要。


Marvell 6.4Tbps 輕型發動機(頂部)將電信號轉換為光學信號。兩塊來自Senko的36光纖金屬光子集成電路(圖像底部側)安裝在其頂部,將XPU連接到網絡。系統的模塊化使網絡更加穩健、可擴展。
熱與空間
Marvell、SENKO、Jabil 和 Mikros Technologies 最近也發布了數據中心 CPO 交換機的參考設計。
以太網交換機ASIC——圖像中央的大型半導體——被16片輕型發動機瓦片和1,152根光纖(128根激光光纖和1,024根數據光纖)包圍。輕型發動機由16個激光模塊驅動,這些模塊連接到面板上以提高維護性。將激光模塊置于面板上還能保持冷卻,提高激光可靠性。

CPO開關參考設計包含Mikros Technologies的冷板冷卻系統(銅板帶藍色蓋板),有助于降低系統高度。
Mikros Technologies的冷板水冷采用低矮設計,保持系統高度為1OU(見右側照片中央帶藍色安裝支架的銅板)。主動冷卻高度為3.6毫米,整體高度(包括倒鉤配件和安裝支架)總共為1英寸。相比之下,傳統的空氣冷卻需要厚度為兩到三倍的底盤。簡單來說,轉向液冷可以顯著提升AI數據中心機架的密度。
這種機架密度的提升得益于Mikros Technologies的MikroMatrix?平臺,這是一種冷板設計,采用垂直于表面排列的微通道矩陣陣列。這一獨特設計大幅增加了冷板內的接觸面積,以更好地散熱。結果是卓越的傳熱性能、針對熱點的精準冷卻、更高的能效以及更大的燙的預算和整體系統可靠性的提升,遠超傳統有鰭和噴氣沖擊設計的能力。
邁向CPO生態系統
在這次CPO的經歷中,我已經發現需要具備廣泛的技能。電力傳輸、冷卻、電纜管理、連接器、光學等領域的專家需要協同合作,構建高密度、尖端的系統,并開發技術,使這些獨特系統的部署和維護成為一個可重復且“簡單”的過程。隨著規模化系統從數十個處理器增長到數百甚至數千個,這一挑戰只會越來越大。
人工智能基礎設施的范圍和復雜性遠遠超出了單個公司自身的能力范圍。預計將會聽到更多關于Marvell如何構建生態系統以加速這一進程的信息。












評論