通過端到端1.6T互連測試提升AI網絡可靠性
“人工智能時代”已經到來,正在改變我們的工作和生活方式,但它也在推動數據中心的極限。訓練大型語言模型(LLM)需要大量計算和內存,分布在高度互聯的GPU集群中。
為了跟上模型的復雜性和規模,超大規模數據中心運營商正競相將網絡升級為800GE和1.6T以太網。但通過更高帶寬的互聯提升網絡容量只是故事的一部分。真正的挑戰是如何提升互聯的可靠性和效率,以承受持續AI訓練工作負載的壓力。
AI網絡的速度取決于集群之間最薄弱的環節。每一個收發機、電纜和連接器都會影響系統范圍的吞吐量、延遲和可靠性。性能瓶頸、互作性差距和尾部延遲會破壞模型訓練。隨著數據中心運營商將網絡升級至1.6T及更高,網絡架構師必須考慮每個組件在重AI工作負載和現實環境中的性能。
按規格建造只是開始。收發器必須從設計到制造經過嚴格驗證,以確保不僅是互作性,還能在實際條件下實現系統級最佳性能。
本文探討了為AI數據中心啟用1.6特斯拉網絡的挑戰,并重點介紹了在物理層及更廣泛層驗證設備性能的最佳實踐。你將更深入地理解重要的指標、所需工具以及策略,確保組件經過壓力測試并準備好在AI規模下部署。
互聯如何成為數據中心瓶頸
訓練大型語言模型不僅僅是計算能力的問題——它要求在龐大的GPU集群之間實現快速、同步的通信。這些集群由分散的服務器構建,通過高速電氣和光纖互連連接。
訓練被拆解并在不同的集群節點間并行處理,每個節點負責模型的一部分。所有節點必須保持同步才能高效推進(見圖1)。

1. 訓練變慢和工作負載失敗是由網絡未優化引起的。
隨著工作量的增加,失衡的風險也隨之增加。并行性在節點之間建立了強烈的相互依賴關系。每個節點代表網絡中的潛在薄弱環節。單個性能不佳的鏈路,無論是收發機、電纜還是交換機,都可能成為整個集群的瓶頸。在未優化的網絡中,GPU有一半以上的時間處于空閑狀態,等待下一個任務,原因是互聯速度緩慢。
為了優化AI工作負載處理,數據中心運營商需要對網絡中的每個組件和互聯進行壓力測試。收發器故障是導致工作負載故障和尾部延遲的主要原因,近50%的訓練任務因網絡或計算問題而失敗。這使收發器和互聯制造商不僅要設計符合規格表,還要在AI數據中心常見的高溫和高負載條件下實現高利潤率的性能。在物理層驗證收發器合規性
防止互聯成為AI數據中心瓶頸的第一步是進行物理層性能驗證。在開發過程中,每條224 Gb/s的電氣和光學通道都必須嚴格測試信號完整性、互作性以及在代表AI訓練負載的壓力條件下的實際可靠性。
電氣發射機和接收機測試
1.6T收發機必須滿足每個224 Gb/s電氣和光學通道日益嚴格的信號完整性和噪聲容忍要求。IEEE P802.3dj 用于 1.6T 以太網的標準規定了發射端抖動、發射端色散懲罰、比特錯誤率以及信噪比和失真比的限制。
此外,AI數據中心的實際工作負載會讓設備遠遠超出正常的運行極限。在日益嚴格的物理層規范下確保性能余裕雖困難,但對設備的可靠性和互作性至關重要。
信號完整性對電氣測試至關重要。關鍵的發射器測量包括抖動、信噪和失真比、線性度以及信與殘差-符號間干擾比。在發射機上對信號進行表征和調諧均衡,以實現最佳、最清晰的傳輸,是補償信道損耗的關鍵。
開發者需要高帶寬示波器用于信號捕獲和分析(見圖2)。合規自動化軟件可以引導用戶完成復雜的驗證需求和測試,確定每個要求規范的合格/不合格狀態。進一步的信號完整性和調試軟件可以幫助解決棘手的一致性問題。

2. Keysight的Infiniium UXR-B高帶寬示波器運行IEEE P802.3dj符合性測試應用。
接收機測試涉及使用位誤差率測試器(BERT)注入應力圖案,并在劣化條件下量化錯誤率。這對于合規性測試是必要的,但對于線性可插拔光學(LPO)尤其重要,這是一種犧牲DSP以降低功耗的新收發器拓撲。這顯著降低了網絡接口卡和交換機的性能余裕,因為主機芯片必須適應更為失真和噪聲更大的信號。
選擇合適的BERT和示波器進行測試,關鍵在于選擇使用正確調制格式和正確符號率的模式發生器和誤差檢測器(224 Gb/s信號時使用120 Gbaud PAM4)。
光學發射機測試
光學性能測試的核心在于準確測量發射機色散和閉眼四元(TDECQ)。TDECQ量化了在特定目標符號錯誤率(SER)下,真實發射機相較于理想參考所帶來的功率損失。它將帶寬限制、噪聲和符號間干擾等損害匯總為單一指標。
以太網標準依賴TDECQ作為測試光收發器的主要標準,作為合規性的合格/不合格標準,因此它是提升收發器可靠性和互作性的關鍵區別因素。










評論