久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 網絡與存儲 > 業界動態 > DPU構建新一代AI網絡的優勢與關鍵技術

DPU構建新一代AI網絡的優勢與關鍵技術

作者:鄢貴海 時間:2025-09-24 來源: 收藏

一、算力與智能的大背景

當前,我們正處于兩個“ Scaling Law”激烈碰撞的時代。一個是摩爾定律的Scaling Law,就是摩爾定律,大家的看到的共識就是摩爾定律從2015年開始就已經顯著放緩了,也就意味著單位芯片面積上能提供的性能增量變得越來越小。但是我們感受到,芯片的性能還是在快速上升的,最主要的原因必然就是單顆芯片的面積變得越來越大。

與此同時,我們看到了另外一個Scaling Law,大模型的Scaling Law,為把芯片做大,把算力做高提供了直接動機。大模型的Scaling Law發現的關鍵現象就是越多的模型參數,越高的算力、越大的數據集,就能提供越高的預測精度,俗稱“大力出奇跡”。這不是黔驢技窮,而可能是智能“涌現”的必要條件。至此,我們看到了智能與算力構成了閉環,并相互強化。

算力來自于各種形式的并行計算系統。算力即涉及到應用層面的數據共享、同步、一致性、任務劃分、調度、容錯等問題,也涉及到物理結構層面的帶寬、延遲、網絡拓撲、傳輸協議、物理距離、能耗、制冷等等問題。今天的報告內容主要關注高速網絡的問題,討論在當前這個“算力即智能”的時代給高速網絡帶來了什么樣的變化和挑戰。認清這個變化可能就能看到其中蘊藏著的機遇。

圖片.png

二、AI芯片們

首先我們看一下芯片。毋庸置疑,AI需要“AI芯片”。但是AI芯片應該包括哪些核心芯片類型呢?單純的GPU或者NPU是顯然不夠的。況且GPU出現30年,AI這個概念出現更早的多,但為什么之前GPU不被稱為AI芯片呢。還有現在一些優化的很好的AI算法,在CPU上也可以執行,或者用FPGA來加速AI算法執行的案例也不勝枚舉,那這些CPU和FPGA也可以貼上AI芯片的標簽嗎?還有一些類腦芯片,Neuromorphic芯片,大都不夠成熟,甚至不能執行當前主流的大模型算法,好像稱之為AI芯片還是有點尷尬。這個問題其實不是要咬文嚼字,而是試圖準確刻畫在這一次如此重要的科技革命下,定位到真正的革命性的芯片,就好比PC時代定義了通用處理器芯片,移動互聯網定義了智能手機的芯片。

當然,構建AI基礎設施必須要CPU,但是我們通常不把CPU稱之為AI芯片,原因是CPU技術先于AI技術的發展,沒有理由在AI時代就將其冠以AI芯片的稱謂。實則也沒有必要,個人認為CPU已經是構建起來了我們整個信息化大廈的最粗的那根支柱,其地位之重要并不需要AI來加持。現在真正存在變數的兩類芯片是負責多精度高密度計算的GPU/NPU芯片,和負責高速IO的/IPU/NIC芯片。這兩類芯片的演進與AI技術的發展直接相關。沒有AI技術的發展,NVIDIA不會成為當前全球最具價值的企業。沒有AI的發展,也不會急劇催生對高帶寬、低延遲網絡的要求,NVLink技術也不會成為行業的標桿,也就不會有后來的NVL72超節點AI服務器。

鑒于此,我們嘗試給出AI芯片的一種“定義”:具備與特定AI算法的運算特征高度匹配的計算架構的芯片或芯片組就可稱之為 AI 芯片。這里所謂“定義”,不需要教條的理解,更多是為了方便后續的描述和分類。這里的運算特征主要取決于算法,包括模型可并行、數據可并行、流水線并行、數據精度自適應、迭代、概率性與確定性、Memory footprint、非線性運算、Softmax等,計算架構主要取決于硬件實現,包括計算單元、緩存結構、陣列規模、互聯拓撲、IO 帶寬、指令集、可擴展性、虛擬化支持、處理延時、運行能耗、可靠性設計等。

從這個定義上看,AI芯片不僅包括大家耳熟能詳的各類GPU/NPU芯片,還包括為了給這些GPU傳輸數據,構建大規模并行系統的網絡芯片。簡言之,要想得到有效的算力,不僅需要大量高性能的GPU算力芯片,還需要將這些芯片通過高效的網絡有機的組合起來,協同工作。不妨稱之為算力乘法定律:有效算力=算力x網絡,缺一不可。

圖片.png

之前我們做過一個比喻:如果把CPU比做大腦、那么GPU就好比是肌肉、而就是神經中樞。CPU承載了應用生態,決定了計算系統是否可以通用,GPU提供了大量不同精度要求的算力,決定了系統是否有足夠的力量”,負責數據在各種CPU和GPU之間高效流通,決定了系統是否能協同工作。DPU就是構建數據網絡的根結點”,掛載了各種計算、存儲資源的葉節點”,無論這些處理器核是真實的物理核,還是虛擬化的核。現在看來,這個比喻是越來越反映出當前算力底座的發展趨勢。當前無論是Scale-Out,還是Scale-Up,目的都是讓系統中的GPU能協同工作。

圖片.png

三、超并行的GPU/NPU架構

首先,在計算層面,從一個簡單的PE,最后構建為一個超節點的過程,技術路線很清晰。比如,假設一個PE理想情況下每個時鐘周期可以完成128個INT8的MAC(乘累加)操作,每128個PE組成一個Group,每8個Group組成一個Cluster,一顆芯片由4個Cluster組成,總計有4096個PE,所以每個時鐘周期的峰值性能就是512K個操作,假設系統運行主頻為1G,那么芯片的峰值性能就是512Tops/s @INT8——基本就是現在的主流AI算力芯片的標稱性能。

顯然,實際性能受限于算法的在執行過程中的變化和數據依賴,不可能每個時鐘周期都能填滿所有的PE,因此一定會低于、甚至遠低于標稱性能。如果這個性能差異過大并且穩定的存在,那說明架構的設計就不夠優化。然而設計一個理想的PE、PE陣列其實并不容易。難點主要不在于PE設計本身,而是在于PE是否能與應用程序的指令流適配,而這很多時候就會面臨是“雞生蛋”,還是“蛋生雞”的問題,而且這個問題的答案很大程度上決定了相應的存儲層次,訪存帶寬等關鍵指標的設計。限于篇幅,這里就不再展開了。但是有一點是確定的,那就是單芯片的算力要求越高,PE的數量規模就一定越大,隨之片上存儲器諸如HBM的容量就必須要越大,訪問這些存儲的帶寬要求也就越高,出入芯片的IO帶寬也必然越高。一個經驗規則就是“10倍率定律”,內部HBM訪存的帶寬,是IO帶寬的10倍,PE間的互連網絡的對分帶寬是HBM帶寬的10倍。例如,如果芯片的IO帶寬是800Gbps,那么對應的HBM的帶寬應該是8Tbps量級。可以大體作為一個參考。

四、AI網絡催生DPU芯片的大發展

顯然,計算芯片這個“巧婦”沒有數據的“米”也難為之炊,而這些“米”就是數據,都需要通過IO獲得,特別是各種高速網絡IO,因此IO的重要性不言而喻。數據分析表明,在過去的10年,IO的性能指標的發展速度遠遠超過CPU年化性能增長的速度,但是低于GPU算力增長的速度。可以說當前對于高帶寬IO的需求主要來自于GPU算力的提升。

圖片.png

我們來看一個最具體的案例,就是在大模型中混合專家系統MoE機制帶來的高頻All-to-All的通信需求,MoE模型在訓練與推理中通常采用專家并行(Expert Parallelism,EP),即將單個MoE層的專家分布到多張GPU上。由于EP常與數據并行(Data Parallelism,DP)結合使用,token所在的 GPU 與其路由到的專家所在GPU未必一致,因此EP需要執行兩次all-to-all 通信:在專家計算前將 token 分發至對應的GPU,在計算完成后再將結果回傳至原始 token 所在的GPU。該過程要求所有 GPU 之間進行雙向消息交換,通信開銷顯著。字節跳動的研究(CoMet)表明,在Qwen2等MoE模型的前向推理階段,約47%的時間消耗在MoE的all-to-all通信上。這個負載類型也許也是催生Scale-Up網絡的最重要的動機之一。  

在過去兩年,行業對于網絡的關注度空前上升,各種“Link”猶如雨后春筍,NVLink,UALink,EtherLink,ALink等等,其原因是AI對于網絡的需求已經不可能用原來的網絡技術通過量變來給予滿足,已經到了要觸發質變的時候。

圖片.png

通過簡單分析我們也可以看到網絡也是天然分層的架構,連接不同數據中心的網絡,和連接不同芯片IP的網絡,雖然都是為了傳輸數據,但他們在性能、確定性、擴展性、空間的跨度等指標的權衡上有著天壤之別。下圖反應了不同互聯層級中所使用的關鍵技術:從最底層用于互聯IP所使用的片上網絡和總線,到不同晶圓互聯所使用的Chiplet互聯協議,到模塊、服務器內的設備互聯的PCIe、NVLink技術,再到上層機架范圍互聯中的Scale-Up、RDMA等技術,和長距離數據中心互聯的VXLAN協議、SD-WAN技術等。我們無法將缺乏拓展性的片上網絡技術應用于數據中心網絡,也不會在芯片互聯中考慮不高效的VXLAN技術,但這些技術都是實現各層次數據傳輸的關鍵。越上層的技術網絡屬性就越明顯,越是底層的技術,IO特征就越清晰。

圖片.png

而涉及到高速IO,其復雜度非常高。相較于處理器芯片內部,只需要處理確定性的計算,而IO要處理的任務是高度不確定性的。比如,數據只要進入了處理器芯片內部,除非有硬件的故障,基本不會需要處理由數據錯誤產生的異常。但是網絡IO不同,任何類型的信道都有信噪比,都存在誤碼率,IO速率越高,處理這些非理想信道導致的異常就越具挑戰性,所以對于追求的無損網絡,是非常高技術含量的活。在此之前,大家詬病RDMA組網規模不能大,因為RDMA要求的無損網絡,一旦出現丟包重傳的情況,網絡性能就是大幅下降,甚至完全喪失RDMA高帶寬的優勢。這也是目前UEC等技術試圖解決的主要挑戰之一。

通常意義的“網絡”也是一個很大的領域,伴隨著因特網和無線通信技術的發展,傳統的通信網絡已經成為人類歷史發展最重要的基礎設施之一。當前AI模型對算力需求的急劇攀升,使得面向智算中心的高帶寬低延遲網絡也隨之成為技術發展的一個熱點,例如英偉達提出的NVLink技術。這也是計算機系統架構又一次應需求的變化而演進的經典案例。不同于傳統的基于TCP/IP的以“盡量服務”為設計原則的網絡協議,除了帶寬延遲指標不在一個數量級以外,面向AI模型的智算中心網絡需要的是確定性的“無損”網絡,典型如在超算中普遍采用的IB網絡——一種RDMA網絡。不同的網絡協議需要設計不同的網絡芯片來滿足,所以面向的芯片,也理所當然成為當下最重要的機遇之一。

五、Scale-OutScale-Up

當大語言模型(LLM)的參數量已經從千億(GPT-3)達到萬億(Kimi K2),沒有任何單一的GPU/NPU能夠容納一個完整的大型模型及其在訓練過程中產生的梯度和優化器狀態,即便模型能被勉強裝入,單個GPU/NPU的算力也無法在合理的時間內完成訓練或推理任務。將模型的訓練和推理拆分到多個GPU/NPU上協同處理成為唯一可行的路徑,網絡是實現多GPU/NPU協同計算的的剛需。

超級以太網(UEC)總結了一個AI/HPC網絡的特征圖,將ScaleUp,ScaleOut,PCIe/CXL和以太網所在系統中的位置做了一個劃分,可以作為參考。作為支撐諸如LLM分布式訓練等AI計算的核心基礎設施,其整體架構通常可以劃分為如圖所示三個主要部分:前端(Frontend)網絡、后端(Backend)Scale-Out網絡和后端Scale-Up網絡。前端網絡是數據中心的基礎運營網絡,負責將所有計算節點與外部世界(如互聯網用戶或存儲集群)連接起來。Scale-Out網絡的主要作用是連接計算集群內的各個服務器或超節點,普遍基于Ethernet或者InfiniBand實現。Scale-Out網絡通常與前端網絡物理隔離,以確保關鍵的計算流量不受干擾。后端Scale-Up網絡是用于服務器或超節點內加速器(XPU)的短距離高速互聯技術。設計目標上看,Scale-Up帶寬是Scale-Out帶寬的一個數量級以上。Scale-Up網絡典型代表包括 NVIDIA的NVLink、AMD的Infinity Fabric、Broadcom的Scale-UP Ethernet以及業界標準UALink等。這類網絡的特點是提供超高的帶寬(Tbps級)、極低的延遲(通常在亞微秒級別)和面向加速器的內存語義訪問能力。

當然,對于整個系統而言,當前,Scale-Up和Scale-Out都是極其重要的,我們在10年前深入的研究過針對處理器設計的Scale-Up和Scale-Out的關系問題,最后得到的最重要的結論就是二者雖然都是提升性能的手段,但是作用是不可相互替代。這個結論放在今天的AI計算架構下,仍然適用。

LLM既需要更高帶寬、更低延遲和更大規模的Scale-Up網絡,也需要Scale-Out網絡。LLM訓練和推理的效率,在很大程度上取決于通信開銷。張量并行將模型中的大矩陣運算切分到多個GPU/NPU上,每個GPU/NPU只計算矩陣的一部分,然后在后向傳播中利用諸如All-Reduce集合通信原語將梯度聚合。All-Reduce通信量大且對延遲極其敏感,如果GPU A在等待GPU B的結果,那么GPU A就處于空閑狀態,浪費了寶貴的計算資源。因此,需要超低延遲和超高帶寬的連接來最小化同步開銷。與此同時,當前熱門大模型廣泛采用混合專家架構(MoE),將GPU/NPU之間互聯的性能推向極致。MoE引入了專家并行維度,Dispatch階段需要將GPU A上的Token發送到GPU B上的專家,Combine階段需要將Token輸出結果從GPU B再送回GPU A,這兩個階段都需要使用All-to-All集合通信原語。All-to-All通信過程中,每個節點都需要和集合中的其他節點交換數據,其性能直接取決于網絡對分帶寬。在Scale-Up網絡內部 (例如單個DGX H100節點內的8個GPU),GPU之間通過NVLink Switch連接,每個GPU可以通過900GB/s的NVLink訪問節點內的7個GPU,延遲為亞微秒,All-to-All速度極快,幾乎沒有瓶頸。但是如果需要跨越到Scale-Out網絡,則通信必須經過50GB/s的RDMA網卡,延遲上升到數微秒級。All-to-All要求每個參與者都能高效地與其他所有參與者通信。這種全員參與”的模式對網絡拓撲的一致性和低延遲有極高的要求。Scale-Up網絡提供了可預測的低延遲路徑。而規模龐大的Scale-Out網絡拓撲更復雜,延遲抖動和擁塞的可能性更大,對All-to-All這種全局同步操作的負面影響也更大。因此,為了維持MoE模型的訓練效率,必須盡可能地將參與All-to-All的專家放置在同一個Scale-Up域內。

六、Scale-Up的共性技術

國內外主流方案,無論是NVIDIA的封閉生態NVLink,還是UALink、Broadcom SUE等開放標準,均展現出鮮明的共性。

1)超高帶寬與超低延遲:所有Scale-Up技術的核心目標完全一致:為LLM訓練中對通信極其敏感的集合通信原語(如All-Reduce和All-to-All)提供極致性能。它們的帶寬目標普遍在Tbps級別,XPU-XPU延遲目標則追求亞微秒級別,從而最大限度地減少XPU的等待時間,提升計算效率。

2)支持面向XPU計算核心的內存語義訪問:這是Scale-Up技術與傳統RDMA網絡的關鍵區別。幾乎所有方案(NVLink, SUE, UALink, UB-Mesh, EthLink等)都支持內存語義,允許一個XPU的計算核心直接對另一個XPU的顯存進行load/store/atomic操作,如同訪問本地內存。這省去了傳統RDMA需要的數據拷貝-計算”流程,實現了計算在遠端”,極大降低了訪存開銷和延遲。

3)主流采用單跳(Single-Hop)全連接交換拓撲以及Mesh拓撲:為實現域內任意兩個XPU間可預測的、均一的低延遲,基于交換機的單跳全連接(Non-blocking Fully-Connected Crossbar)拓撲成為事實上的主流選擇。無論是NVIDIA自DGX-2以來采用的NVSwitch方案,還是Broadcom SUE和UALink規范首選的Single Hop Switch”拓撲,其核心思想都是通過中心交換層,讓任意XPU到另一XPU的通信都只需一跳”,避免了多跳帶來的延遲抖動和擁塞。

4)內置的可靠傳輸機制:高速互聯必須保證數據的完整性和可靠性。所有Scale-Up方案都在協議棧的不同層次內置了可靠性機制。這包括物理層的前向糾錯(FEC),數據鏈路層的鏈路級重傳(LLR),信元流控(CFBC)和網絡層的Go-back-N、ACK/NAK機制和CRC校驗。其中物理層和鏈路層可靠傳輸和完整性機制普遍依賴于最新以太網,網絡層則專屬于Scale-Up協議。

5)與計算單元的緊密硬件集成:Scale-Up互聯并非簡單的外部網卡,而是與XPU芯片緊密集成的片上系統的一部分。

七、DPU變形記

業界很多人一直DPU當作一顆新型芯片來看待,這個觀念直到現在仍然是這樣。所以在去年,我們借K2Pro芯片發布的時機做了一次發聲,主題就是“重新定義DPU”,背后核心邏輯就是應該把DPU當作網絡側的載體,作為連接各類資源的代理,無論是真實的物理資源、還是軟件虛擬的資源。業內普遍的理解DPU是通過下面這個邏輯圖:即SmartNIC包括了NIC,而DPU包括了SmartNIC,所以DPU就是超級網卡,SuperNIC。

圖片.png

這個觀點有其合理性,但是只反映了DPU的廣度,不反映深度。DPU不僅僅是NIC,SmartNIC發展的延續,而是為了適應AI原生、云原生的創新產品。比如從廣度而言,DPU既可以支持云原生網絡里的OVS,存儲卸載、彈性裸金屬服務器等應用,也可以支持網絡底層的無損網絡,自定義流控算法,安全加密算法卸載等。但是,當前的一些網絡,是有專用屬性的,正所謂Domain-Specific Networking,需要與應用深度的結合,比如Scale-Up網絡就可以被視為一種專用網絡連接各種XPU,自然需要一種DPU的變體來支持。我們認為大體有三種DPU的變體:

1)DPU-Endpoint:DPU作為獨立的設備,內置于服務器中,連接在服務器內部的高速總線上,比如PCIE。這也是當前DPU最常見的一種呈現方式。DPU-Endpoint的功能是傳統NIC的延伸,在增加帶寬的同時,增加了大量的應用卸載能力。可以說DPU-Endpoint就是把原來的被動響應的NIC變成了一個主動配合網絡的IO服務器,因此在涉及網絡數據的計算、網絡協議、存儲協議、安全機制等維度給予了系統極大的靈活性和優化空間。

2)DPU-Switch:DPU作為數據交換的中心,配合DPU-Endpoint構造全連接的單跳無損網絡拓撲。高速網絡發展的一個技術趨勢是Smart Edge,Dumb Core”,這里Edge指服務器,或者更確切來說就是網絡IO設備,而Core指核心交換機,就是交換設備。意思是Edge端要承擔更多的任務,解決業務復雜度的問題,而交換端要極其高效,解決高基(High-Radix)組網的問題——這才能高效地滿足當前大模型算力對于大帶寬、低延遲、無損網絡的需求。

3)DPU-Phy:DPU與算力芯片融合,作為算力芯片組網的直接出口。傳統的算力芯片的高速IO主要有兩類:PCIE和DDR,前者用于和宿主服務器交互數據,后者直接連接大容量DDR存儲器。顯然,這些都是不具備組網條件的IO,而DPU可以作為高速的網絡IO,天然具備組網的條件,與大算力芯片集成,可以直接連接交換機。這個目前在博通提出的Scale-Up網絡協議SUE里得到了直接的體現。這不僅可以節省系統成本,還破解了PCIE等高速總線的瓶頸,開辟了全新的獨立后端網絡。

八、立足當下,用產品迭代開拓DPU的廣闊前景

DPU的出現就是為了將高速IO的數據處理整合到一套體系化的數據流處理架構中,并且繼承SDN等軟件定義技術的協議無關性和應用無關性,做到通用和可獨立演進。DPU從誕生之初,就帶著網絡基因,并且天生傾向于通過數據加速處理來優化系統的性能,通過全棧協議支持對CPU屏蔽網絡的多樣性和網絡傳輸天然的不可靠性。當前國際上DPU的代表性廠商AMD、NVIDIA、Intel、Marvell等,這些廠商都把DPU當作一條重要的產品線來對待。但凡之前涉及到高速網絡業務的廠商,大都會斥巨資投入DPU的研發或并購DPU。國內的字節跳動也披露自研DPU,2024年投入了800億元在相關的研發上,預計后續2025年投入還將翻倍,將DPU與GPU結合使用,自研虛擬化技術,VPC內同時支持TCP和RDMA的虛擬NIC技術,自研了vSwitch,相較于OVS,PPS提升3倍多,單機包轉發性能達到5000萬包每秒,延遲低至20微秒。這些優勢都是深入結合DPU技術才能做到。

最后介紹一下馭數當前的產品情況。中科馭數聚焦于高速網絡數據處理芯片的研發,旨在解決計算節點間遠程資源訪問本地化、硬件資源虛擬化、數據安全內聯化、系統運維一體化過程中所面臨的挑戰。隨著AI時代對算力的爆發式需求,通用計算、智能計算、高性能計算走向融合,在平臺層面云原生疊加上AI原生,使得對網絡的核心需求已經不僅是互聯互通,而是網絡與計算一體化、即算網融合”發展。DPU在繼承傳統網卡功能的基礎上,承載AI原生和云原生衍生的核心需求,以極高的性價比和網絡線速處理能力來解決數據傳輸帶寬、延遲、運維、安全等核心問題。為了適應并推動這個計算機體系結構的變革,中科馭數自主研發了通用DPU的芯片架構,在繼承傳統網絡處理器的基礎上創新了針對 AI 和云原生場景下的低時延、高帶寬屬性和靈活的應用卸載能力,其傳輸層兼容以太網,可以平滑切入廣泛的應用場景,基于DPU芯片開發了面向四個場景的產品線(可以通過馭數的官方主頁來了解這些產品的具體情況):

1)符合行業標準的的高性能網卡,特點是通用性,為國產的高端服務器提供媲美英偉達和英特爾的同類高性能網卡產品,并針對國產CPU 進行深度優化。當前主力產品是FlexFlow 2200T。

2)面向金融行業的超低時延網卡和超低時延計算開發平臺,特點是亞微秒級的回環時延,為電子交易場景提供極致的數據鏈路,產品性能對標證券期貨行業內主流使用標桿Solarflare的方案,當前主力產品是Swift 2200N、2502N,NDPP X500、X1100、X3000。

3)面向云原生網絡的數據流卸載的網卡,特點是靈活的數據流處理,包括高效的流表卸載、虛擬轉發卸載、Hypervisor 卸載等靈活的功能,相當于在服務器側的網卡上再生”一個輔助專用服務器。當前主力產品是Conflux 2200E、2200P。

4)面向AI集群的后端網絡網卡,特點是支持 Scale-Out 的高性能 RDMA網卡和支持 Scale-Up 的高性能網卡,前者兼容 RoCE 協議,后者將支持基于各種GPU構造算力的超節點。當前主力產品是FlexFlow 2200R。

以上產品傳輸數據帶寬覆蓋25G、40G、100G、200G,同時兼容X86平臺和國產主流CPU和操作系統,可廣泛適用于云數據中心、智算中心、金融計算、5G邊緣計算、高性能計算、高速存儲等場景。部分產品的競爭力已經可以與國外產品對標,甚至在一些細分場景上還有優勢,但也必須承認整體競爭力與國外廠商還有一定差距。從整體市場趨勢看,需求側將會持續強勁,中科馭數有望在這個階段抓住機會,實現跨越式發展,為國產算力平臺補上 DPU 芯片這個短板。

(本文節選自鄢貴海博士在新一代計算標準工作委員會主辦的“新一代計算產業大會”上的報告內容。)


關鍵詞: DPU AI網絡

評論


技術專區

關閉