終極3D集成,將顛覆未來的GPU
打開AMD或英偉達最先進的AI產品封裝,你會發(fā)現一個熟悉的布局:GPU兩側是高帶寬內存(HBM),這是目前最先進的內存芯片。這些內存芯片盡可能靠近它們所服務的計算芯片,以減少AI計算中最大的瓶頸——將每秒數十億比特的數據從內存?zhèn)鬏數竭壿嬰娐匪璧哪芰亢脱舆t。但是,如果將HBM堆疊在GPU頂部,進一步拉近計算和內存的距離,又會怎樣呢?
圖中較大的黑色方塊是連接到AMD Instinct MI300X GPU 邏輯芯片的高帶寬內存[中心]。 來源:AMD
Imec近期利用先進的熱模擬技術研究了這種情況,并在2025 年 12 月舉行的 IEEE 國際電子器件會議(IEDM) 上公布了結果,結果令人沮喪。3D堆疊會使GPU 內部的工作溫度翻倍,導致其無法正常工作。但由 Imec 的James Myers領導的團隊并沒有就此放棄。他們找到了一些工程優(yōu)化方案,最終可以將溫差降低到幾乎為零。
2.5D和3D先進封裝
Imec 首先對一個 GPU 和四個 HBM 芯片進行了熱模擬,模擬的是目前常見的封裝形式,即所謂的 2.5D 封裝。也就是說,GPU 和 HBM 都位于稱為中介層的基板上,彼此之間的距離非常小。這兩種芯片通過集成在中介層表面的數千個微米級銅互連線連接。在這種配置下,模型GPU 的功耗為 414 瓦,峰值溫度略低于 70°C——這是處理器的典型溫度。內存芯片的功耗約為40 瓦,溫度略低一些。熱量通過封裝頂部的液冷散熱,這種液冷方式在新型AI數據中心中已十分常見。
“雖然目前仍在采用這種方法,但它未來的擴展性并不理想——尤其因為它會遮擋GPU的兩側,限制封裝內部GPU之間的連接,”Imec高級研究員陳宇凱在IEDM大會上告訴工程師們。相比之下,“3D方案可以帶來更高的帶寬、更低的延遲……最重要的改進在于封裝尺寸?!?/p>
不幸的是,正如陳和他的同事們發(fā)現的那樣,最直接的堆疊方式,即簡單地將HBM芯片放在 GPU 頂部,并在中心添加一塊空白硅來填補空隙,會導致 GPU 的溫度飆升至驚人的 140°C——遠遠超過典型 GPU 的 80°C 限制。
系統技術協同優(yōu)化
Imec團隊著手嘗試一系列旨在降低溫度的技術和系統優(yōu)化方案。他們首先嘗試的是去除一層多余的硅片。要理解其中的原因,首先必須了解HBM究竟是什么。
這種內存由多達12 個高密度DRAM芯片堆疊而成。每個芯片都薄至幾十微米,并布滿了垂直連接。這些薄芯片彼此堆疊,并通過微小的焊球連接,而這堆內存又垂直連接到另一塊硅片,稱為基片。基片是一個邏輯芯片,用于對數據進行多路復用,并將數據壓縮到數量有限的導線中,這些導線能夠穿過毫米級的間隙連接到GPU。
但由于HBM 現在位于 GPU 頂部,因此不再需要這樣的數據泵。數據位可以直接流入處理器,而無需考慮芯片側面有多少根導線。邁爾斯表示,當然,這一改變意味著要將內存控制電路從基礎芯片移到 GPU 中,從而改變處理器的布局。但他認為應該有足夠的空間,因為 GPU 不再需要用于解復用傳入內存數據的電路。
去掉內存這個中間環(huán)節(jié),溫度只降低了不到4 攝氏度。但重要的是,它應該能大幅提升內存和處理器之間的帶寬,這對于團隊嘗試的另一項優(yōu)化——降低 GPU 速度——至關重要。
這似乎與提升人工智能計算能力的初衷背道而馳,但在這種情況下,這反而成為一種優(yōu)勢。大型語言模型屬于所謂的“內存密集型”問題,也就是說,內存帶寬是主要的限制因素。但邁爾斯團隊估計,在GPU上采用3D堆疊HBM技術可以將帶寬提升四倍。有了這額外的性能提升空間,即使將GPU時鐘頻率降低50%,仍然能夠帶來性能提升,同時還能將溫度降低20攝氏度以上。實際上,處理器可能不需要降低這么多。邁爾斯表示,將時鐘頻率提高到70%只會使GPU溫度升高1.7攝氏度。
優(yōu)化的HBM
溫度大幅下降的另一個原因是提高了HBM堆疊層及其周圍區(qū)域的導熱性。這包括將四個堆疊層合并成兩個更寬的堆疊層,從而消除一個散熱區(qū)域;減薄堆疊層頂部通常較厚的芯片;以及用空白硅片填充HBM周圍的更多空間以增強導熱性。
經過上述所有措施,堆疊芯片的運行溫度約為88°C。最終的優(yōu)化使溫度降至接近 70°C。通常,芯片約 95% 的熱量是從封裝頂部散發(fā)的,在本例中,頂部由水帶走熱量。但如果在底部也采用類似的冷卻方式,堆疊芯片的溫度最終會再降低 17°C。
Myers表示,盡管在IEDM上展示的研究表明,GPU搭載HBM內存或許可行,但這未必是最佳選擇。“我們正在模擬其他系統配置,以幫助我們確定這是否是最佳方案,”他說道?!癎PU搭載HBM內存引起了一些業(yè)內人士的興趣,”因為他認為這種方式能讓GPU更靠近散熱系統。但這很可能是一個更復雜的設計,因為GPU的電力和數據必須垂直流經HBM才能到達GPU。



評論