AI構建讓高性能計算模擬更具挑戰性
半導體和系統的仿真變得越來越龐大、復雜且越來越必要,這反映了硬件本身發生的一切——尤其是在人工智能數據中心中。
從單片芯片轉向多芯片組件,現在需要解決一些棘手的多物理難題,比如熱成像以及功率傳輸,這些數據越來越難以準確建模。例如,高帶寬內存中的多層信號路由需要額外的仿真。驗證整個系統的功能,包括不同集成子系統之間的交互,比驗證單個芯片更具挑戰性。
這些工作大多發生在設計的前沿,SRAM 擴展放緩,邏輯擴展已無法帶來足夠的性能提升。晶體管數量更多,但也有各種技巧被用來加快數據在內存和處理元件之間的傳輸,以及通過預處理減少需要移動的數據量。
仿真必須適應所有這些情況,并且必須足夠快速地完成以滿足生產進度。但主要有三個問題:
高性能計算系統的內存容量和帶寬未能跟上處理器性能的提升,這為許多仿真應用帶來了數據瓶頸。
多核和基于加速器的高性能計算架構需要復雜的并行編程。這需要對算法進行重大調整,而優化起來可能具有挑戰性。
雖然AI/ML旨在加速仿真,但它增加了另一層復雜性。由于實驗數據有限且生成高質量數據集的成本高昂,訓練準確的半導體行為AI模型可能很困難。
Cadence戰略與新業務高級集團總監Rob Knoth指出:“這項模擬挑戰源自Cadence首席執行官Anirudh Devgan今年五月的觀察,他說:”為AI設計,為設計AI。”“關鍵是我們行業內所有人都在幫助構建人工智能基礎設施,這很難。這些系統的復雜性以及部署和開發下一代所需的時間限制令人頭腦發麻。當然,這會很難。這一直很難。為什么現在會容易?“設計中的人工智能”是唯一的亮點。我們正在構建這些由極其復雜的芯片組成的系統,這些都是我們過去從未嘗試過的。我們正拼命努力打造這些極其復雜的計算系統。然后我們用這些系統設計下一代產品。這讓我們幾代人都能拿到工資。在很多方面,故事并沒有改變,但卻更加深刻和演變。有新的參與者,新的災難和緊急情況,還有我們必須應對的新問題。”
而這一切都發生在人工智能基礎設施快速建設和產品周期加速的背景下。“做這些邊境模型,一切都變得越來越難,所需的計算量也非常龐大,“諾斯說。“如果你看訓練所需的能量邊境模型,這和現在單個數據中心的消耗量相當于美國一個大城市的情況。這對里面發生的事情意味著什么?最先進的AI處理器,使這些子系統能將目線尺寸擴大三倍以上?計算量很大。他們預測事情將走向這個方向。如果你看得更遠,會發現有晶圓(SoW)系統,硅片尺度基底尺寸超過40倍,這正是復雜性所在。當我們開始思考系統架構、實施、集成和分析真正涉及的內容時,這令人望而生畏。當然,它們都是3D-IC的。”
還有設備層面的因素使仿真更難。“如果某些東西需要時間太長,因為細節過多,模擬起來就很難,”弗勞恩霍夫IIS/EAS設計方法論部門主管Roland Jancke指出。“對于模擬來說,問題總是,'什么是好的抽象層次?你能跳過多少信息,因為它們與當前問題無關?又能抽象多少以加快模擬?”這始終是模擬任務的關鍵。”
此外,難以模擬的原因是建模的難度。“你需要更多地建模,而且必須建立準確的模型才能做到這一點,”邁克爾·蒙西說,惡習西門子EDA半導體行業總裁。“在半導體領域,我們對處理器的虛擬化方式極大地促進了在流程早期進行更多仿真。我們必須創造那種虛擬化技術。否則,我們就會被困在模擬、開發RTL和運行軟件的領域里。必須開發出新技術來模擬這些情況。所以,當我們看到更大、更復雜的系統時,關鍵在于擁有高保真度模型的能力,能夠代表系統的每個部分。當你看整個產品時,有些東西比其他部分更先進,更容易數字化。這正是讓模擬變得更加困難的原因。”
規模在這里起著關鍵作用。系統越大越復雜,比如汽車,包含所有集成功能,建模和仿真就越困難。“模型變得如此龐大,你需要能夠將它們抽象化,以便將它們納入足夠的計算能力進行實際模擬,”芒西說。“帳篷的長桿是能夠數字化的。你們是否用更大的數字孿生來實現你們想要的完整系統級仿真?”
速度也一樣。一切都在加快,無論是產品周期還是設備或系統內部的信號。這需要更多電流,也會產生更多熱量。“此外,電磁仿真還能給你局部加熱等信息,然后你還可以做物理學熱成像“,這是另一組物理方程,”Ansys(現為Synopsys一部分)產品管理總監Matt Commens說。“你可以把從電磁模擬中提取的源,帶到一個熱成像分析,并對芯片可能耗散的瓦數和熱量做一些局部假設,你可以用這些來獲取熱成像模擬。只是隨著東西越來越緊湊,一切都變得更難,隨著進展加快,沒有免費的午餐,所以工程師總是得自己應付。關鍵在于他們能承受多大的利潤率。仿真的一個特點是,如果你有良好的仿真,可以設計到極限。如果模擬不好,必須加一些填充,你會失去空間,也會失去功能。因此,處于前沿的公司正在推動仿真業務的規模擴大。他們希望盡可能嚴謹地提取系統的更大部分。在我們這邊,我們被要求利用這些高性能計算(HPC)技術,而最新一代GPU在很多方面改變了游戲規則。”
有時CPU在高性能計算領域依然很有價值。“這取決于你用什么技術來加速仿真,并行化仿真過程中不同層級結構,”Commens說。“利用這些不同的硬件,真是一場平衡藝術。”
前沿節點的挑戰
3nm及以下芯片的仿真挑戰各有其獨特的問題。Quadric首席市場官Steve Roddy表示:“我們關注的是處理晶體管層面埃級物理效應中新興仿真問題的現實且緊迫的挑戰。”“正確的電路級行為需要理解越來越多簽字角(針對不同電壓和頻率工作點等)的所有器件物理效應,但同時也需要從那些經過驗證的舊有門級模擬中提升到更高層次,因為這些模擬運行時間過長。理解芯片的整體行為狀態——在不同場景下有多少塊處于激活狀態和切換——是設計合適的電網和時鐘樹的關鍵。在擁有100億門設備的時代,構建模塊需要通過高水平但周期準確的仿真,如基于周期的指令集模擬器(ISS)針對處理器進行單獨的電源和開關活動表征。”
一個包含CPU、GPU、DSP和AI NPU的復雜芯片,可以將所有擁有功耗精確ISS的處理器連接起來,在更大的系統仿真中進行模擬。羅迪說:“這樣的SystemC芯片級仿真可以告訴設計師在各種使用場景下每個模塊的電源狀態,從而實現電網的合理化規模,而無需總是為所有同時經歷最壞情況活動的元件設計。”“顯而易見的結論是,設計團隊應盡量避免部署缺乏高級仿真能力的大型超級門邏輯模塊。”
然而,抽象細節和創建模型并非普遍技能。“并非所有人今天都掌握如何做這些,”Fraunhofer的Jancke說。“開發者自己知道問題所在,知道需要解決什么,需要實現什么。但他們不一定是仿真方法論和建模方法的專家。我們認為需要在這方面更有知識,才能擁有高效的模型和高效的仿真。有時他們使用模擬器是因為它免費,可以從互聯網開源獲取,卻不明白自己使用的仿真層次完全錯誤。這就是為什么公司需要更多知識,牽著開發者的手,傳授他們仿真原理的知識。”
這些技能通常是在工作中學到的。“在德累斯頓,這項技術不開設,”揚克說。“遺憾的是,這不在電氣工程課程中。也許機械工程中,他們會從背景中學到一些模擬器知識,了解它們的工作原理、不同的原理和仿真工具,但如今在課程和大學中很少見到這些內容。”
隨著新挑戰的出現,這一技能差距正在擴大,但這只是問題的一部分。大規模實施先進仿真策略存在基礎設施和實際障礙。

圖1:人工智能基礎設施挑戰。來源:Cadence
“我們知道處理器本身每代功率提升1.5倍,甚至可能達到3倍,”Cadence的Knoth說。“這意味著分析變得至關重要,優化更是關鍵。在仿真方面,挑戰在于我們看到每個鏈路在芯片之間超過4TB每秒。所以現在你必須開始考慮每一顆芯片都涉及光子學,這意味著很多簡單性和你通常會做的假設都被拋諸腦后了。模擬的規模變得更加復雜。芯片的功耗越來越高,每顆芯片投入的處理能力也都越來越多,這意味著功率密度變得非常高。水冷是默認的。所以我們不僅有熱量和光,現在還有流體在這些系統中流動。我們不斷增加模擬本身的規模和復雜度。然后我們進入最后一個維度——時間——這很有趣,因為時間是第四維度。在這里,不僅你的工作更難,你還得更快完成。”
技術策略
每個組件、每個信號和每個系統都需要加快速度。為了最大化為高性能計算設計的SoC的性能,編譯和仿真/運行階段均采用并行性。
Synopsys首席產品經理Taruna Reddy指出:“通過利用機器中或網格中可用的多核,可以實現顯著的性能提升。”“模擬器長期以來就融合了有效利用這種并行性的技術。同樣,面向高性能計算(HPC)的SoC架構趨勢是向多芯片或芯片組設計的轉變。這些集成系統由多個芯片封裝在一起,作為SoC使用,具有可擴展性、高帶寬和能效等優勢。該方法涉及獨立制造的芯片,并通過先進的通信結構相互連接。然而,驗證這些復雜系統的正確性和功能性存在重大挑戰。傳統的仿真方法,無論是內部還是外部,在性能和容量方面常常難以實現充分的擴展。”
分布式仿真技術是一種選擇,因為它們使大型多芯片仿真能夠通過多個參與的可執行文件,作為更小、易于管理的組件來執行。Reddy解釋道:“在為AI數據中心行業量身定制的高性能計算SoC背景下,由于復雜的數據路徑,導致時序異常的普遍性增加。”“這些時序異常通常在驗證周期后期的門級仿真中驗證,導致覆蓋率較低。這種延遲的驗證過程可能導致被攻破硅質量。通過在RTL階段更早驗證這些約束,可以使用模擬器實現更高的覆蓋率,從而有效解析約束文件。”

圖2:RTL中異常驗證的需求。來源:Synopsys
雖然人工智能被用于解決仿真覆蓋關閉等挑戰,但Reddy指出,未來如何進一步利用AI提升原始性能并促進漏洞早期檢測將非常有趣。
結論
在這些日益嚴峻的挑戰中,認識到塑造行業的更廣泛視角非常重要。盡管技術障礙看似艱巨,但創新的動力依然存在,推動個人和組織走向新的方向邊境.這種決心和樂觀情緒反映在專家們對超級計算和人工智能基礎設施未來的態度上。
“超級計算機就是希望,”諾斯說。“你用這臺機器做的是之前幾代機器無法實現的物理學,所以如果我們從這四個維度看問題,它可怕嗎?也許吧。但這真的是無望的嗎?不。這為我們打開了巨大的機遇,因為當我們談論抽象層級時,這正是電子設計自動化能夠實現世代生產力進步的根本因素之一。我們不再手動推多邊形了。我們甚至不再手工放置標準電池。我們能夠提升的抽象層級允許每位工程師設計更大、更復雜的系統,同時軟件也能在其抽象化的范圍內開始做更好的優化。所以現在我們的世界不再只在芯片、封裝、PCB甚至數據中心的邊界開始和結束,這意味著我們將能夠優化破解問題,這正是希望所在。”
諾斯表示,他能理解人工智能帶來的機會。“我能理解這聲音的來源,工程方面。例如,我們的一位研發負責人最近在一個會議上發表了一篇論文,討論了利用替代模型來加快熱成像用于3D-IC的仿真。我心想,'我能看出接下來會發生什么。'此外,LLM在某些方面非常出色和出色,我會思考它們將如何幫助人們實現。這就像從機器碼過渡到更高階語言,更多人可以開始將想法付諸實踐。這讓它變得更大。但我覺得真正的革命,就像工程本身一樣,不會來自這些高層次、更華麗的東西,而是來自一些更低層次的突破,比如一些重新出現的舊概念,比如神經網絡。我預計由于實際有原則的模擬、計算數據的結合,以及將大量高質量的物理數據與新模型訓練結合,我們會開始看到更好的物理學成果。”












評論