為什么存內計算對邊緣AI如此重要
在流行媒體中,“AI”通常意味著在昂貴、耗電的數據中心中運行的大型語言模型。但是,對于許多應用程序,在本地硬件上運行的較小模型更適合。
自動駕駛汽車需要實時響應,沒有數據傳輸延遲。醫療和工業應用通常依賴于無法與第三方共享的敏感數據。但是,盡管邊緣 AI 應用程序可以更快、更安全,但它們的計算資源要有限得多。它們沒有 TB 內存占用或有效無限的功率。
對于數據中心來說,可能有些抽象的約束對邊緣人工智能施加了硬性限制。在 2025 年 IEEE 國際內存研討會的一篇特邀論文和隨后的預印本中,ETH 計算機科學教授 Onur Mutlu 和他的同事指出,在典型的移動工作負載中,將數據移入和移出內存占總能耗的驚人 62%。內存是硬件空間的最大用戶,但內存延遲通常是執行時間的最大貢獻者。
多年來,設備擴展一直是降低功耗的關鍵,但現在卻使問題變得更糟。Mutlu 說,高度規模的 DRAM 不太穩定,需要更頻繁的刷新周期。大型內存陣列更難訪問,因為帶寬增長速度不如內存組本身。
內存中和近內存計算提供了可能的解決方案。即使是商用現成的 DRAM 也可以執行原始數據復制、初始化和按位邏輯作,前提是軟件基礎設施支持它們。
混合解決方案結合了 RRAM、鐵電
體然而,DRAM 刷新功率的問題仍然存在。在神經網絡模型中,訓練和推理任務都會重復使用存儲的權重矩陣。不過,兩者有截然不同的要求。
正如 CEA-Leti 的 Michele Martemucci 及其同事所解釋的那樣,訓練任務涉及對權重矩陣的許多小更新,因為它逐漸收斂到一個穩定的值。這些任務需要具有高寫入耐久性和存儲精確值的能力的內存。相比之下,推理使用穩定、不變的權重矩陣,但可能會多次將其應用于輸入數據。推理任務受益于具有高讀取耐久性的非易失性存儲器。在這兩種情況下,近內存計算都需要與標準CMOS邏輯工藝兼容的器件。
RRAM 是簡單的器件,依靠在氧化層中形成的導電絲來實現非常高的讀取耐久性。通過精心設計的編程方案,它們可以存儲模擬值,從而減小內存陣列的大小。根據 Martemucci 的說法,RRAM 已經足夠成熟,可以在邊緣推理情況下進行商業部署。
不幸的是,RRAM 的寫入耐久性相對較低。隨著時間的推移,編程脈沖會模糊存儲值之間的電阻差。設計人員通常使用傳統硬件訓練模型,然后將預先計算的權重加載到 RRAM 陣列中。然而,在許多應用中,邊緣設備需要能夠“學習”。要么需要針對用戶的特定要求進行訓練,要么需要修改模型以反映實際過程中的變化。
同時,鐵電電容器支持非??斓拈_關和非常高的寫入耐久性。它們可以輕松忍受訓練任務中遇到的頻繁寫入作。然而,雖然存儲值是非易失性的,但讀取作是破壞性的。Martemucci 說,這些設備不適合長期存儲權重矩陣,也不適合需要頻繁讀取作的推理任務。
將鐵電晶體管整合到 CMOS 工藝中非常復雜,需要高溫工藝和額外的掩模層。鐵電電容器和隧道結要簡單得多,允許多個研究小組將 RRAM 和鐵電結構結合起來。例如,在今年的 VLSI 技術研討會上展示的工作中,SK 海力士的研究人員展示了一種同時具有電阻和鐵電開關的混合鐵電隧道結 (FTJ)。
在傳統的 FTJ 中,頂部和底部電極之間的隧道勢壘取決于鐵電極性。SK 海力士器件在兩個電極之間夾有鐵電鉿氧化鋯 (HZO) 層,鉭層用作氧空位儲層。鉭層附近的導電絲在器件頂部提供歐姆傳導,從而減少了鐵電隧道勢壘的有效厚度。這些器件實現了精確的模擬乘法累加運算,效率高達每瓦 224.4 萬億次運算 (TOPS/W)。
在另一種混合方法中,Martemucci 的團隊結合了硅摻雜的 HfO2帶有鈦除氧層的電容器采用標準 CMOS BEOL 工藝。這些器件最初表現為鐵電電容器,其中一些接收一次性“喚醒”脈沖以穩定鐵電響應。與此同時,電容器陣列的另一部分經歷了一次性的“成型”過程,產生了氧空位的導電絲。鈦層充當氧空位儲罐,防止細絲溶解。然后,生成的憶阻器器件可以在高電阻和低電阻狀態之間切換。

圖1:金屬-鐵電-金屬堆棧既可以用作FeCAP也可以用作憶阻器。來源:CEA-Leti/知識共享許可
鐵電電容器充當二進制元件,存儲用于訓練計算的高精度權重。憶阻器以足夠的精度存儲模擬權重來執行推理任務。在訓練作過程中,憶阻器陣列每百步輸入一步后更新,而鐵電陣列則不斷更新。為標準數字識別任務訓練此結構的寫入作總數比憶阻器耐久性小 17 倍,比鐵電電容器耐久性小 75 倍,同時消耗的能量比連續更新憶阻器陣列所需的能量少 38 倍。
比神經網絡更適合人工智能雖然內存計算可以使傳統的神經網絡計算更加節能,
但它也促進了替代建模方法。例如,許多具有計算挑戰性的問題可以建模為伊辛格鏡,其中一組連接的節點共同演化到最小能量狀態。 此類現實世界的問題可能涉及數千或數百萬個連接。
解決伊辛玻璃問題是量子計算更有趣的潛在應用之一。更傳統的是,在去年的 IEEE 電子器件會議上,德克薩斯大學研究員 Tanvir Haider Pantha 和他的同事提議構建一個 3D 結構,將 FeFET 納入 CMOS 邏輯過程的 BEOL。每個節點由四個交叉耦合的 FeFET 組成,可以存儲一個有符號的模擬值,映射到所解決問題的伊辛耦合矩陣。每個節點的輸出是其鄰居節點的輸入,在整個網絡中建立振蕩,并最終達到穩定的最小能量配置。

圖2:四個交叉耦合的雙門FeFET形成相變納米振蕩器。所提出的伊辛玻璃模型每個節點使用其中一種結構。資料來源:IEDM
內存計算需要新的框架傳統的
CPU 和 GPU 是通用設備。只需更改軟件,它們就可以應用于許多不同的問題。近內存和內存加速器目前與其預期任務密不可分。伊辛玻璃求解器、點云網絡和圖像識別網絡將以不同的方式處理其數據,需要不同的硬件設計。根據 Mutlu 的說法,內存計算的下一步將需要可以重新映射內存訪問以滿足特定問題要求的軟件框架。反過來,這些框架將需要能夠獨立于外部內存控制器進行自我管理的內存硬件。









評論