AI存儲(chǔ)的下一步:GPU發(fā)起和CPU發(fā)起存儲(chǔ)
人工智能就是關(guān)于二分法的。針對(duì)訓(xùn)練和推理工作負(fù)載,開發(fā)了不同的計(jì)算架構(gòu)和處理器。在過去兩年里,規(guī)模擴(kuò)大和規(guī)模擴(kuò)展網(wǎng)絡(luò)逐漸出現(xiàn)。
很快,存儲(chǔ)也會(huì)有同樣的變化。
人工智能基礎(chǔ)設(shè)施的需求促使存儲(chǔ)公司開發(fā)SSD、控制器、NAND等技術(shù),這些技術(shù)經(jīng)過微調(diào)以支持GPU——重點(diǎn)是更高的IOPS(每秒輸入輸出作數(shù))以進(jìn)行AI推斷——這將與CPU連接硬盤的技術(shù)有根本不同,后者更關(guān)注延遲和容量。這次驅(qū)動(dòng)分岔很可能也不會(huì)是最后一次;預(yù)計(jì)還會(huì)看到針對(duì)訓(xùn)練或推理優(yōu)化的硬盤。
與其他技術(shù)市場(chǎng)一樣,這些變化由人工智能的快速增長(zhǎng)以及同樣快速提升人工智能基礎(chǔ)設(shè)施性能、效率和總運(yùn)用成本的需求推動(dòng)。預(yù)計(jì)到2028年,數(shù)據(jù)中心內(nèi)SSD總?cè)萘繉⒎吨良s2澤字節(jié),主要增長(zhǎng)得益于人工智能。1到那一年,SSD將占數(shù)據(jù)中心硬盤安裝基數(shù)的41%,高于2023年的25%。1
然而,更大的存儲(chǔ)容量也可能意味著更多的存儲(chǔ)網(wǎng)絡(luò)復(fù)雜度、延遲和存儲(chǔ)管理開銷。這也意味著可能更多的電力。2023年,SSD貢獻(xiàn)了4太瓦時(shí)的數(shù)據(jù)中心電力,約占存儲(chǔ)所耗16太瓦時(shí)的25%。到2028年,SSD預(yù)計(jì)將占11太瓦時(shí),占全年存儲(chǔ)總量的50%。1雖然存儲(chǔ)占總數(shù)據(jù)功耗不到5%,但總量依然龐大,并激勵(lì)節(jié)約。即使減少1太瓦時(shí)的儲(chǔ)能功率,也少于10%,也足以為9萬戶美國(guó)家庭節(jié)省一年的電力。2在容量、速度、功耗和成本之間找到精確平衡,對(duì)AI數(shù)據(jù)中心運(yùn)營(yíng)商和客戶來說至關(guān)重要。創(chuàng)建不同類別的技術(shù)是優(yōu)化產(chǎn)品以可擴(kuò)展性的方式的第一步。
想到存儲(chǔ)時(shí),最初的沖動(dòng)是按照熟悉的流程來劃分,比如訓(xùn)練和推理,或者放大和擴(kuò)展。存儲(chǔ)類型之間的分界線最終根植于由AI工作負(fù)載驅(qū)動(dòng)的處理器,即存儲(chǔ)負(fù)載由GPU或CPU發(fā)起。GPU發(fā)起的存儲(chǔ)通常與推理工作負(fù)載相關(guān)聯(lián),CPU發(fā)起的存儲(chǔ)與訓(xùn)練相關(guān)聯(lián),但并非總是如此。GPU和CPU發(fā)起的存儲(chǔ)請(qǐng)求可以從本地SSD或遠(yuǎn)程SSD中的數(shù)據(jù)請(qǐng)求開始。數(shù)據(jù)流是雙向的。關(guān)鍵問題依然是哪個(gè)處理器發(fā)起請(qǐng)求。

GPU/CPU存儲(chǔ)架構(gòu):GPU或CPU可以訪問本地或遠(yuǎn)程SSD來發(fā)起存儲(chǔ)請(qǐng)求。
GPU發(fā)起的存儲(chǔ)
在每個(gè)擴(kuò)展型AI環(huán)境中,多個(gè)SSD(目前最多八個(gè))通過PCIe總線直接連接到GPU(目前最多四個(gè)),位于PCIe交換機(jī)后面。GPU在圍繞內(nèi)存語義構(gòu)建的SCADA框架內(nèi)發(fā)起存儲(chǔ)事務(wù)。
對(duì)于AI推理工作負(fù)載,GPU需要處理超過一千個(gè)數(shù)據(jù)密集型并行線程,這通常需要較小的數(shù)據(jù)集,無法以所需速度獲取這些數(shù)據(jù)集會(huì)導(dǎo)致昂貴的GPU周期被低估。
當(dāng)前一代SSD無法擴(kuò)展小于4KB的數(shù)據(jù)集的IOPS,導(dǎo)致PCIe總線被低估,導(dǎo)致GPU數(shù)據(jù)匱乏,浪費(fèi)周期。目前,這通過部署更多并行SSD來實(shí)現(xiàn),這不僅增加了系統(tǒng)成本,還增加了功耗,同時(shí)仍無法實(shí)現(xiàn)目標(biāo)性能。為解決這個(gè)問題,NVIDIA提出了“Storage-Next”架構(gòu),要求PCIe 7.0 SSD運(yùn)行1億IOPS。3
閃存媒體供應(yīng)商正在研發(fā)更快的低延遲NAND媒體,但更大、更深遠(yuǎn)的變革將發(fā)生在閃存存儲(chǔ)控制器領(lǐng)域,Marvell已成為其領(lǐng)先地位。這些新型閃存控制器不僅需要加速器功能,還需要針對(duì)較小有效載荷的最佳糾錯(cuò)方案。鑒于Marvell在加速器、多NAND支持和先進(jìn)DSP能力方面擁有強(qiáng)大的產(chǎn)品組合,公司在滿足下一代AI存儲(chǔ)的高性能需求方面處于有利位置。
CPU發(fā)起的存儲(chǔ)
在CPU啟動(dòng)的存儲(chǔ)環(huán)境中,工作負(fù)載通常用于AI訓(xùn)練,GPU并行線程數(shù)量遠(yuǎn)少于數(shù)萬對(duì)數(shù)千,數(shù)據(jù)集規(guī)模更大。對(duì)于更大的數(shù)據(jù)量和IOPS,GPU的PCIe總線可以充分利用,4KB IO和700萬IOPS的PCIe 6.0固態(tài)硬盤可實(shí)現(xiàn)28GB/s吞吐量。4但由于存儲(chǔ)位于網(wǎng)絡(luò)后方,數(shù)據(jù)延遲需要改進(jìn)。這種延遲也由以太網(wǎng)到PCIe存儲(chǔ)層的轉(zhuǎn)換貢獻(xiàn)。
然而,最顯著的變化將圍繞能夠同時(shí)處理PCIe和以太網(wǎng)流量的硬盤展開。與云時(shí)代不同,競(jìng)爭(zhēng)性的網(wǎng)絡(luò)協(xié)議很可能在許多環(huán)境中并存,就像Marvell已經(jīng)大量出貨的許多網(wǎng)絡(luò)和處理產(chǎn)品一樣。
以下是GPU發(fā)起存儲(chǔ)與CPU發(fā)起存儲(chǔ)主要區(qū)別的總結(jié):

進(jìn)一步變更
優(yōu)化和定制肯定會(huì)持續(xù)進(jìn)行,超出上述范圍。無論是用于擴(kuò)展還是擴(kuò)展網(wǎng)絡(luò)的AI訓(xùn)練驅(qū)動(dòng)器,都將針對(duì)計(jì)算密集型環(huán)境進(jìn)行微調(diào),而高IOPS驅(qū)動(dòng)器則將被推理工作負(fù)載需求。預(yù)計(jì)未來將會(huì)有與高帶寬閃存或CXL網(wǎng)絡(luò)接口的工作。硬盤也將經(jīng)歷類似的轉(zhuǎn)變。
也許最準(zhǔn)確的預(yù)測(cè)是,在追求更好人工智能基礎(chǔ)設(shè)施的過程中,存儲(chǔ)價(jià)值鏈的每一個(gè)環(huán)節(jié)都將被挖掘以獲取收益。
勞倫斯伯克利國(guó)家實(shí)驗(yàn)室數(shù)據(jù)中心能源使用報(bào)告,2024年12月。
能源信息署。美國(guó)家庭平均每年消耗10,791千瓦時(shí)。十億千瓦時(shí)等于一太瓦時(shí)。
TechRadar,2025年6月。
馬維爾估計(jì)。













評(píng)論