用于ChatGPT的FPGA加速大型語(yǔ)言模型
探索FPGA加速的語(yǔ)言模型如何重塑生成式人工智能,帶來(lái)更快的推理、更低的延遲和更優(yōu)的語(yǔ)言理解。
引言:大型語(yǔ)言模型
近年來(lái),大型語(yǔ)言模型(LLMs)徹底改變了自然語(yǔ)言處理領(lǐng)域,使機(jī)器能夠生成類(lèi)人文本并進(jìn)行有意義的對(duì)話(huà)。這些模型,如OpenAI的GPT,擁有驚人的語(yǔ)言理解和生成能力。它們可用于多種自然語(yǔ)言處理任務(wù),包括文本生成、翻譯、摘要、情感分析等。
大型語(yǔ)言模型通常通過(guò)深度學(xué)習(xí)技術(shù)構(gòu)建,特別是使用變換器架構(gòu)。Transformer是神經(jīng)網(wǎng)絡(luò)模型,擅長(zhǎng)捕捉序列中的長(zhǎng)距離依賴(lài)關(guān)系,非常適合語(yǔ)言理解和生成任務(wù)。訓(xùn)練大型語(yǔ)言模型涉及將模型暴露于大量文本數(shù)據(jù),通常來(lái)自書(shū)籍、網(wǎng)站及其他文本資源。模型學(xué)習(xí)預(yù)測(cè)句子中的下一個(gè)詞或根據(jù)所見(jiàn)上下文填補(bǔ)缺詞。通過(guò)這一過(guò)程,它獲得了語(yǔ)法、句法甚至一定程度的世界知識(shí)。
大型語(yǔ)言模型面臨的主要挑戰(zhàn)之一是其龐大的計(jì)算和內(nèi)存需求。這些模型包含數(shù)十億參數(shù),需要強(qiáng)大的硬件和大量計(jì)算資源才能有效訓(xùn)練和部署,正如Nishant Thakur 2023年3月在LinkedIn文章《ChatGPT背后的令人震驚的處理能力與成本:打造終極AI聊天機(jī)器人所需?》中所討論的。資源有限的組織和研究人員常常面臨利用這些模型潛力的障礙,因?yàn)樵朴?jì)算所需的處理量龐大或資金龐大。此外,生成響應(yīng)時(shí)需要存儲(chǔ)的上下文長(zhǎng)度大幅增加,以創(chuàng)建相應(yīng)的詞元、詞語(yǔ)或詞的子部分,這對(duì)內(nèi)存和計(jì)算資源的要求更加巨大。
這些計(jì)算挑戰(zhàn)導(dǎo)致更高的延遲,使得LLM的采用更加困難,且不實(shí)時(shí),因此不那么自然。在本博客中,我們將深入探討大型語(yǔ)言模型所面臨的困難,并探討可能為其提升可用性和可靠性鋪平道路的解決方案。
大型語(yǔ)言模型的加速
LLM通常需要一個(gè)大規(guī)模系統(tǒng)來(lái)執(zhí)行模型,隨著規(guī)模不斷擴(kuò)大,僅在CPU上運(yùn)行已不再是成本、功耗或延遲的效率。加速器,如GPU或FPGA,可以顯著提升計(jì)算功耗比,大幅降低系統(tǒng)延遲,并在更小規(guī)模內(nèi)實(shí)現(xiàn)更高的計(jì)算水平。雖然GPU正逐漸成為加速的標(biāo)準(zhǔn),主要因?yàn)樗鼈円子谧髑乙子诰幊蹋?a class="contentlabel" href="http://cqxgywz.com/news/listbylabel/label/FPGA">FPGA架構(gòu)實(shí)際上在比GPU更低的延遲下,能帶來(lái)卓越的性能。
由于GPU本質(zhì)上是曲速鎖定架構(gòu),需在多個(gè)核心上并行運(yùn)行超過(guò)32,000個(gè)SIMT線(xiàn)程,因此通常需要批量處理大量數(shù)據(jù),以抵消曲速鎖定架構(gòu)并保持管道滿(mǎn)載。這會(huì)導(dǎo)致更高的延遲和對(duì)系統(tǒng)內(nèi)存的更大需求。與此同時(shí),F(xiàn)PGA構(gòu)建自定義數(shù)據(jù)路徑,同時(shí)執(zhí)行多個(gè)不同指令在多個(gè)數(shù)據(jù)塊上,這意味著它可以高效地在批處理大小為1的情況下運(yùn)行,這既是實(shí)時(shí)的,也大幅降低延遲,同時(shí)最大限度地減少了外部?jī)?nèi)存需求。因此,F(xiàn)PGA能夠顯著高于其他競(jìng)爭(zhēng)架構(gòu)的TOP利用率——隨著系統(tǒng)規(guī)模擴(kuò)大到ChatGPT規(guī)模,這一性能差距會(huì)進(jìn)一步擴(kuò)大。
將LLM映射到Achronix FPGA加速器
Achronix Speedster7t FPGA 擁有獨(dú)特的架構(gòu),非常適合這類(lèi)模型。首先,它配備了硬件二維NoC,能夠解決數(shù)據(jù)的進(jìn)出和通過(guò)設(shè)備。此外,它使用了帶有緊耦合塊內(nèi)存的機(jī)器學(xué)習(xí)處理器(MLP),以便高效地在計(jì)算間重用結(jié)果。最后,Achronix Speedster7t FPGA 與 GPU 類(lèi)似但不同,擁有八組高效 GDDR6 內(nèi)存,帶寬大幅提升,可加載參數(shù)速度為 4 Tbps。
由于這些系統(tǒng)需要擴(kuò)展性,F(xiàn)PGA可以實(shí)現(xiàn)多種標(biāo)準(zhǔn)接口,實(shí)現(xiàn)卡片之間的互聯(lián)并無(wú)縫傳輸數(shù)據(jù)。Achronix Speedster7t AC7t1500 設(shè)備擁有 32,100 Gbps SerDes 通道,無(wú)需像 NVLink 這樣專(zhuān)有且昂貴的解決方案。
大型語(yǔ)言模型的未來(lái):擴(kuò)展以增強(qiáng)語(yǔ)言理解和專(zhuān)業(yè)領(lǐng)域
由于這些大型語(yǔ)言模型需要大規(guī)模的訓(xùn)練和推理,且延遲影響極小,模型的復(fù)雜度將持續(xù)增長(zhǎng),從而實(shí)現(xiàn)語(yǔ)言理解、生成甚至預(yù)測(cè)能力的提升,精度極高。雖然目前許多GPT風(fēng)格模型是通用型的,但未來(lái)很可能是專(zhuān)門(mén)訓(xùn)練給醫(yī)學(xué)、法律、工程或金融等特定領(lǐng)域的專(zhuān)業(yè)模型。這些系統(tǒng)將長(zhǎng)期用于協(xié)助人類(lèi)專(zhuān)家處理AI系統(tǒng)處理的日常任務(wù),并提供解決方案建議或創(chuàng)造性任務(wù)的幫助。












評(píng)論