久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > 小型語(yǔ)言模型與大型語(yǔ)言模型

小型語(yǔ)言模型與大型語(yǔ)言模型

作者: 時(shí)間:2025-11-24 來(lái)源: 收藏

邊緣的普及將要求和芯片架構(gòu)進(jìn)行根本性變革,使得在數(shù)據(jù)中心之外進(jìn)行推理和學(xué)習(xí)成為可行的選擇。

小型(SLMs)的初始目標(biāo)——參數(shù)數(shù)大約不超過(guò)100億,而最大型大型的參數(shù)超過(guò)一萬(wàn)億——是專門利用它們進(jìn)行推理。然而,越來(lái)越多的學(xué)習(xí)能力也包含在內(nèi)。由于SLM專為狹義任務(wù)設(shè)計(jì),能夠在發(fā)送查詢、指令或傳感器數(shù)據(jù)到AI數(shù)據(jù)中心并獲得響應(yīng)的時(shí)間中,生成結(jié)果的極短。

SLM并不是新鮮事。EDA公司多年來(lái)一直在嘗試優(yōu)化計(jì)算軟件,科學(xué)家們也用更小的模型來(lái)解決數(shù)學(xué)和科學(xué)問(wèn)題。但2022年11月ChatGPT的推出徹底改變了全球?qū)?a class="contentlabel" href="http://cqxgywz.com/news/listbylabel/label/人工智能">人工智能的看法,大量投入的行業(yè)使商業(yè)語(yǔ)言模型能夠在本地以更低的能源運(yùn)行更快。

在邊緣采用人工智能需要對(duì)語(yǔ)言模型進(jìn)行更多細(xì)化。但預(yù)期這些最終將帶來(lái)物聯(lián)網(wǎng)本應(yīng)成為邊緣功能的一部分。雖然對(duì)邊緣人工智能總可用市場(chǎng)(TAM)增長(zhǎng)的預(yù)測(cè)仍屬猜測(cè),但普遍認(rèn)同其趨勢(shì)正急劇上升。財(cái)富商業(yè)洞察估計(jì),到2032年市場(chǎng)將達(dá)到2670億美元,而2024年的僅為270億美元。這反過(guò)來(lái)預(yù)計(jì)將為各種芯片、芯片組和工具創(chuàng)造全新的市場(chǎng)機(jī)會(huì),以優(yōu)化這些設(shè)計(jì)。

谷歌Edge AI研究主任比利·拉特利奇說(shuō):“這是我們目前正在進(jìn)行的活躍研究領(lǐng)域。”“我們?cè)趺窗涯P妥龅酶。课覀內(nèi)绾蝿?chuàng)建合適的SLM,根據(jù)某樣?xùn)|西的能力來(lái)執(zhí)行路由和智能級(jí)聯(lián),或者將其送往其他層級(jí)?能夠驅(qū)動(dòng)這些車型的發(fā)動(dòng)機(jī)是起點(diǎn)。然后我們可以開始積累更多軟件和機(jī)器學(xué)習(xí)的經(jīng)驗(yàn)。”

德勤最近的一項(xiàng)調(diào)查發(fā)現(xiàn),2024年投資邊緣計(jì)算的公司對(duì)邊緣人工智能的投資回報(bào)率比以往更為樂觀。德勤指出,嵌入某些設(shè)備的人工智能可能帶來(lái)改變游戲規(guī)則,因?yàn)樗恍枰ヂ?lián)網(wǎng)連接。這影響涵蓋了從工業(yè)、汽車到消費(fèi)設(shè)備(如安防攝像頭)等多個(gè)領(lǐng)域。

“它可能不會(huì)收到'你的Ring攝像頭檢測(cè)到運(yùn)動(dòng)'這樣的信息,而是'有人穿棕色襯衫和黑鞋從你的門廊拿了包裹并帶走了,'”Cadence人工智能知識(shí)產(chǎn)權(quán)產(chǎn)品營(yíng)銷總監(jiān)Jayson Lawley說(shuō)。“而且你不必把所有視頻幀都送到數(shù)據(jù)中心處理。如果能在邊緣做到這一點(diǎn),那可是巨大的節(jié)省。”

在汽車領(lǐng)域,SLM將使車輛功能更豐富,實(shí)現(xiàn)更豐富的車輛與基礎(chǔ)設(shè)施之間的通信。在芯片制造領(lǐng)域,他們將提供實(shí)時(shí)分析。在客戶服務(wù)方面,他們將減少自動(dòng)答題服務(wù)菜單帶來(lái)的挫敗感。此外,它們將推動(dòng)新的芯片架構(gòu),從多芯片組件配定制處理器和更分布式控制器,到預(yù)裝SLM芯片組。

挑戰(zhàn)在于將這些SLM縮減到可行的規(guī)模,并開發(fā)能夠在低功耗內(nèi)加速算法的硬件架構(gòu)——同時(shí)在所應(yīng)用的領(lǐng)域保持足夠準(zhǔn)確的精度。大型人工智能公司報(bào)告稱通過(guò)量化實(shí)現(xiàn)了數(shù)量級(jí)的降低,將高精度FP32(32位浮點(diǎn))降至僅限于FP4。之所以有效,是因?yàn)椴⒎敲總€(gè)查詢、指令或分析都需要篩選龐大的數(shù)據(jù)集。如果能本地存儲(chǔ)較小的高度相關(guān)數(shù)據(jù),或至少存儲(chǔ)在終端設(shè)備附近,那么簡(jiǎn)單的4位響應(yīng)可能就足夠了。或者,通過(guò)針對(duì)特定數(shù)據(jù)類型定制的更快處理元件和更具針對(duì)性的內(nèi)存架構(gòu),SLM可能能夠在不顯著減速或電池耗損的情況下使用FP16。

“很多人都在考慮這些小語(yǔ)言模型,”ChipAgents首席執(zhí)行官William Wang說(shuō)。“客戶希望任務(wù)能有高性能,但他們也希望確保做出正確的權(quán)衡。也許你可以得到一個(gè)性能稍低但響應(yīng)速度更快的模型。例如,Cursor 剛剛發(fā)布了它的 Composer 模型,但不如前沿但速度非常快。你想推動(dòng)帕累托曲線,但同時(shí)也需要達(dá)到任務(wù)所需的基本精度水平。”

這對(duì)人工智能來(lái)說(shuō)是一種非常不同的方法。Cadence的Lawley說(shuō):“大型語(yǔ)言模型本質(zhì)上是一種暴力破解方式,將我們擁有的所有數(shù)據(jù)壓縮成各種不同的連接,并實(shí)現(xiàn)各種不同的矢量化。”“但如果你能把它越來(lái)越小,然后再壓縮,你真的能更有效地把東西推到極限。”

例如,存儲(chǔ)在邊緣設(shè)備中的數(shù)據(jù)可以限制在與特定芯片或芯片組功能特別相關(guān)的內(nèi)容,而不是試圖添加全局上下文。

“這些產(chǎn)品很多都知道它們的用途,”資深史蒂夫·塔特西安說(shuō)英飛凌物聯(lián)網(wǎng)、消費(fèi)及工業(yè)多單元總裁。“你不會(huì)問(wèn)你的恒溫器為什么你的Wi-Fi斷了,也不會(huì)去寫一篇關(guān)于美國(guó)憲法的論文。你會(huì)問(wèn)它關(guān)于特定領(lǐng)域內(nèi)容的問(wèn)題。但我們可以超越喚醒詞的語(yǔ)言模型,包括對(duì)該問(wèn)題的自然語(yǔ)言處理,然后進(jìn)入生成回答的語(yǔ)言模型。我們稱之為邊緣語(yǔ)言模型(ELM),但我們會(huì)看到它從生成式AI轉(zhuǎn)向通用AI,因此模型可以用于不同領(lǐng)域。你可能同時(shí)運(yùn)行多個(gè)ELM,可以訓(xùn)練一種語(yǔ)言來(lái)詢問(wèn)上下文,另一種則訓(xùn)練視覺,依此類推。此外,除了所有型號(hào)外,你可能還有一個(gè)代理利用這些輸入向用戶提供相關(guān)信息,比如你的汽車位置,因?yàn)樗鼘?shí)際上識(shí)別了你的車輛。”

1763971959140494.jpeg

工作負(fù)載定位
短期內(nèi)更通用的SLM更合理,因?yàn)樗鼈兛梢岳脧V泛的處理元素。語(yǔ)言模型幾乎處于不斷變化的狀態(tài),而硬件設(shè)計(jì)、驗(yàn)證和制造則需要18到24個(gè)月。到那時(shí),為特定SLM共同設(shè)計(jì)的芯片已經(jīng)過(guò)時(shí)了。

“你想從大型號(hào)中提煉一些基礎(chǔ)知識(shí),注入“把它變成更小的模型,”ChipAgents的王說(shuō)。“但你也希望能夠修剪權(quán)重,這樣你用的不是16比特,而是8比特。所有東西都會(huì)被壓縮。有許多知名算法可以壓縮權(quán)重并達(dá)到一定的準(zhǔn)確度。但語(yǔ)言模型和人工智能發(fā)展極快,硬件難以共同設(shè)計(jì)。一年前,人們還在為L(zhǎng)lama 3共同設(shè)計(jì)硬件。但現(xiàn)在沒人再用Llama 3了,而且為L(zhǎng)lama 3設(shè)計(jì)的芯片可能不支持Llama 4,所以沒人會(huì)買。”

替代方法包括在芯片中增加一定的可編程性,或使用更通用的芯片進(jìn)行定制配置,以在一個(gè)或多個(gè)狹窄定位的SLM中提供最佳權(quán)衡。

“隨著你離設(shè)備越來(lái)越近,你會(huì)擁有更多可變現(xiàn)的服務(wù),”Baya Systems首席商務(wù)官Nandan Nayampally說(shuō)。“你們將擁有用于降噪、視覺識(shí)別的SLM——不僅僅是標(biāo)準(zhǔn)的可視化。會(huì)是不同的情境。我們看到多個(gè)客戶對(duì)更具體、更定制化的車型有需求。LLM其實(shí)更像是通識(shí),很多由LLM開發(fā)的SLM更多是推理而非訓(xùn)練。這種培訓(xùn)不會(huì)消失,如果有變化的話,在短中期內(nèi)會(huì)增加,因?yàn)闀?huì)有更多作為SLM基線的模型。但推斷點(diǎn)正從云端向下移動(dòng)到網(wǎng)絡(luò)邊緣,甚至可能延伸到終端設(shè)備,這一轉(zhuǎn)變會(huì)非常有趣。”

其他人也同意。“去年我們談了很多物聯(lián)網(wǎng)的去向,物聯(lián)網(wǎng)自2013或2014年就已存在,”英飛凌互聯(lián)安全系統(tǒng)部門總裁托馬斯·羅斯特克說(shuō)。“變化在于,過(guò)去物聯(lián)網(wǎng)更像是云端的接口。現(xiàn)在它真正變成了物聯(lián)網(wǎng)。東西在互相交流。比如,我家里大約有100個(gè)物聯(lián)網(wǎng)設(shè)備。我有一個(gè)煙霧報(bào)警器,如果不時(shí)測(cè)試煙霧報(bào)警器,會(huì)觸發(fā)警報(bào),其他所有煙霧探測(cè)器都會(huì)重復(fù),所有燈都會(huì)亮起,所有遮陽(yáng)簾都會(huì)升起。這是基于我們給出的指導(dǎo)方針的實(shí)際示例。邊緣人工智能通過(guò)提供更多智能,并為物聯(lián)網(wǎng)設(shè)備增添了新能力,同時(shí)又提供了新的功能集。那么會(huì)有變化嗎?是的,因?yàn)檫吘壴O(shè)備變得更強(qiáng)大了。而且邊緣和云端的工作分配必須改變,因?yàn)樵品?wù)器集群消耗了大量能源,我們至少必須讓它在數(shù)據(jù)傳輸和任務(wù)方面都合理。”

這并不意味著云不再有用。模型仍需訓(xùn)練,大規(guī)模上下文搜索和分析對(duì)邊緣設(shè)備來(lái)說(shuō)過(guò)于龐大。但將更多處理遷移到邊緣確實(shí)降低了每筆AI交易的成本,無(wú)論是傳輸數(shù)據(jù)、云處理所需的能量,還是以可在線化的形式返回。

Arteris董事長(zhǎng)兼首席執(zhí)行官查理·雅納克說(shuō):“提高效率的方法之一是減少傳輸所有數(shù)據(jù)所需的能源。另一種方法是改進(jìn)大型語(yǔ)言模型處理數(shù)據(jù)的方式。因此這里有很多創(chuàng)新需要完成,而這些創(chuàng)新是必要的,因?yàn)槟壳叭绻憧纯此杏糜谌斯ぶ悄苡?xùn)練和推理的數(shù)據(jù)中心,它們總計(jì)消耗的能源是迄今為止全球生產(chǎn)的三倍。所以小型核反應(yīng)堆市場(chǎng)很大,但答案之一是整個(gè)過(guò)程變得更高效,我們不僅僅關(guān)注處理能力,還必須關(guān)注能源效率和能源利用。”

這種效率來(lái)自于提升運(yùn)行LLM系統(tǒng)的效率,同時(shí)也通過(guò)SLM在邊緣處理更多數(shù)據(jù),并限制需要發(fā)送到云端的數(shù)據(jù)量。“關(guān)鍵在于盡量減少數(shù)據(jù)的往返傳輸,”高級(jí)Venkat Kodavati說(shuō)Synaptics無(wú)線部門總裁兼總經(jīng)理。“但當(dāng)你必須這么做時(shí),你也要高效地完成,節(jié)省電力。我們已經(jīng)見過(guò)很多小型語(yǔ)言模型,憑借數(shù)億參數(shù),我們可以在邊緣設(shè)備上支持這種傳輸。但模型最終將能更高效地運(yùn)行在邊緣設(shè)備上。你可以在邊界做大量推理,也可以進(jìn)行一些訓(xùn)練。你可以在邊緣進(jìn)行定制訓(xùn)練,然后在云端更新模型。所有這些事情很快就會(huì)發(fā)生。”

屏幕截圖_24-11-2025_161231_semiengineering.com.jpeg


而且在很多情況下,這些信息會(huì)對(duì)用戶隱藏。勞利說(shuō):“人工智能真正開始影響人們的地方,往往是當(dāng)他們不知道它影響了自己時(shí)。”“對(duì)他們來(lái)說(shuō)會(huì)是隱形的,就像我們說(shuō)話時(shí)去除背景噪音一樣。它就像現(xiàn)在的手機(jī)一樣融入了日常生活。你會(huì)在邊緣應(yīng)用中看到這一點(diǎn)。我預(yù)測(cè)你是否在使用科技會(huì)更加困難。這只是你生活的生活方式。”

本地化,必要
時(shí)全球化。利用云和邊緣的混合模式,在大多數(shù)情況下——至少在短期內(nèi)如此。本地處理會(huì)帶來(lái)更快的結(jié)果,但設(shè)備仍需與大型數(shù)據(jù)中心通信,如維護(hù)和軟件更新,以及查詢無(wú)法本地存儲(chǔ)的大型數(shù)據(jù)集,如半導(dǎo)體制造。事實(shí)上,SLM增加了多次測(cè)試插入時(shí)需要處理的數(shù)據(jù)量。

“我們暫時(shí)會(huì)利用大型語(yǔ)言模型,”艾拉·萊文塔爾說(shuō),Advantest應(yīng)用研究與技術(shù)總裁。“小型語(yǔ)言模型將專注于一些需要使用的細(xì)分應(yīng)用。但從測(cè)試角度來(lái)看,如果模型進(jìn)入小型語(yǔ)言模型,優(yōu)勢(shì)是它們非常有目的性。所以你可以把這些問(wèn)題縮減到測(cè)試時(shí)需要提示的更小用例,比如減少變異性。這樣會(huì)簡(jiǎn)化事情。但如果你有一堆小型語(yǔ)言模型,你還得考慮測(cè)試所有這些模型,并且必須并行測(cè)試它們。”

這需要跟蹤涉及多個(gè)小語(yǔ)言模型的所有交互和依賴關(guān)系。SLM需要被巧妙地集成到復(fù)雜流程中,如半導(dǎo)體測(cè)試或檢測(cè),否則可能會(huì)引發(fā)問(wèn)題。

PDF Solutions首席執(zhí)行官John Kibarian表示:“我們正在利用大型語(yǔ)言模型能力的專業(yè)知識(shí),但客戶希望它非常針對(duì)我們的系統(tǒng),同時(shí)也希望它非常針對(duì)他們的數(shù)據(jù),并且本地化,”PDF Solutions首席執(zhí)行官John Kibarian說(shuō)。“他們想要的是完全為其設(shè)計(jì)的設(shè)備,但能更智能地適應(yīng)環(huán)境,并且根據(jù)可用能力不斷更新。他們希望看到人工智能作為一種補(bǔ)充,以便知識(shí)能夠被捕獲并傳遞給下一代工程師。這將使我們的行業(yè)進(jìn)入前所未有的領(lǐng)域,同時(shí)不忘過(guò)去積累的知識(shí)。他們正在尋找這種小型、本地培訓(xùn)的能力,通過(guò)學(xué)習(xí)過(guò)去所有生產(chǎn)、分析、測(cè)試項(xiàng)目以及他們對(duì)數(shù)據(jù)的分析方式,在某種程度上有效封裝部落知識(shí),從而更快地將這項(xiàng)能力推廣到整個(gè)組織。”

更多功能,新挑戰(zhàn)
,SLM是一個(gè)廣泛的標(biāo)簽,最終會(huì)被細(xì)分為幾個(gè)子集。例如,有多型號(hào)型號(hào)、視頻SLM,隨著邊緣設(shè)備添加更多功能,還會(huì)有更多產(chǎn)品。目前還不清楚它們可能如何相互作用,如何以有用的方式構(gòu)建這些互動(dòng),或者在無(wú)法實(shí)現(xiàn)時(shí)如何盡量減少它們。此外,如果允許這些設(shè)備學(xué)習(xí),還需要某種監(jiān)管以確保它們的可靠性。

谷歌工程總監(jiān)Kai Yick說(shuō):“在邊緣設(shè)備方面,我們開始考慮如何在不同領(lǐng)域運(yùn)營(yíng),比如我們?nèi)绾芜M(jìn)入代幣領(lǐng)域。”“那在代幣化空間里,怎么做傳感器融合,然后在邊緣設(shè)備上?一旦你把所有東西都標(biāo)記好了,你就可以做決策了。它應(yīng)該采取行動(dòng)嗎?那么,是否應(yīng)該將這個(gè)決定連鎖到其他方面?比如,它可以移動(dòng)到我的手機(jī)、電話列表,或者在這種情況下更能運(yùn)行一個(gè)小型大型語(yǔ)言模型。那么,這個(gè)LLM應(yīng)該根據(jù)我的查詢回復(fù)我嗎?或者如果是行動(dòng),應(yīng)該基于這個(gè)意圖采取更復(fù)雜的行動(dòng)?如果它超過(guò)了某樣?xùn)|西的能力怎么辦?然后它會(huì)傳遞到數(shù)據(jù)中心嗎?我們正在關(guān)注的是這種級(jí)聯(lián)架構(gòu)。”

結(jié)論
:準(zhǔn)確性與性能之間的權(quán)衡將繼續(xù)主導(dǎo)邊緣領(lǐng)域,并為其開發(fā)的SLM在不久的未來(lái)繼續(xù)存在。但提供邊緣人工智能的公司將利用他們?cè)谠浦袑W(xué)到的知識(shí),借助大型語(yǔ)言模型(LLM)加快SLM的推廣。數(shù)據(jù)傳輸距離越少,需要發(fā)送到云端的數(shù)據(jù)越少,響應(yīng)速度就越快。SLM的具體性能越嚴(yán)格,優(yōu)化速度就越快。

SLM正在迅速涌現(xiàn),并且在各個(gè)方向推動(dòng)邊界。在某些情況下,它們將是多模式的。在其他情況下,它們會(huì)針對(duì)特定模式,如視覺或自然語(yǔ)言音頻。無(wú)論如何,它們都會(huì)定義并重新定義我們與機(jī)器的交互方式,以及機(jī)器之間的相互作用,而這一切都將發(fā)生在更接近數(shù)據(jù)源頭、人們?cè)诠ぷ骱腿粘I钪惺褂玫墓ぞ吆蜋C(jī)器上。


評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉