具身神經(jīng)智能、類腦芯片的進(jìn)展與展望
今年具身智能非常火熱。從宇樹的人形機(jī)器人登上春晚之后,掀起了新一輪的投資熱潮,一些企業(yè)拿到了多輪投資。具身智能也成為AI 可能落地的一個(gè)場(chǎng)景。具身智能的核心之一是大小腦技術(shù),而下一代的具身神經(jīng)智能有望實(shí)現(xiàn)真正的全腦,使機(jī)器人具備人類大腦一樣的計(jì)算能力。
那么,具身智能當(dāng)前的發(fā)展態(tài)勢(shì)如何?為何下一步需要具身神經(jīng)智能?2025 年 9 月底,“ IC WORLD 2025”在北京經(jīng)濟(jì)技術(shù)開發(fā)區(qū)舉行,會(huì)上,北京大學(xué)博雅特聘教授、集成電路學(xué)院黨委書記王源做了主題報(bào)告——具身神經(jīng)智能的發(fā)展與趨勢(shì),分享了他的觀點(diǎn)。王教授長(zhǎng)期從事類腦計(jì)算、存內(nèi)計(jì)算等新范式計(jì)算架構(gòu)和芯片的設(shè)計(jì)研究,研制了多款新型AI 芯片。
1 機(jī)器人的歷史及啟示
具身智能的一種載體是人形機(jī)器人。對(duì)于人形機(jī)器人,我們的祖先賦予了無(wú)數(shù)想象。例如先秦時(shí)期,《列子. 湯問》記錄了一個(gè)故事:驗(yàn)尸獻(xiàn)計(jì)。巧匠偃師給周穆王送了一個(gè)人偶,這個(gè)人偶非常好玩,周穆王很驚奇。為什么要講這個(gè)話題?其中有幾句話現(xiàn)在還很應(yīng)景,這個(gè)人偶有五臟六腑,如果去其心,它就不能言;如果去其肝,它就看不見;如果取其腎,就不能行走。所以古代的機(jī)器人/ 人偶與現(xiàn)在的具身智能是有所區(qū)別的:現(xiàn)在的具身智能或者機(jī)器人,頭是頭,眼是眼——是完全分離的;而古代的是一個(gè)從里到外、從上到下完整的系統(tǒng),這也給我們一點(diǎn)啟示。
近50年來(lái)人形機(jī)器人發(fā)展很快。1972年日本早稻田大學(xué)研發(fā)了全球第一個(gè)全尺寸的人形機(jī)器人。2000年,日本本田公司研制了在運(yùn)動(dòng)能力上有重大進(jìn)步的機(jī)器人,可以做雙足奔跑、上下樓梯等。2008年法國(guó)阿爾德巴蘭機(jī)器人公司研發(fā)了NAO機(jī)器人,是第一款商業(yè)落地的機(jī)器人,是一個(gè)小型的教學(xué)陪伴機(jī)器人,值得一提的是,具身智能一個(gè)很大的潛力市場(chǎng)就是教育領(lǐng)域。另一家有代表性的企業(yè)是美國(guó)的波士頓動(dòng)力,2005 年發(fā)布四足狗BigDog,2013 年推出Atlas 系列人形機(jī)器人,到2021 年有了快速的發(fā)展。
眾所周知,近幾十年來(lái)人形機(jī)器人的發(fā)展非常迅速,特別是我國(guó)這幾年,例如2025 年春晚上,1.5 歲的宇樹H1 機(jī)器人登臺(tái)表演,引爆了公眾對(duì)具身智能市場(chǎng)的關(guān)注。
2 具身智能的市場(chǎng)規(guī)模
根據(jù)摩根士丹利2025年6月發(fā)布的《Robotics Unleashed, A New Era》報(bào)告,隨著大模型的出現(xiàn),以及VLA(視覺、語(yǔ)言和動(dòng)作模型)技術(shù)的發(fā)展,機(jī)器人技術(shù)已經(jīng)從單一、原有的自動(dòng)化,逐漸向通用智能不斷演進(jìn),逐漸進(jìn)入智能時(shí)代。
根據(jù)這份報(bào)告指出,泛機(jī)器人市場(chǎng)呈快速增長(zhǎng)的勢(shì)頭。尤其中國(guó)市場(chǎng)增長(zhǎng)快,2024 年中國(guó)機(jī)器人的市場(chǎng)規(guī)模大概占到全球總量的40%,達(dá)到470 億美元;預(yù)計(jì)到2028 年,按照年復(fù)合增長(zhǎng)率23% 測(cè)算,市場(chǎng)規(guī)模將會(huì)增加到1080 億美元。
泛機(jī)器人市場(chǎng)包含了很多產(chǎn)品形態(tài),不僅有人形機(jī)器人,還有工業(yè)機(jī)器人、協(xié)作機(jī)器人、移動(dòng)機(jī)器人、服務(wù)機(jī)器人,另外把無(wú)人機(jī)也歸入進(jìn)來(lái)(圖1)。

圖1 泛機(jī)器人市場(chǎng)
3 具身智能的定義、分類與特點(diǎn)
具身智能是一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng)。基于智能體和環(huán)境的交互來(lái)獲取信息,然后理解問題,做出決策,最后采取行動(dòng),是一個(gè)典型的閉環(huán)。
本質(zhì)上,它強(qiáng)調(diào)了物理身體、智能體。智能體的形狀可以很多,例如可以是固定式,也可以是移動(dòng)式(包括自動(dòng)駕駛車),還可以是仿生式,例如殺人蜂。當(dāng)然,現(xiàn)在市場(chǎng)上最火爆的是人形機(jī)器人。
具身智能系統(tǒng)可以分為三個(gè)層次。
● 第一個(gè)層次是應(yīng)用與感知層,主要是各種傳感器的集成,包括視覺、語(yǔ)義(聽懂自然語(yǔ)言)、聽覺、觸覺等。這一層的計(jì)算頻率/ 應(yīng)用頻率大概在10~30 Hz。
● 第二個(gè)層次是任務(wù)分析和規(guī)劃層。目前具身智能的解決方案大部分采用的是大小腦結(jié)合的方案。具身大腦(1~10 Hz)主要是做環(huán)境分析、頂層規(guī)劃和記憶構(gòu)建,相對(duì)算力要求更高;具身小腦(30~100 Hz)主要做抓取動(dòng)作的預(yù)測(cè)、導(dǎo)航軌跡的規(guī)劃,特別對(duì)于人形機(jī)器人場(chǎng)景。
大小腦的處理速度、頻率的要求是不同的。目前業(yè)界主要采用大小腦的協(xié)同方式。
值得一提的是,前面感知層、大小腦層甚至人的大腦分成兩個(gè)腦,但人腦沒有具體的哪個(gè)腦是專門控制哪個(gè)位置的,特別是感知層面,沒有說(shuō)若挖掉了某個(gè)部位,人就不能干某件事情——它們是互補(bǔ)的。
● 第三個(gè)層次是本體運(yùn)動(dòng)和執(zhí)行層(500~2000 Hz)。
本體運(yùn)動(dòng)包括了信息反饋和本體控制兩部分,后者/本體控制包括了運(yùn)動(dòng)避障、平衡控制。現(xiàn)在有很多具身智能機(jī)器人,例如人形機(jī)器人運(yùn)動(dòng)會(huì)上,人們可能更多的是關(guān)注本體控制,是否能做各種動(dòng)作,諸如跑步/ 馬拉松,跑馬拉松時(shí)原來(lái)會(huì)摔倒,現(xiàn)在跑得更好;包括打拳等,都是本體執(zhí)行非常好的一種體現(xiàn)。
但是從長(zhǎng)期角度看,推進(jìn)智能的發(fā)展還是核心,即具身大腦和具身小腦的發(fā)展。
4 大小腦結(jié)構(gòu)的挑戰(zhàn)
● 大腦。具身大腦通常基于多模態(tài)的大模型,從單一任務(wù)向復(fù)雜多任務(wù)的方向發(fā)展。
關(guān)于多模態(tài)大模型,如果面向單一任務(wù),計(jì)算特點(diǎn)是基于圖像和文字的多模態(tài)輸入,會(huì)造成輸入的令牌較多,但是實(shí)際輸出的令牌較少。面臨的主要挑戰(zhàn)包括如何基于預(yù)訓(xùn)練的多模態(tài)大模型在真正應(yīng)用環(huán)境中實(shí)現(xiàn)高效的多模態(tài)融合,以及如何降低令牌計(jì)算的延遲等。
具身智能的大腦逐漸從單一任務(wù)轉(zhuǎn)向復(fù)雜多樣的融合、深度推理的模式,包括一些記憶能力。計(jì)算特點(diǎn)主要是要記憶信息造成上下文之間的需求,深度思考,增加推理解碼的長(zhǎng)度。而且處于復(fù)雜環(huán)境,特別是人形機(jī)器人是在一個(gè)動(dòng)態(tài)多變的環(huán)境下,就提出了高響應(yīng)的需求。
主要挑戰(zhàn)包括前述的上下文的問題,深度推理的問題,各個(gè)階段的算力不同,仿真、存儲(chǔ)的需求。
● 小腦。由于小腦主要負(fù)責(zé)控制。傳統(tǒng)的具身智能小腦往往采用固定規(guī)則,包括一些小模型。
大腦是大模型,小腦做小模型。大模型計(jì)算頻率會(huì)較高,小腦的計(jì)算實(shí)時(shí)性要求會(huì)非常高。
但是問題在于,如果是模型很小的情況下,很明顯沒有像大模型那么好的泛化能力,也就意味著一旦給小腦燒好了一個(gè)模型,它能執(zhí)行的任務(wù)就是這么多。因此會(huì)經(jīng)常看到一些機(jī)器人,例如它本來(lái)想打拳擊,但是往后退兩步可能會(huì)摔倒,因?yàn)樗哪P筒皇蔷劢乖诜浪さ摹K苑夯芰Σ皇侨酰欠浅H酢O弱。
當(dāng)然現(xiàn)在也有基于大模型的具身智能小腦的路線,主要聚焦在兩個(gè)方面:VLA(視覺、語(yǔ)言和動(dòng)作模型),快慢系統(tǒng)。
● VLA是基于預(yù)訓(xùn)練完成視覺、語(yǔ)言大模型的初始化,然后在具身的數(shù)據(jù)上進(jìn)行微調(diào),因此這個(gè)閉環(huán)顯著提升了泛化性。但是問題在于它本身是基于大模型初始化的,所以對(duì)算力和緩存的需求量非常高,所以可能小腦變成大腦,這就使小腦/ 端測(cè)原有的小算力芯片對(duì)算力的需求越來(lái)越大。
王源教授團(tuán)隊(duì)調(diào)研了市面上的一些具身智能公司,發(fā)現(xiàn)小腦的算力目前很難滿足需求。
● 快慢系統(tǒng)。快慢雙系統(tǒng)顧名思義就是要實(shí)時(shí)處理的,快系統(tǒng)對(duì)指定的場(chǎng)景進(jìn)行現(xiàn)場(chǎng)理解,慢系統(tǒng)再進(jìn)行快速動(dòng)作的生成。可見有一個(gè)先理解、后生成的過程,二者是異步的計(jì)算,并不是同步完成的。但是很明顯,快慢系統(tǒng)如果是異步的,它的模型應(yīng)該也是異構(gòu)的,所以需要平衡計(jì)算資源。對(duì)于小腦,到底是滿足慢系統(tǒng)——模型相對(duì)大一點(diǎn),但是時(shí)間/ 周期稍長(zhǎng);還是滿足快系統(tǒng)?
這兩年,快慢雙系統(tǒng)的發(fā)展非常快,從2024 年開始到2025/ 今年,時(shí)間迭代非常快。包括前述的VLA也是如此快。
前面分析了目前大小腦本身的一些問題,會(huì)看到目前具身面臨的挑戰(zhàn)主要體現(xiàn)在下面幾個(gè)方面。
第一,泛化能力不足。只能在單一場(chǎng)景中表現(xiàn)得較好,但別指望像人一樣可以在不同的場(chǎng)景里去學(xué)習(xí),可能換一個(gè)場(chǎng)景就變成了傻子。所以在新環(huán)境中它很容易失效,所以我們現(xiàn)在不能對(duì)現(xiàn)有的具身智能或人形機(jī)器人的期望太高,特別是它缺乏像人一樣的遷移和學(xué)習(xí)的抽象能力。
第二,目前很多具身智能的模擬是在仿真模擬環(huán)境下完成的,而應(yīng)用場(chǎng)景是現(xiàn)實(shí)的物理世界。怎樣把現(xiàn)實(shí)的物理世界和賽博空間做很好的聯(lián)系?這方面還有很大的差距。如果仿真環(huán)境和現(xiàn)實(shí)之間差距太大,往往訓(xùn)練出來(lái)的模型難以直接部署。
第三,大模型和小模型有各自的算力要求,而且算力之間又存在兼容的問題,所以成本很高,還有在真實(shí)環(huán)境中,做小樣本學(xué)習(xí)或者在線學(xué)習(xí)的普遍效率是較低的。
5 具身神經(jīng)智能的優(yōu)勢(shì)
5.1 具身智能的局限
據(jù)調(diào)研,目前具身智能公司的主要解決方案還是基于英偉達(dá)平臺(tái),是典型的GPU 架構(gòu),即基于深度學(xué)習(xí)方式來(lái)做,以提供足夠的算力來(lái)解決。
但是實(shí)際上,具身智能是物理世界和虛擬世界交互的,人最擅長(zhǎng)做這件事,但是目前所有的具身智能在神經(jīng)機(jī)制方面是有缺失的,缺乏對(duì)人/ 生物系統(tǒng)的借鑒。
所以王源教授的報(bào)告叫具身神經(jīng)智能。“神經(jīng)”指神經(jīng)系統(tǒng)。希望能夠把具身智能和神經(jīng)形態(tài)計(jì)算或神經(jīng)系統(tǒng)相結(jié)合,能夠讓具身人形機(jī)器人真的像人一樣。當(dāng)然人也有很多不擅長(zhǎng)的地方,例如看不遠(yuǎn)、聽不清,因此除了發(fā)揮人的優(yōu)勢(shì)外,也可以通過傳感器來(lái)彌補(bǔ)人的劣勢(shì)。
人能很好的自學(xué)習(xí)或在線學(xué)習(xí),這種學(xué)習(xí)方式能夠?qū)崿F(xiàn)智能計(jì)算的可適應(yīng)性、可配置性,在靈活性方面有很大的優(yōu)勢(shì),但現(xiàn)在的具身智能很明顯存在一些問題。
具身智能是大小腦結(jié)構(gòu),但人不是大小腦結(jié)構(gòu),是一個(gè)全腦。具身智能的大小腦有異構(gòu)性的特點(diǎn),從算力、速度、存儲(chǔ)等角度看,大腦和小腦的需求是不一樣的,這也就意味著很難把不同的算力平臺(tái)進(jìn)行融合;而人腦不是這樣,人腦是一個(gè)完整的結(jié)構(gòu)。
5.2 如何從具身智能邁向具身神經(jīng)智能?
● 讓AI不僅會(huì)感知和行動(dòng)
我們現(xiàn)在的認(rèn)知是基于大模型的認(rèn)知,并不是人的真正意義上的認(rèn)知。人的認(rèn)知范圍是很復(fù)雜的,除了學(xué)習(xí)之外,還有情感、思維等。所以希望具身智能不僅會(huì)感知和行動(dòng),而且會(huì)像人的神經(jīng)系統(tǒng)一樣自組織、學(xué)習(xí)和適應(yīng)。
所謂的具身神經(jīng)智能就是把類腦智能和具身智能相結(jié)合,使智能體具備感知、決策和應(yīng)用能力,同時(shí)利用類腦架構(gòu)的高效率和自適應(yīng)性,實(shí)現(xiàn)端到端的高等級(jí)具身神經(jīng)智能。
它有幾個(gè)基本的特點(diǎn)。
第一,感知和行動(dòng)。我們可以參考現(xiàn)在的神經(jīng)具身智能本身的特點(diǎn),我們通過多種感官系統(tǒng)獲取外部的信息,并通過動(dòng)作系統(tǒng)與環(huán)境互動(dòng)。但是它的計(jì)算平臺(tái)可能就不是簡(jiǎn)單的GPU。實(shí)際上,我們目前也只有GPU平臺(tái)可選。
神經(jīng)計(jì)算平臺(tái)通俗地講是把一個(gè)生物腦怎樣盡可能地拷貝成一個(gè)電子腦。即我們用現(xiàn)在的大規(guī)模集成的硅技術(shù),怎樣盡可能地去復(fù)制我們的生物腦。當(dāng)然生物腦里的各種事件觸發(fā)的機(jī)制是超低功耗的,同時(shí)抗噪特性優(yōu)異,具有在線學(xué)習(xí)的能力,它集各種低功耗、超高能效為一體。人腦是一個(gè)超低能耗的載體,人一天只吃三頓飯,整個(gè)功耗約20 W,但實(shí)時(shí)計(jì)算能力能達(dá)到1TOPS,比現(xiàn)在的各種硅平臺(tái)高很多。但怎樣通過電子計(jì)算手段實(shí)現(xiàn)這種能力?是非常有挑戰(zhàn)性的。
王源教授團(tuán)隊(duì)給出了一個(gè)方案,在傳感器與執(zhí)行器方面,與現(xiàn)在的方案沒有什么太大的區(qū)別:傳感器可以是視覺的、聲學(xué)的、定位的;執(zhí)行器也可以是各種各樣的,例如人形機(jī)器人等移動(dòng)平臺(tái)。核心是中間的類腦計(jì)算平臺(tái)。需要說(shuō)明的是,類腦計(jì)算平臺(tái)不是替代現(xiàn)在的GPU平臺(tái),因?yàn)镚PU 有密集計(jì)算的優(yōu)勢(shì),所以類腦計(jì)算平臺(tái)大概率是一個(gè)結(jié)合了生物啟發(fā)的類腦平臺(tái),再加上GPU的密集計(jì)算平臺(tái),它是一個(gè)融合的平臺(tái)。所以這種方案不再區(qū)分大小腦,實(shí)現(xiàn)一個(gè)全腦式的操作。
● 類腦平臺(tái)的發(fā)展概況
類腦計(jì)算平臺(tái)不是新事物,其實(shí)也做了很多年。如圖2是個(gè)典型的4 家平臺(tái), 從2014年IBM 的TrueNorth,到2018年英特爾Loihi,2019年清華推出了天機(jī),2023年王源教授團(tuán)隊(duì)做了PAICORE。

圖2 部分類腦芯片廠商
一些機(jī)構(gòu)公司做了基于類腦計(jì)算的機(jī)器人,例如英特爾的無(wú)人機(jī),清華的基于天機(jī)的無(wú)人駕駛自行車、天機(jī)貓等。
北大王源團(tuán)隊(duì)做的是基于PAICORE類腦芯片的研究。PAICORE是全球最大的類腦芯片,有191 萬(wàn)個(gè)神經(jīng)元和47億個(gè)突觸,集成了1024個(gè)處理核心。王源團(tuán)隊(duì)推出了基于小車的無(wú)人車硬件平臺(tái)PAICar,有兩款車,分別為雙驅(qū)和四驅(qū)車,有一個(gè)在復(fù)雜環(huán)境下的小車的演示,是在室內(nèi)環(huán)境情況下的追蹤任務(wù), 自己的四輪車去追雙驅(qū)車。還有一些暗光場(chǎng)景下怎樣去完成的演示。
6 未來(lái)預(yù)測(cè)
具身神經(jīng)智能還是要兩條腿走路:一方面是神經(jīng)形態(tài)的硬件,即上述的核心,它是一個(gè)融合了GPU 和生物啟發(fā)的類腦芯片平臺(tái),是神經(jīng)形態(tài)的硬件;另一塊是具身的機(jī)器人,是載體,包括前后兩端(傳感器和執(zhí)行器)。
● 近期人們主要聚焦在多核并行計(jì)算和低功耗上,因?yàn)檫@是剛需——現(xiàn)在機(jī)器人的短板是續(xù)航時(shí)間不長(zhǎng),移動(dòng)能力及反應(yīng)能力偏弱。當(dāng)然機(jī)器人本身主要聚焦在多模態(tài)、多任務(wù)的執(zhí)行上。
● 中期要顯著提高計(jì)算密度,實(shí)際上還是提升算力/處理能力。在機(jī)器人方面,主要是把神經(jīng)計(jì)算技術(shù)和具身智能進(jìn)行深度融合,真正做到全腦,而不是大小腦。
● 遠(yuǎn)期(2030-2035) 希望具身神經(jīng)智能具備人類大腦的計(jì)算能力。實(shí)際上,人類大腦的長(zhǎng)時(shí)間精確計(jì)算能力是不足的,但是實(shí)時(shí)計(jì)算能力非常高,可達(dá)1 TOPS,所以在快速反應(yīng)和實(shí)時(shí)計(jì)算方面的能力是非常強(qiáng)的。所以在芯片算力的突破(圖3)之后,期望具身神經(jīng)智能能夠具備近乎人腦的計(jì)算能力。

圖3 芯片架構(gòu)的展望
當(dāng)然,人腦還有學(xué)習(xí)方面及其他方面很多優(yōu)勢(shì),期望最后能夠達(dá)到人類能力的高度,實(shí)現(xiàn)真正智能化的機(jī)器人。
(本文來(lái)源于《EEPW》202511)



評(píng)論