倪光南:“AI+空間計(jì)算”讓機(jī)器人看懂世界,希望形成“AI+RV芯片”的生態(tài)
在北京“2025 世界機(jī)器人大會(huì)”上,中國工程院院士倪光南作了題為《“AI+ 空間計(jì)算”讓機(jī)器看懂世界》的報(bào)告,指出“AI+ 空間計(jì)算”是落實(shí)“AI+”行動(dòng)的核心技術(shù)之一。傳統(tǒng)工業(yè)化是工業(yè)4.0,新型工業(yè)化相當(dāng)于工業(yè)5.0,是“AI+ 機(jī)器人”的階段。我們正在做的RV+OSS(機(jī)器人視覺+ 開放智能系統(tǒng))是人類智能體的世界,未來想提供“AI+RV 芯片”,形成一個(gè)“腦-眼- 行動(dòng)”的完整智能系統(tǒng)的生態(tài)。

中國工程院院士 倪光南
1 “ AI+ 空間計(jì)算”是落實(shí)“AI+”行動(dòng)的核心技術(shù)
“AI+ 空間計(jì)算”開啟了二維交互向三維交互發(fā)展的新范式。空間計(jì)算作為一種全新的計(jì)算方式,是物理世界和數(shù)字世界之間的橋梁,正在重塑人類、機(jī)器和世界的交互方式,它是推動(dòng)機(jī)器人落地的關(guān)鍵核心技術(shù)之一。
歷史上經(jīng)歷了從電報(bào)、文字、語音、視頻的發(fā)展,目前正進(jìn)入一個(gè)重要的從二維交互向三維交互發(fā)展的時(shí)期。空間計(jì)算在其中起著重要的作用。
生成式大語言模型目前引領(lǐng)著科技的發(fā)展,但是大語言模型不是世界的全部,生成式AI 不能完全輻射復(fù)雜的物理世界,空間計(jì)算和AI 融合正以一種全新的方式重構(gòu)三維物理世界,拓展了大模型通向物理世界的橋梁,促進(jìn)了物理世界和數(shù)字世界的融合。因此,“AI+ 空間計(jì)算”是當(dāng)前落實(shí)“AI+”行動(dòng)的一項(xiàng)關(guān)鍵核心技術(shù)。
2 視覺是智能的起點(diǎn)
機(jī)器人的眼睛“AI+ 空間計(jì)算”主要是為了提升視覺的功能。
生物進(jìn)化史中,智能的起點(diǎn)是物理性。在物理世界中,首先是視覺,從眼睛開始,與大腦構(gòu)成了對(duì)信息的獲取與處理系統(tǒng),2018 年圖靈獎(jiǎng)獲得者楊立昆(Yann LeCun)教授(注:Facebook 首席AI 科學(xué)家和紐約大學(xué)教授)有一個(gè)說法:一個(gè)大模型學(xué)習(xí)的信息量大概是1014,相當(dāng)于互聯(lián)網(wǎng)上所有公開文本信息量的總和,一個(gè)人可能幾十萬年才可以學(xué)到,但是一個(gè)4 歲的小孩睜開眼睛能學(xué)到的信息量也大概就是1014。這就說明我們的大語言模型訓(xùn)練所用的文本信息是不夠的。
我們要認(rèn)識(shí)世界、理解世界還需要用到大量的視頻信息,我們要重視眼睛,視覺是智能的起點(diǎn),是物理世界控制感知的基礎(chǔ),是大腦和物理世界作用的橋梁。
“AI+ 機(jī)器人”在工廠實(shí)際工作的情況是怎樣的?會(huì)發(fā)現(xiàn)機(jī)器人看到的世界基本上和人眼看到的相當(dāng),但是機(jī)器人用“AI+ 空間計(jì)算”進(jìn)行理解和建模。由于機(jī)器人有了眼睛,可在移動(dòng)環(huán)境下快速地觀察環(huán)境,知道精確的位置。
3 工廠管理的變遷——正進(jìn)入工業(yè)5.0
在不同的工業(yè)化時(shí)期,制造業(yè)和機(jī)器人的變化是怎樣的?一個(gè)是傳統(tǒng)工業(yè)化,一個(gè)是新型工業(yè)化。傳統(tǒng)工業(yè)化是工業(yè)4.0,新型工業(yè)化相當(dāng)于工業(yè)5.0。歷史上,制造業(yè)的發(fā)展從自動(dòng)化到智能化,現(xiàn)在向“AI+ 工業(yè)制造”發(fā)展。對(duì)于工廠,生產(chǎn)模式過去強(qiáng)調(diào)的是剛性化、標(biāo)準(zhǔn)化,目前要融合柔性制造、定制化。
工廠的管理過去是被動(dòng)的,人去編排作業(yè);現(xiàn)在是工廠的大腦自主決策。我們過去是很多工業(yè)軟件一起用,現(xiàn)在是很多工業(yè)軟件會(huì)以工作流的方式滲透到整個(gè)工作流程中。數(shù)字世界、物理世界過去相當(dāng)于影射的關(guān)系,現(xiàn)在達(dá)到了融合,把數(shù)字和物理世界融合起來。
作為機(jī)器人,從自動(dòng)化的工具變成智能化的主體,成為工廠的主體,現(xiàn)在是由具身智能系統(tǒng)進(jìn)行控制。參照自動(dòng)駕駛汽車智能等級(jí)分級(jí),機(jī)器人過去是L1~L3,是半自動(dòng)、自動(dòng)化的,現(xiàn)在想達(dá)到L4、L5,作為智能化的自主移動(dòng)的機(jī)器人,操作的按鍵、鍵盤、鼠標(biāo),希望可以用自然語言來交互,教它工作;從人工編程發(fā)展到大模型編程,從固定工位發(fā)展到多工位的移動(dòng)工作,同時(shí)無需部署調(diào)整,即插即用。為了達(dá)到高精度的工作,過去要花很長時(shí)間;現(xiàn)在移動(dòng)工作可以做到,而且非常快速,以很低的代價(jià)就可以實(shí)現(xiàn)。總之,希望人、貨、機(jī)將來在工廠生產(chǎn)線上是互相協(xié)同、取長補(bǔ)短的。
4 “ AI+ 機(jī)器人”的階段
機(jī)器人的智能通常可分為三大部分:腦- 眼- 行動(dòng)系統(tǒng)。這三部分組合在一起,成為具身智能系統(tǒng)。目前的情況是在腦和眼的方面投入不夠,相對(duì)是短板,需要特別予以加強(qiáng),以更好地提升機(jī)器人的效能。
正像汽車一樣,汽車智駕可以從L1~L5 分為不同的等級(jí),一些組織機(jī)構(gòu)也把機(jī)器人進(jìn)行了相似的分類。目前的機(jī)器人大體上處于L1~L3,我們希望通過眼睛和腦的發(fā)展,把機(jī)器人整體的智能水平發(fā)展到L4 及以上,這樣機(jī)器人才能更好地體現(xiàn)移動(dòng)、自主、高精度的能力,發(fā)揮其在提升生產(chǎn)效率方面的作用。
機(jī)器人將要從自動(dòng)化的工具發(fā)展到AI+ 機(jī)器人,整個(gè)過程要用機(jī)器人的智能系統(tǒng)加強(qiáng)發(fā)展機(jī)器人原來的操作系統(tǒng),使機(jī)器人的控制從實(shí)時(shí)操作系統(tǒng)變成腦- 眼-行動(dòng)一體化的智能系統(tǒng)。使機(jī)器人能夠看見世界、理解世界、行動(dòng)于世界。
AI+ 機(jī)器人分為幾個(gè)部分。
● 第一部分是腦。機(jī)器人必須有自己的腦。大腦是基于大模型的,現(xiàn)在大模型引領(lǐng)各方面的科技和生產(chǎn)的變革,對(duì)于機(jī)器人的操作系統(tǒng)需要提升到智能系統(tǒng)的水平,產(chǎn)生架構(gòu)性的變革。一個(gè)機(jī)器人因?yàn)橛辛四X、眼睛,加上行動(dòng)的控制,會(huì)在工廠發(fā)揮重大作用,可以真正達(dá)到按照人的要求接收指令、接收任務(wù)、自主規(guī)劃,適應(yīng)各種場景的需求。
● 第二部分是眼。這是智能的起點(diǎn),機(jī)器人/ 智能系統(tǒng)應(yīng)該突出眼睛的作用。可以通過很多方案,其中一種方案采用“AI+ 空間計(jì)算”,用普通的單目攝像頭+神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)組成這種方式,可以達(dá)到較好的效果,有很高的性價(jià)比,使機(jī)器人擁有類似人的視覺,有很好的適應(yīng)性,具有好用、易用、實(shí)用的特點(diǎn)。
● 第三部分是行動(dòng)。機(jī)器人要和很多本體——手、腳、輪子等發(fā)生交互,所以需要有一個(gè)操作系統(tǒng)。現(xiàn)在建議用開源的AGIROS 支撐“機(jī)器人的行動(dòng)”,這個(gè)開源的操作系統(tǒng)由中科院軟件所支持,是標(biāo)準(zhǔn)的開源機(jī)器人操作系統(tǒng),有開源的社區(qū)——AGIROS 社區(qū),凝聚機(jī)器人產(chǎn)學(xué)研用各方面的資源,可全面推進(jìn)智能機(jī)器人領(lǐng)域的發(fā)展。
通過開源開放、協(xié)同創(chuàng)新,為智能機(jī)器人發(fā)展打下堅(jiān)實(shí)的基礎(chǔ),目前有大批的單位以及開發(fā)者加入了這個(gè)社區(qū),相信借助開源的力量,AGIROS 會(huì)大大增強(qiáng)AI機(jī)器人的腦- 眼- 行動(dòng)協(xié)同系統(tǒng)競爭,在全球機(jī)器人中能夠起到應(yīng)有的作用。
5 愿景
今后機(jī)器人是包含腦、眼和行動(dòng)協(xié)同的具身智能體。我們的目標(biāo)是要構(gòu)建AI+ 機(jī)器人的生態(tài)系統(tǒng)。歷史上大的領(lǐng)域出現(xiàn)一些大的系統(tǒng),例如PC 時(shí)代有Wintel;移動(dòng)手機(jī)時(shí)代有AA;我們做的RV+OSS(機(jī)器人視覺+ 開放智能系統(tǒng))是人類智能體世界。進(jìn)入到機(jī)器人的世界、AI 體的世界,未來想提供“AI+RV(RISC-V)芯片”,形成一個(gè)“腦-眼- 行動(dòng)”的完整智能系統(tǒng)生態(tài),形成AI 及芯片生態(tài)的潮流。
此次講演歸納為兩點(diǎn)。
第一,當(dāng)前AI 引領(lǐng)科技范式變革的時(shí)代,在國家實(shí)施“AI+”行動(dòng)的大形勢下,機(jī)器人要發(fā)展成“AI+機(jī)器人”,更好地發(fā)揮其新質(zhì)生產(chǎn)力的作用。
第二,為了達(dá)到這個(gè)目標(biāo),關(guān)鍵在于提升機(jī)器人的智能水平,我們要用腦- 眼- 行動(dòng)協(xié)同的系統(tǒng)來提高機(jī)器人智能水平,使機(jī)器人真正能夠看見世界、理解世界、行動(dòng)于世界。
(本文來源于《EEPW》202512)












評(píng)論