倪光南：“AI+空間計(jì)算”讓機(jī)器人看懂世界，希望形成“AI+RV芯片”的生態(tài)

作者：魯冰時(shí)間：2025-12-24 來源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

在北京“2025 世界機(jī)器人大會(huì)”上，中國工程院院士倪光南作了題為《“AI+ 空間計(jì)算”讓機(jī)器看懂世界》的報(bào)告，指出“AI+ 空間計(jì)算”是落實(shí)“AI+”行動(dòng)的核心技術(shù)之一。傳統(tǒng)工業(yè)化是工業(yè)4.0，新型工業(yè)化相當(dāng)于工業(yè)5.0，是“AI+ 機(jī)器人”的階段。我們正在做的RV+OSS（機(jī)器人視覺+ 開放智能系統(tǒng)）是人類智能體的世界，未來想提供“AI+RV 芯片”，形成一個(gè)“腦-眼- 行動(dòng)”的完整智能系統(tǒng)的生態(tài)。

中國工程院院士倪光南

1 “ AI+ 空間計(jì)算”是落實(shí)“AI+”行動(dòng)的核心技術(shù)

“AI+ 空間計(jì)算”開啟了二維交互向三維交互發(fā)展的新范式。空間計(jì)算作為一種全新的計(jì)算方式，是物理世界和數(shù)字世界之間的橋梁，正在重塑人類、機(jī)器和世界的交互方式，它是推動(dòng)機(jī)器人落地的關(guān)鍵核心技術(shù)之一。

歷史上經(jīng)歷了從電報(bào)、文字、語音、視頻的發(fā)展，目前正進(jìn)入一個(gè)重要的從二維交互向三維交互發(fā)展的時(shí)期。空間計(jì)算在其中起著重要的作用。

生成式大語言模型目前引領(lǐng)著科技的發(fā)展，但是大語言模型不是世界的全部，生成式AI 不能完全輻射復(fù)雜的物理世界，空間計(jì)算和AI 融合正以一種全新的方式重構(gòu)三維物理世界，拓展了大模型通向物理世界的橋梁，促進(jìn)了物理世界和數(shù)字世界的融合。因此，“AI+ 空間計(jì)算”是當(dāng)前落實(shí)“AI+”行動(dòng)的一項(xiàng)關(guān)鍵核心技術(shù)。

2 視覺是智能的起點(diǎn)

機(jī)器人的眼睛“AI+ 空間計(jì)算”主要是為了提升視覺的功能。

生物進(jìn)化史中，智能的起點(diǎn)是物理性。在物理世界中，首先是視覺，從眼睛開始，與大腦構(gòu)成了對(duì)信息的獲取與處理系統(tǒng)，2018 年圖靈獎(jiǎng)獲得者楊立昆（Yann LeCun）教授（注：Facebook 首席AI 科學(xué)家和紐約大學(xué)教授）有一個(gè)說法：一個(gè)大模型學(xué)習(xí)的信息量大概是1014，相當(dāng)于互聯(lián)網(wǎng)上所有公開文本信息量的總和，一個(gè)人可能幾十萬年才可以學(xué)到，但是一個(gè)4 歲的小孩睜開眼睛能學(xué)到的信息量也大概就是1014。這就說明我們的大語言模型訓(xùn)練所用的文本信息是不夠的。

我們要認(rèn)識(shí)世界、理解世界還需要用到大量的視頻信息，我們要重視眼睛，視覺是智能的起點(diǎn)，是物理世界控制感知的基礎(chǔ)，是大腦和物理世界作用的橋梁。

“AI+ 機(jī)器人”在工廠實(shí)際工作的情況是怎樣的？會(huì)發(fā)現(xiàn)機(jī)器人看到的世界基本上和人眼看到的相當(dāng)，但是機(jī)器人用“AI+ 空間計(jì)算”進(jìn)行理解和建模。由于機(jī)器人有了眼睛，可在移動(dòng)環(huán)境下快速地觀察環(huán)境，知道精確的位置。

3 工廠管理的變遷——正進(jìn)入工業(yè)5.0

在不同的工業(yè)化時(shí)期，制造業(yè)和機(jī)器人的變化是怎樣的？一個(gè)是傳統(tǒng)工業(yè)化，一個(gè)是新型工業(yè)化。傳統(tǒng)工業(yè)化是工業(yè)4.0，新型工業(yè)化相當(dāng)于工業(yè)5.0。歷史上，制造業(yè)的發(fā)展從自動(dòng)化到智能化，現(xiàn)在向“AI+ 工業(yè)制造”發(fā)展。對(duì)于工廠，生產(chǎn)模式過去強(qiáng)調(diào)的是剛性化、標(biāo)準(zhǔn)化，目前要融合柔性制造、定制化。

工廠的管理過去是被動(dòng)的，人去編排作業(yè)；現(xiàn)在是工廠的大腦自主決策。我們過去是很多工業(yè)軟件一起用，現(xiàn)在是很多工業(yè)軟件會(huì)以工作流的方式滲透到整個(gè)工作流程中。數(shù)字世界、物理世界過去相當(dāng)于影射的關(guān)系，現(xiàn)在達(dá)到了融合，把數(shù)字和物理世界融合起來。

作為機(jī)器人，從自動(dòng)化的工具變成智能化的主體，成為工廠的主體，現(xiàn)在是由具身智能系統(tǒng)進(jìn)行控制。參照自動(dòng)駕駛汽車智能等級(jí)分級(jí)，機(jī)器人過去是L1~L3，是半自動(dòng)、自動(dòng)化的，現(xiàn)在想達(dá)到L4、L5，作為智能化的自主移動(dòng)的機(jī)器人，操作的按鍵、鍵盤、鼠標(biāo)，希望可以用自然語言來交互，教它工作；從人工編程發(fā)展到大模型編程，從固定工位發(fā)展到多工位的移動(dòng)工作，同時(shí)無需部署調(diào)整，即插即用。為了達(dá)到高精度的工作，過去要花很長時(shí)間；現(xiàn)在移動(dòng)工作可以做到，而且非常快速，以很低的代價(jià)就可以實(shí)現(xiàn)。總之，希望人、貨、機(jī)將來在工廠生產(chǎn)線上是互相協(xié)同、取長補(bǔ)短的。

4 “ AI+ 機(jī)器人”的階段

機(jī)器人的智能通常可分為三大部分：腦- 眼- 行動(dòng)系統(tǒng)。這三部分組合在一起，成為具身智能系統(tǒng)。目前的情況是在腦和眼的方面投入不夠，相對(duì)是短板，需要特別予以加強(qiáng)，以更好地提升機(jī)器人的效能。

正像汽車一樣，汽車智駕可以從L1~L5 分為不同的等級(jí)，一些組織機(jī)構(gòu)也把機(jī)器人進(jìn)行了相似的分類。目前的機(jī)器人大體上處于L1~L3，我們希望通過眼睛和腦的發(fā)展，把機(jī)器人整體的智能水平發(fā)展到L4 及以上，這樣機(jī)器人才能更好地體現(xiàn)移動(dòng)、自主、高精度的能力，發(fā)揮其在提升生產(chǎn)效率方面的作用。

機(jī)器人將要從自動(dòng)化的工具發(fā)展到AI+ 機(jī)器人，整個(gè)過程要用機(jī)器人的智能系統(tǒng)加強(qiáng)發(fā)展機(jī)器人原來的操作系統(tǒng)，使機(jī)器人的控制從實(shí)時(shí)操作系統(tǒng)變成腦- 眼-行動(dòng)一體化的智能系統(tǒng)。使機(jī)器人能夠看見世界、理解世界、行動(dòng)于世界。

AI+ 機(jī)器人分為幾個(gè)部分。

● 第一部分是腦。機(jī)器人必須有自己的腦。大腦是基于大模型的，現(xiàn)在大模型引領(lǐng)各方面的科技和生產(chǎn)的變革，對(duì)于機(jī)器人的操作系統(tǒng)需要提升到智能系統(tǒng)的水平，產(chǎn)生架構(gòu)性的變革。一個(gè)機(jī)器人因?yàn)橛辛四X、眼睛，加上行動(dòng)的控制，會(huì)在工廠發(fā)揮重大作用，可以真正達(dá)到按照人的要求接收指令、接收任務(wù)、自主規(guī)劃，適應(yīng)各種場景的需求。

● 第二部分是眼。這是智能的起點(diǎn)，機(jī)器人/ 智能系統(tǒng)應(yīng)該突出眼睛的作用。可以通過很多方案，其中一種方案采用“AI+ 空間計(jì)算”，用普通的單目攝像頭+神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)組成這種方式，可以達(dá)到較好的效果，有很高的性價(jià)比，使機(jī)器人擁有類似人的視覺，有很好的適應(yīng)性，具有好用、易用、實(shí)用的特點(diǎn)。

● 第三部分是行動(dòng)。機(jī)器人要和很多本體——手、腳、輪子等發(fā)生交互，所以需要有一個(gè)操作系統(tǒng)。現(xiàn)在建議用開源的AGIROS 支撐“機(jī)器人的行動(dòng)”，這個(gè)開源的操作系統(tǒng)由中科院軟件所支持，是標(biāo)準(zhǔn)的開源機(jī)器人操作系統(tǒng)，有開源的社區(qū)——AGIROS 社區(qū)，凝聚機(jī)器人產(chǎn)學(xué)研用各方面的資源，可全面推進(jìn)智能機(jī)器人領(lǐng)域的發(fā)展。

通過開源開放、協(xié)同創(chuàng)新，為智能機(jī)器人發(fā)展打下堅(jiān)實(shí)的基礎(chǔ)，目前有大批的單位以及開發(fā)者加入了這個(gè)社區(qū)，相信借助開源的力量，AGIROS 會(huì)大大增強(qiáng)AI機(jī)器人的腦- 眼- 行動(dòng)協(xié)同系統(tǒng)競爭，在全球機(jī)器人中能夠起到應(yīng)有的作用。

5 愿景

今后機(jī)器人是包含腦、眼和行動(dòng)協(xié)同的具身智能體。我們的目標(biāo)是要構(gòu)建AI+ 機(jī)器人的生態(tài)系統(tǒng)。歷史上大的領(lǐng)域出現(xiàn)一些大的系統(tǒng)，例如PC 時(shí)代有Wintel；移動(dòng)手機(jī)時(shí)代有AA；我們做的RV+OSS（機(jī)器人視覺+ 開放智能系統(tǒng)）是人類智能體世界。進(jìn)入到機(jī)器人的世界、AI 體的世界，未來想提供“AI+RV（RISC-V）芯片”，形成一個(gè)“腦-眼- 行動(dòng)”的完整智能系統(tǒng)生態(tài)，形成AI 及芯片生態(tài)的潮流。

此次講演歸納為兩點(diǎn)。

第一，當(dāng)前AI 引領(lǐng)科技范式變革的時(shí)代，在國家實(shí)施“AI+”行動(dòng)的大形勢下，機(jī)器人要發(fā)展成“AI+機(jī)器人”，更好地發(fā)揮其新質(zhì)生產(chǎn)力的作用。

第二，為了達(dá)到這個(gè)目標(biāo)，關(guān)鍵在于提升機(jī)器人的智能水平，我們要用腦- 眼- 行動(dòng)協(xié)同的系統(tǒng)來提高機(jī)器人智能水平，使機(jī)器人真正能夠看見世界、理解世界、行動(dòng)于世界。

（本文來源于《EEPW》202512）