久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁(yè) > 汽車電子 > 牛人業(yè)話 > 別吵了,VLA只是通往世界模型的過渡方案

別吵了,VLA只是通往世界模型的過渡方案

作者:電車曼曼談 時(shí)間:2026-01-27 來源: 收藏

25年11月的AI科技日上,正式推出了第二代架構(gòu),一句“是,也是世界”的表態(tài),標(biāo)志著圖靈AI算法正式轉(zhuǎn)向了華為、特斯拉主導(dǎo)的世界。為了繼承過去一年來在上的營(yíng)銷成果,同時(shí)避免給本土頭號(hào)競(jìng)爭(zhēng)對(duì)手華為當(dāng)綠葉,依然倔強(qiáng)地保持著VLA的宣傳口徑,但在事實(shí)上,其第二代VLA基于“感知-行動(dòng)”閉環(huán),采用世界的V+L->A算法架構(gòu),已經(jīng)脫離了基于“感知-語(yǔ)言-行動(dòng)”閉環(huán)的標(biāo)準(zhǔn)V-L-A架構(gòu)。小鵬的轉(zhuǎn)向意味著攪擾了本土行業(yè)半年之久的VLA和世界模型之爭(zhēng)即將走向結(jié)束。那么,放在更大的AI行業(yè)背景下,標(biāo)準(zhǔn)VLA架構(gòu)和世界模型的根本區(qū)別在哪兒,為何頭部智駕企業(yè)紛紛轉(zhuǎn)向世界模型呢?

兩種智能形式

25年11月10日,李飛飛發(fā)表萬(wàn)字長(zhǎng)文-《空間智能是人工智能的下一個(gè)前沿》,洋洋灑灑一大篇,將人們對(duì)AI的關(guān)注焦點(diǎn)從面向數(shù)字世界的語(yǔ)言模型引向了面向物理世界的世界模型。借用這位在上世紀(jì)八十年代末九十年代因故初移民大美麗的華裔科學(xué)家的言論,“至少對(duì)AI而言,世界遠(yuǎn)不止于文字。空間智能代表了語(yǔ)言之外的前沿”,語(yǔ)言智能并不能囊括人工智能的所有內(nèi)涵。事實(shí)上,根據(jù)業(yè)界共識(shí),存在語(yǔ)言智能、空間智能兩種主要的智能形式,分別對(duì)應(yīng)AI之父圖靈七十多年前所講的抽象計(jì)算和具身智能兩條發(fā)展路徑。

1769484665741136.png

圖片來源:輝羲智能

從本質(zhì)上講,標(biāo)準(zhǔn)VLA以抽象的語(yǔ)言智能為核心,世界模型則以直觀的空間智能為核心。這種回歸本質(zhì)的洞察讓之前的VLA-世界模型之爭(zhēng)多多少少顯得有些無(wú)厘頭,因?yàn)椋粋€(gè)很容易就能得出的結(jié)論是,對(duì)于而言,其面臨的真實(shí)交通場(chǎng)景之復(fù)雜遠(yuǎn)非語(yǔ)言模型能夠完全理解和描述,具備空間智能的世界模型才是讓自動(dòng)駕駛系統(tǒng)能夠超越規(guī)則和文本描述、獲得對(duì)物理世界直觀理解的關(guān)鍵。對(duì)應(yīng)到人類這個(gè)物種智能的發(fā)展史上,駕駛?cè)蝿?wù)更多依賴的是在語(yǔ)言出現(xiàn)之前的幾十億年里發(fā)展出來的具身智能,這是一種比語(yǔ)言智能更基礎(chǔ)、更古老的智能形式,而非文字出現(xiàn)之后的幾千年里才發(fā)展出來的語(yǔ)言智能。

0321fb64-1f1a-442d-8924-a4dc584bccec.png

圖片來源:清華大學(xué)

代表語(yǔ)言智能的大語(yǔ)言模型LLM是對(duì)信息和思想的高度壓縮和編碼,基本原理是基于“下一個(gè)Token預(yù)測(cè)”的認(rèn)知生成。作為一種一維序列信號(hào),語(yǔ)言這種描述世界的工具在壓縮和編碼上的損失程度非常大。即便文本大語(yǔ)言模型之后的多模態(tài)大語(yǔ)言模型MLLM在文本數(shù)據(jù)之外接受了大量視頻數(shù)據(jù)的訓(xùn)練,讓它們具備了一些基礎(chǔ)的空間意識(shí),但是,它們?cè)诠浪憔嚯x、方向和尺寸這些關(guān)鍵的空間要素時(shí)依然存在非常大的誤差,以至于這類MLLM無(wú)法完整表征自動(dòng)駕駛車輛在其中運(yùn)行的真實(shí)3D物理世界,在跟空間物理世界互動(dòng)時(shí)存在很多局限。

 effdffc7-ab35-4270-9694-1c66d01b79e4.png

圖片來源:極氪

相較于以語(yǔ)言作為主要表達(dá)方式的數(shù)字世界,物理世界遵循的規(guī)則要復(fù)雜得多,有各種各樣的物理定律約束著交通參與者的每一次互動(dòng)。交通場(chǎng)景中包含各種遵循物理定律和自身動(dòng)態(tài)行為特性的空間物體,面對(duì)跟交通行為密切相關(guān)的所有這些物體的語(yǔ)義、幾何、動(dòng)態(tài)和物理信息,自動(dòng)駕駛系統(tǒng)必須通過一種遠(yuǎn)比文本一維序列信號(hào)復(fù)雜得多的“特殊語(yǔ)言”,或隱式或顯式地建立起對(duì)世界本身的深刻理解,內(nèi)嵌包含對(duì)三維空間的理解、推理和交互能力的空間智能,才能在三維的世界中安全運(yùn)行。

維度壓縮與世界的坍塌

從維度的視角,我們很容易就能發(fā)現(xiàn),語(yǔ)言模型在自動(dòng)駕駛?cè)蝿?wù)中的根本局限在于試圖以一維序列信號(hào)描述中間差著兩個(gè)維度的三維物理空間!這種方法不僅在難度上“蜀道難,難于上青天”,在理念上也存在天然的缺陷。

從本質(zhì)上來講,文本語(yǔ)言是一個(gè)一維且離散的符號(hào)序列,作為大語(yǔ)言模型在自動(dòng)駕駛中的衍生模型,VLA以大語(yǔ)言模型為核心,通過一維的文本Token來理解和生成對(duì)世界的描述。也就是說,在自動(dòng)駕駛算法中,VLA模型先將來自攝像頭的二維圖像和來自激光雷達(dá)的三維點(diǎn)云這些二、三維世界的豐富信息向下降維,翻譯成一維的語(yǔ)言信號(hào),再通過大語(yǔ)言模型進(jìn)行推理。從二維和三維到一維的轉(zhuǎn)換,不僅帶來了推理延遲的問題,更重要的是,這種降維方式必然面臨嚴(yán)重的損失和失真。

9002a677-e291-46f1-bc8c-1600f0015306.png

圖片來源:地平線

相較于語(yǔ)言模型這種一維的描述者,世界模型更像是三維世界的模擬者。在本質(zhì)上,自動(dòng)駕駛車輛行駛的物理世界是三維空間疊加時(shí)間維度的連續(xù)存在,世界模型通過無(wú)法以自然語(yǔ)言形式表達(dá)的特殊語(yǔ)言,在內(nèi)部直接構(gòu)建一個(gè)動(dòng)態(tài)的、包含自車和其它交通參與者幾何、形狀、距離、速度、加速度等物理屬性的世界表征,繞過語(yǔ)言的代理,直接在高維度的連續(xù)狀態(tài)空間中推理和動(dòng)作。

到這里,我們可以反向運(yùn)用一下維特根斯坦的那句名言了。這位散盡家財(cái)?shù)膫ゴ笳軐W(xué)家說,語(yǔ)言的邊界就是世界的邊界。反過來想就是,對(duì)于依賴于語(yǔ)言智能的AI模型而言,其世界的豐富性被死死地限制在了一維語(yǔ)言所能描述的范圍之內(nèi),而這個(gè)精彩的物理世界上存在著多少語(yǔ)言無(wú)法精確表達(dá)、只可意會(huì)不可言傳的微妙細(xì)節(jié)呢?

語(yǔ)言智能不可或缺

小孩子才做選擇題,成年人選擇我都要。對(duì)自動(dòng)駕駛系統(tǒng)而言,雖然語(yǔ)言智能存在著諸多缺陷,但它也是不可或缺的。其實(shí),人類駕駛員的優(yōu)越性恰恰在于我們同時(shí)擁有語(yǔ)言智能和空間智能這兩種能力,我們既能用語(yǔ)言來思考紅燈停、綠燈行的交通規(guī)則,也能依賴強(qiáng)大的空間智能實(shí)現(xiàn)安全的操控。

在一個(gè)完整的自動(dòng)駕駛系統(tǒng)架構(gòu)中,語(yǔ)言智能負(fù)責(zé)高層次任務(wù)規(guī)劃與交互,對(duì)司機(jī)或乘客以非結(jié)構(gòu)化自然語(yǔ)言給出的指令進(jìn)行意圖理解和任務(wù)分解,還可以通過文字或語(yǔ)音的方式給出路況解析,增強(qiáng)用戶對(duì)自動(dòng)駕駛系統(tǒng)的信任感。空間智能負(fù)責(zé)具體的環(huán)境感知、精準(zhǔn)定位、行為預(yù)測(cè)和動(dòng)作執(zhí)行,識(shí)別各類目標(biāo)、預(yù)測(cè)其它交通參與者意圖、避開障礙物、完成加減速和轉(zhuǎn)向等動(dòng)作。

3e4023bf-d5a4-4a8f-869a-d1842ee189e2.png

圖片來源:理想汽車

我們也可以借用具身智能領(lǐng)域的大小腦理論來區(qū)分語(yǔ)言智能和空間智能。基于語(yǔ)言模型的大腦負(fù)責(zé)人機(jī)交互,在更高層級(jí)進(jìn)行意圖理解、任務(wù)拆解、路線規(guī)劃、目的地變更、場(chǎng)景解釋,基于世界模型的小腦負(fù)責(zé)運(yùn)動(dòng)控制,基于對(duì)三維空間和時(shí)間的理解,預(yù)測(cè)各個(gè)交通參與者之間的互動(dòng)如何影響四維空間中的變化和分布,并生成自車的駕駛動(dòng)作。

總之,語(yǔ)言智能和空間智能是分工協(xié)作而非互相排斥的關(guān)系,其最終的目的都是為了更安全、更高效地完成駕駛?cè)蝿?wù)。

寫在最后

為了實(shí)現(xiàn)自動(dòng)駕駛,我們需要的是與語(yǔ)義、物理、幾何和動(dòng)態(tài)上都極為復(fù)雜的物理世界進(jìn)行互動(dòng)的能力,這種精細(xì)且嚴(yán)苛的理解、推理、生成能力遠(yuǎn)非今天的大語(yǔ)言模型所能及,這是頭部自動(dòng)駕駛玩家果斷拋棄以大語(yǔ)言模型為核心的VLA技術(shù)路線的根本原因。不過,語(yǔ)言也是這個(gè)三維世界的重要組成部分,要實(shí)現(xiàn)高等級(jí)自動(dòng)駕駛,既需要具備感知、推理、規(guī)劃和行動(dòng)的空間智能,具備高層次抽象表達(dá)或描述能力的語(yǔ)言智能也是不可或缺的。不過,對(duì)駕駛?cè)蝿?wù)而言,空間智能是主要矛盾,語(yǔ)言智能是次要矛盾,基于這一點(diǎn),VLA或許只是通向世界模型的中間過渡方案。


關(guān)鍵詞: VLA 模型 小鵬 自動(dòng)駕駛

評(píng)論


相關(guān)推薦

推薦視頻

更多>>

技術(shù)專區(qū)

關(guān)閉