久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 汽車電子 > 設計應用 > ICCV會議揭開了特斯拉FSD架構的秘密

ICCV會議揭開了特斯拉FSD架構的秘密

作者: 時間:2025-11-30 來源:EEPW 收藏

作為自動駕駛行業的行業標桿和技術路線的引領者,特斯拉曾經在2021-2023 年之間召開過兩次技術細節滿滿的AI Day,做過兩次CVPR會議的分享,向世人全面揭示了基于Transformer 的BEV、純視覺占用網絡OCC、基于神經輻射場NeRF 的三維重建技術,后來,或許是因為發展速度趨緩,或者如馬斯克所言的為了避免“友商逐幀學習”,特斯拉不再對外公開的技術方法論了。時隔兩年多之久,特斯拉AI副總裁、自動駕駛負責人Ashok在今年的ICCV上做了一次精彩的分享。作為自動駕駛行業今年最重要的技術分享之一,特斯拉在I 這次演講引發了一些誤讀和謠傳。有人(或許是理想汽車的利益相關者)認為 采用了理想汽車已經拋棄的雙系統方案,也有人(或許是小鵬汽車的利益相關者)認為 采用了小鵬力主的VLA 方案,那么,事情的真相到底是什么樣子?特斯拉FSD 到底采用了什么樣的架構呢?

1   不是雙系統方案

在自動駕駛的發展過程中,涌現出了不少容易被搞混的概念,其中之一便是雙系統這個理念。追根溯源,雙系統的說法來自2002年諾貝爾經濟學獎獲得者、心理學家丹尼爾· 卡尼曼 2011 年出版的《思考,快與慢》。在這本書里,卡尼曼將大腦劃分為快思考系統1和慢思考系統2。

image.png

圖片來源:Momenta

系統1采用自動、無意識、直覺式的運行模式,處理著我們日常生活中絕大部分決策,系統2采用受控、有意識、分析式的運行模式,用于承接系統1 無法解決的難題。經過十幾年的推廣,雙系統的概念日益深入人心。2018年以來,隨著可內嵌因果關系的Transformer架構的出現,生成式AI 系統都或多或少地同時擁有了面向簡單場景的直覺能力和面向復雜場景的推理能力。

1764494194757498.png

圖片來源:百度

從對這個概念的宣傳時間線來看,2023年,地平線于國內首個提出了基于雙系統概念的智能駕駛系統方案,進入2024年,百度、理想汽車、Momenta相繼在不同的場合對雙系統展開了宣傳。最有錢的理想汽車嗓門最大,自然而然地拿下了“行業首個”雙系統方案的桂冠。

1764494218896171.png

圖片來源:地平線

從“內容”的角度來看,生成式AI系統都同時具備基于直覺、快速響應的系統1和基于推理、提供高層次認知的系統2,但從“形式”的角度來看,生成式AI系統不一定要像理想汽車那樣通過兩個神經網絡實現。

1764494302623314.png

圖片來源:理想汽車

特斯拉這次演講中出現的系統2,顯然沒有采用理想汽車的“形式雙系統”方案。因為,經過反復的訓練,系統2的復雜技能可以轉化為系統1 的直覺反應,將深思熟慮的技能變為電光火石間的本能,系統1和系統2完全可以存在于同一個神經網絡里,而且,從形式上看,FSD是單個而非兩個大神經網絡。所以,別再拿特斯拉給理想汽車的雙系統方案背書了!

2   不是VLA方案

城頭變幻大王旗,自動駕駛行業每年都有熱議的話題。細數下來,21年的話題是前融合和基于Transformer的BEV,22年的熱議是占用網絡OCC和NOA進城,23年引發廣泛討論的是融合激光信息的OCC、純視覺OCC、基于無圖NOA 的開城大戰,24年的熱點是兩段式端到端、一段式端到端和雙系統方案,到了25 年,流量幾乎都給了理想、小鵬、小米、元戎啟行這些新勢力主導的VLA方案。

1764494400319198.png

圖片來源:理想汽車

小鵬、理想們力挺視覺語言動作模型 VLA,根本 原因在于 VLA 的核心 - 大語言模型具有強大的泛化能力和推理能力,從而賦予了 VLA 方案相較于傳統端到端方案更加強大的場景理解能力。也就是說,內嵌語言智能的大語言模型是 VLA 的核心,正是借助大語言模型的通用泛化能力,小鵬 VLA 和理想 VLA 才大幅度提升了對復雜場景的語義理解能力。

image.png

圖片來源:小鵬汽車

但是,這并不意味著加入了語言智能,系統就采用了 VLA 模型的架構。這個道理就跟從智能的角度來看,現有頭部自動駕駛系統都是雙系統,但同樣具備系統 1 快速響應能力和系統 2 復雜推理能力的很多方案都沒有采用理想汽車那種形式雙系統方案是一樣的。事實上,理想 VLA 不也是把系統 1 和系統 2 集成進一個系統里了嗎?

1764494483123714.png

圖片來源:理想汽車

特斯拉FSD引入語言智能,主要目的是增強FSD這個黑盒系統的可解釋性。也就是說,特斯拉FSD中的語言智能是給人看的,一方面用于提升用戶對自動駕駛系統的信任感,一方面可以作為中間結果,供開發人員檢查缺陷,VLA中的語言智能除了給人看,更多是用來生成動作token ,直接指導車輛的運動控制。

image.png

圖片來源:特斯拉

可以認為,FSD端到端神經網絡中有一個小推理模型,專門用于以自然語言的形式展示對場景的理解和決策的機制,從作用上看,它更像是一個VLM。所以,也別拿特斯拉給VLA 路線背書了。

是世界模型嗎?

人生如同打地鼠,每解決一個舊問題就會冒出一個新問題。解決了車端FSD推理模型既不是雙系統也不是VLA的老問題,馬上跳出來的新問題就是,FSD使用的是世界模型嗎?

特斯拉AI副總裁、自動駕駛負責人阿肖克明確指出,特斯拉的世界模擬器用于在云端提供模型測試驗證和強化學習的環境。它跟駕駛智能體或駕駛模型連接起來,形成評估其性能的閉環。

1764494671622171.png

圖片來源:特斯拉

從技術原理上看,特斯拉世界模擬器和蔚來汽車云端世界模型采用了同樣的方案,即根據當前狀態和下一步的動作,預測生成未來的狀態。從概念上看,世界模擬器根據下一步動作預測未來狀態,進行的是“當前狀態+ 動作-> 未來狀態”的物理推演,而車端推理模型做的事情正相反,是根據當前狀態預測下一步的動作,進行的“當前狀態-> 動作”的預測。

1764494837330738.png

圖片來源:特斯拉

不過,蔚來明確指出,其車端推理模型同樣采用世界模型,通過推演不同動作下的狀態,并對在不同自車動作軌跡下的場景進行排序,選出最優的路徑最優解。可以通過選擇行駛軌跡,也就是說,它進行的“當前狀態-> 動作”的預測形成了“當前狀態+ 潛在動作-> 各類未來狀態-> 動作”的完整閉環。

image.png

圖片來源:蔚來汽車

從特斯拉的表態來看,它在云端生成了一個基于反事實推理的虛擬世界,高精度模擬重力、碰撞、流體動力學等物理規則,根據FSD智能體的傳感器數據和動作實時生成高保真的駕駛場景,讓FSD在這個虛擬世界中7x24小時不間斷行駛, 進行長尾場景的壓力測試并評估其長期表現。至于在車端,FSD到底部署的是不是“反事實推理”形式的世界模型,特斯拉沒有給出明確的答案。

3   寫在最后

為了避免友商學習,車端FSD 推理模型架構應該是特斯拉的頭號機密。如果非要說出個一二三,可以明確的是,FSD 既沒有采用雙系統方案,也沒有采用VLA技術路線,其技術路線更接近于內嵌對物理規律的理解能力的世界行為模型,跟華為的WA 架構更加接近。不過,在WA架構上,華為的細節分享也不多。不要覺得他們小氣,行業正處于輔助駕駛邁向自動駕駛的關鍵階段,誰也不想分享自己的殺手锏,理解萬歲吧。

矛盾永遠存在于一切事物的發展過程中,貫穿于每一事物的發展始終。

(本文來源于《EEPW》


關鍵詞: 202511 ICCV會議 FSD

評論


技術專區

關閉