久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

EEPW首頁 > 博客 > 理想汽車智駕方案介紹 4 | World model + 強化學習重建自動駕駛交互環境

理想汽車智駕方案介紹 4 | World model + 強化學習重建自動駕駛交互環境

發布人:地平線開發者 時間:2025-09-06 來源:工程師 發布文章
一、前言

【理想汽車智駕方案介紹專題 -1】端到端+VLM 方案介紹

【理想汽車智駕方案介紹專題 -2】MindVLA 方案詳解

【理想汽車智駕方案介紹專題 -3】MoE+Sparse Attention 高效結構解析

在前面的 3 篇文章中,筆者已經比較詳細地介紹了 V、L、A 模塊,本帖介紹 World Model + 強化學習打通自動駕駛閉環仿真鏈路。

自動駕駛達到人類駕駛水平是遠遠不夠的,這項技術的使命是超越人類的駕駛水平,使得駕駛過程更加安全、可靠、輕松。通常大家認為強化學習是自動駕駛超越人類駕駛水平的核心技術,但是以往的一些嘗試都沒有取得比較明顯的成果。理想認為這里主要有兩個限制因素:

  • **無法實現車端端到端訓練:**傳統的車端架構不能實現端到端的可訓練,強化學習做一種稀疏的弱監督過程,在當前的架構上無法實現高效無損的信息傳遞,強化學習的效果的大大降弱;

  • **缺乏真實的自動駕駛交互環境:**過去都是基于 3D 的游戲引擎,場景真實性不足,缺少真實的交互自動駕駛交互環境,而且場景建設效率低下且場景建設規模小,模型很容易學偏,發生 hack reward model,模型往往不可用。

img

VLA 模型的出現解決了上述第一個限制,第二個限制則依賴于真實、良好的 3D 交互環境數據做 3D 重建和生成。

純生成模型的具備良好的泛化能力能夠生成多變的場景,但也會出現不符合物理世界規律的幻覺,必然不滿足自動駕駛場景的嚴格要求。純重建模型依賴于真實數據呈現出 3D 場景,在大視角變幻下可能出現空洞和變形,也無法滿足自動駕駛場景的需求。

理想的解決方案是:以真實數據的 3D 重建為基礎,在不同的視角下添加噪音來訓練模型的生成能力,從而恢復模糊的視角,這樣的話生成模型就具有了多視角的生成能力。

自動駕駛場景重建和生成結合的相關技術細節可參見理想團隊今年 CVPR2025 中的四篇論文:StreetCrafter、DrivingSphere、DriveDreamer4D 與 ReconDreamer,參考文獻中貼出了鏈接。

本帖將以 DrivingSphere 為例來解析這個過程。

二、DrivingSphere
2.1 解決問題
  1. 開環模擬在動態決策評估方面的問題:目前的開環模擬方式(例如根據公開數據集進行固定路線的路點預測),雖然能生成很逼真的傳感器數據,但它沒有動態反饋機制,無法評估自動駕駛系統在動態場景下的決策能力。此外,它的數據分布是固定的,數據種類不多,很難檢驗算法在不同情況下的適應能力。

  2. 閉環模擬在視覺真實性和傳感器兼容性上的問題:傳統的閉環模擬方法(例如基于交通流或游戲引擎的方法),雖然支持通過反饋來驅動多個智能體之間的交互,但存在兩個主要問題:

    1. 它無法處理視覺傳感器傳來的信息,與基于視覺的端到端模型不太適配。

    2. 它輸出的傳感器數據與真實世界的情況差異較大,導致訓練場景和驗證場景存在“差異”,難以有效檢驗算法在輸入真實數據時的表現。

2.2 創新點
  1. 閉環仿真框架與 4D 世界表示

    1. DrivingSphere 是首個融合了幾何先驗信息的生成式閉環仿真框架。它構建 4D 世界表示(就是把靜態背景和動態對象融合成占用網格),能生成逼真且可控制的駕駛場景。這樣就解決了開環仿真沒有動態反饋,以及傳統閉環仿真視覺效果和真實數據有差距的問題。

    2. 我們首次將文本提示和 BEV 地圖結合起來,用于驅動 3D 占用生成。借助場景擴展機制,我們可以構建城市規模的靜態場景,而且這個場景的區域可以無限擴大。

  2. 多維度仿真能力突破

  3. 模塊化設計與技術整合

2.3 模型結構

img

如上圖所示,DrivingSphere 由動態環境組成模塊(Dynamic Environment Composition)、視覺場景合成模塊(Visual Scene Synthesis)和閉環反饋機制(Agent Interplay and Closed-Loop Simulation)組成,下面將逐一對這 3 個模塊進行介紹。

2.3.1 動態環境組成模塊

該模塊構建包含靜態背景與動態主體的 4D 駕駛世界,核心技術圍繞 OccDreamer 擴散模型與動作動態管理展開。

將 4D 世界表示定義為:

img

其中 *S_*city 為靜態背景,An 為動態智能體,Pn 為智能體時空位置序列。

所有元素以占用網格(Occupancy Grid) 形式存儲,支持空間布局與動態智能體的統一建模。

OccDreamer 結構如下圖所示,基于 BEV 地圖與文本提示,生成城市級 3D 靜態場景,解決傳統方法依賴固定數據集的局限。其技術路徑為 3 階段架構,即:

img

  • 占用標記器(Occupancy Tokenizer):使用 VQVAE 將 3D 占用數據映射為潛在特征 \(Z^S\),通過組合損失函數(CE 損失、Lovász 損失)優化重建精度。

  • 可控區域生成:結合 CLIP 文本嵌入與 ControlNet 驅動的 BEV 地圖編碼,通過擴散模型實現文本 - 幾何聯合控制的區域占用生成。

  • 場景擴展機制:利用相鄰區域重疊掩碼作為條件約束,通過擴散模型迭代擴展場景,確保城市級空間一致性。

2.3.2 視覺場景合成模塊

該模塊將 4D 占用數據轉換為高保真多視圖視頻,核心在于雙路徑條件編碼與 ID 感知表示。

VideoDreamer 框架

VideoDreamer 的輸入數據為 4D 駕駛世界和智能體增強嵌入;輸出為多視圖、多幀的高保真視頻序列,支持自動駕駛系統的感知測試。其結構如下圖所示:

img

主要由時空擴散 Transformer(ST-DiT)、條件編碼機制、噪聲處理與視頻生成組成,下面進行逐一介紹。

  1. 時空擴散 Transformer(ST-DiT):

    1. 視圖感知空間自注意力(VSSA):處理多視圖特征的空間一致性,將視圖、高度、寬度維度合并為序列,降低跨視圖注意力的計算復雜度。

    2. 時間自注意力:捕捉視頻幀間的時間依賴關系,確保動作連續性(如車輛運動軌跡平滑)。

    3. 交叉注意力:注入場景上下文與智能體身份信息(如\(F_{\text{fuse}}\)),增強生成視頻的語義準確性。

    4. 前饋網絡(FFN):特征非線性變換,提升表示能力。

    5. 作為核心網絡架構,包含多個 ST-DiT 模塊,每個模塊集成:

  2. 條件編碼機制:

    1. 全局幾何特征:通過 4D 占用編碼器提取場景的整體空間結構(如道路布局、建筑物位置)。

    2. 智能體 ID 與位置編碼:使用傅里葉編碼將智能體的 3D 位置和唯一 ID 轉換為特征向量,確保不同幀中同一智能體的外觀一致性(如紅色車輛在各視角中保持顏色和形狀)。

    3. 文本描述嵌入:通過 T5 模型編碼智能體的文本說明(如 “一群行人”),指導語義細節生成。

  3. 噪聲處理與視頻生成流程:

    1. 輸入隨機噪聲,通過擴散模型的去噪過程逐步生成視頻幀。

    2. 自回歸生成策略:基于前一幀生成后續幀,確保時間維度的連貫性(如車輛轉彎動作的平滑過渡)。

2.3.3 閉環反饋機制

閉環反饋機制是 DrivingSphere 實現動態仿真的核心模塊,通過自動駕駛代理與模擬環境的雙向交互,形成 “代理動作 - 環境響應” 的實時循環,支持算法在真實場景下的驗證。其技術核心與創新點為:

  1. 雙向動態反饋

    1. 代理動作直接影響環境(如自我代理轉向導致周邊車輛避障),環境變化又反作用于代理感知,模擬真實交通中的交互復雜性。

  2. 多智能體協同控制

    1. 通過交通流引擎實現大規模智能體協同(如車流、行人集群),支持復雜場景(如十字路口通行、環島繞行)的仿真。

  3. 數據閉環驗證

    1. 支持 “仿真 - 測試 - 優化” 的迭代流程:通過閉環反饋暴露算法缺陷(如緊急制動誤觸發),指導模型改進。

三、參考文獻

StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models

Balanced 3DGS: Gaussian-wise Parallelism Rendering with Fine-Grained Tiling

ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration

DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation

igh-fidelity 4D World for Closed-loop Simulation](https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2411.11252)

DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation


*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



相關推薦

技術專區

關閉