久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

EEPW首頁 > 博客 > 大模型 | VLA 初識及在自動駕駛場景中的應用

大模型 | VLA 初識及在自動駕駛場景中的應用

發布人:地平線開發者 時間:2025-10-24 來源:工程師 發布文章
一、VLA 簡介1.1 VLA 定義

VLA (Vision Language Action)是一種多模態機器學習模型,結合了視覺、語言和動作三種能力,旨在實現從感知輸入直接映射到控制動作的完整閉環能力。VLA 強調一體化多模態端到端架構,非感知規控的模塊化方案。


下圖是常見端到端的框架,是 RT-2、OpenVLA、CLIP-RT 等 VLA 系統的典型代表,這些系統均采用基于 Transformer 的視覺和語言骨干網絡,并通過跨模態注意力機制進行融合。



該架構融合視覺、語言和本體感受三類編碼器,視覺編碼器(如 ViT、DINOv2)提取圖像特征,語言編碼器(如 PaLM、LLaMA)將自然語言指令嵌入相同空間,狀態編碼器則將機器人感知與運動狀態編碼為輔助 tokens,支持可達性推理與反饋調整。


所有 tokens 拼接后送入 Transformer,可通過擴散策略(如 Diffusion Policy)或直接映射策略得到控制命令。輸出可為連續動作信號(如執行器速度)。

1.2 VLA 典型結構

VLA 模型典型結構如下,圍繞視覺編碼器、語言編碼器和動作解碼器三個關聯模塊構建



視覺編碼器中:


  • 基于 CLIP 和 SigLIP 的編碼器因對比學習帶來的強視覺文本對齊能力受青睞,應用于 CLIPort 等模型;

  • DINOv2、Qwen2 VIT 等 ViT 變體因能建模長距離空間依賴和高級視覺語義,應用于 HybridVLA 等模型;

  • ResNet、EfficientNet 等基于 CNN 的編碼器則出現在 CLIPort、ACT、RT-1、QUAR-VLA 等模型中;


語言編碼器:


  • LLaMA 和 Vicuna 系列用于 RevLA、OpenVLA 等模型,支持指令理解和零樣本推理;

  • T5 風格模型應用于 VIMA、Octo 等,提供靈活的編碼器 - 解碼器結構;

  • GPT 和 Qwen 系列在 VoxPoser 等模型中平衡泛化能力與緊湊部署;

  • Gemma-2B 用于 Pi-0、FAST;

  • CLIP 文本編碼器則在 CLIPort 等中完成基礎對齊任務;


動作解碼器:


  • 基于擴散的 Transformer 是 Octo 等模型首選,通過迭代去噪實現細粒度、平滑控制;

  • 自回歸 Transformer 頭在 Gato 等中逐步生成動作序列,優化實時響應;

  • VoxPoser 等模型嵌入模型預測控制或規劃頭支持動態決策;

  • MLP 或 tokens 預測器頭用于 OpenVLA 等實現高效低級控制;


總結:


  • 視覺編碼器多采用 CLIP 和 SigLIP 基于的 ViT 骨干網絡;

  • 語言領域以 LLaMA 家族為主;

  • 動作解碼中基于擴散的 Transformer 頭因建模復雜多模態動作分布能力最受青睞;

二、智駕場景引入 VLA2.1 智駕 VLM 的問題

視覺語言模型(VLM)雖然擅長理解復雜場景,但存在以下問題:


  1. 空間精度不高:輸出軌跡點是基于語言生成的,易產生偏差。


傳統端到端模塊雖然推理快,但缺乏全局語義理解能力。可以通過一種“慢 → 快”的協同機制來連接兩者,Trajectory Refinement(軌跡優化) 就是這個橋梁。Trajectory Refinement 用于提升路徑規劃的精度與實時性,其本質是使用 DriveVLM(慢系統)輸出的粗略軌跡作為參考,引導傳統自動駕駛模塊(快系統)進行高頻率、實時的精細軌跡生成。


  1. 端到端快系統 的輸入端是以視覺為主的傳感器信息,輸出端是行駛軌跡。VLM 慢系統 的輸入端是 2D 視覺信息、導航信息,輸出端是文本而非軌跡(VLM 并非端到端神經網絡)。

  2. 端到端模型和 VLM 是兩個獨立的模型,且運行頻率不同,做聯合訓練與優化非常困難。

  3. VLM 在語義推理空間和純數值軌跡的行動空間之間仍然存在巨大鴻溝。

  4. VLM 通過疊加多幀的圖像信息完成時序建模,會受到 VLM 的 Token 長度限制,會增加額外的計算開銷。

2.2 智駕 VLA 的優勢

VLA 的輸入端是視覺為主的傳感器信息、2D 視覺信息、3D 視覺信息、導航信息、語音指令信息,輸出端是文本和行駛軌跡。


VLA 視覺-語言-動作 模型與端到端系統,均為(傳感輸入)端到(控制輸出)端神經網絡,在神經網絡架構上均能實現全程可導。


VLM 視覺-語言模型因為其并不直接輸出軌跡,導致無法受益于真實數據和生成數據的驅動。



全程可求導和非全程可求導的區別在于,無論是數據驅動的端到端還是知識驅動的 VLA,都能高效率、低成本地通過自動化的數據閉環實現駕駛場景數據驅動,而 VLM 視覺語言模型無法借助數據閉環,實現高效率、低成本的數據驅動。


在算法架構層面,VLA 引入了大語言模型,在算法形式層面,VLA 保持了從傳感輸入到軌跡輸出的端到端神經網絡形式。

三、智駕中典型 VLA 架構3.1 MindVLA:理想

MindVLA 整合空間智能、語言智能和行為智能,基于端到端和 VLM 雙系統架構,通過 3D 空間編碼器和邏輯推理生成合理的駕駛決策(LM),并利用擴散模型優化駕駛軌跡。LLM 基座模型采用 MoE 混合專家架構和稀疏注意力技術。



  • V 空間智能模塊:輸入為多模態傳感器數據,使用 3D 編碼器提取時空特征,然后將所有傳感器與語義信息融合成統一的特征。

  • L 語言智能模塊:大語言模型 MindGPT,用于空間 + 語言的聯合推理,支持語音指令和反饋,可實現人車交互。

  • A 動作策略模塊:使用擴散模型生成車輛未來軌跡,引入噪聲來引導擴散過程,從而生成多樣化的動作規劃。

  • 強化學習模塊:使用 World Model 模擬外部環境響應,評估行為后果;使用獎勵模型(Reward Model)提供駕駛偏好,將人類駕駛偏好轉化為獎勵函數(RLHF)。

3.2 ORION:華科 &小米

通過視覺語言指令指導軌跡生成的端到端自動駕駛框架。ORION 引入了 QT-Former 用于聚合長期歷史上下文信息,VLM 用于駕駛場景理解和推理,并啟發式地利用生成模型對齊了推理空間與動作空間,實現了視覺問答(VQA)和規劃任務的統一端到端優化。



  • VLM:結合用戶指令、長時和當前的視覺信息,能夠對駕駛場景進行多維度分析,包括場景描述、關鍵物體行為分析、歷史信息回顧和動作推理,并且利用自回歸特性聚合整個場景信息以生成規劃 token,用來指導生成模型進行軌跡預測。

  • 生成模型:通過生成模型,將 VLM 的推理空間與預測軌跡的動作空間對齊。生成模型使用變分自編碼器(VAE)或擴散模型,以規劃 token 作為條件去控制多模態軌跡的生成,確保模型在復雜場景中做出合理的駕駛決策。生成模型彌補了 VLM 的推理空間與軌跡的動作空間之間的差距。

  • QT-Former:通過引入歷史查詢和記憶庫,有效聚合長時視覺上下文信息,增強了模型對歷史場景的理解能力,聚合歷史場景信息,使模型能夠將歷史信息整合到當前推理和動作空間中。可以減少計算開銷,還能更好地捕捉靜態交通元素和動態物體的運動狀態。


四、參考鏈接

https://developer.horizon.auto/blog/13051 https://developer.horizon.auto/blog/12961 https://mp.weixin.qq.com/s/j3DYoYfkp0yrNlO9oR2tgA https://zhuanlan.zhihu.com/p/1888994290799195699 https://mp.weixin.qq.com/s/nP70QtcVLjgLq8Ue95BdJw https://mp.weixin.qq.com/s/j3DYoYfkp0yrNlO9oR2tgA https://mp.weixin.qq.com/s/PR_RFtbEfOV2L0cQXg574A


*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



相關推薦

技術專區

關閉