視覺-語言-行動模型為自動駕駛開辟了四級前沿

作者：時間：2025-12-12 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

安全實現端到端自動駕駛，既是 L4 級自動駕駛技術的核心所在，也是該技術尚未普及的主要原因。L3 級與 L4 級自動駕駛的核心區別在于是否需要人類介入：L3 級自動駕駛車輛發出接管提示時，駕駛員必須隨時準備接手車輛操控；而 L4 級自動駕駛車輛在規定的運行范圍內，全程無需人類干預。

隨著行業向可擴展、AI驅動的四級解決方案邁進，NVIDIA剛剛發布了名為Alpamayo-R1（AR1）的新開源軟件，旨在加快自動駕駛汽車的發展速度。該軟件利用生成式人工智能和大型語言模型（LLMs），這是一種基于大量文本數據訓練的人工智能系統，能夠理解并生成類人語言，使自動駕駛系統能夠以類人推理和適應力解決復雜的駕駛情境。

Alpamayo-R1 是一種視覺-語言-行動模型，將推理與軌跡規劃相結合，以增強自動駕駛決策能力。

開源視覺-語言-行動人工智能模型

Alpamayo-R1（AR1）最適合被描述為一種開源的“視覺-語言-行動”人工智能模型，旨在幫助自動駕駛汽車在做出駕駛決策時“大聲思考”。視覺語言模型可以同時處理文本和圖像，使車輛能夠“看到”周圍環境，并根據所感知做出決策。

AR1通過拆解情景并推理每一步來實現這一點。它考慮所有可能的路徑，然后利用上下文數據選擇最佳路線，能夠應對擁擠的行人路口、雙排停車車輛或車道封閉的情況。NVIDIA希望這種推理模型能賦予自動駕駛車輛“常識”，使其更好地像人類一樣處理細致的駕駛決策。

這家半導體公司在12月2日至7日于圣地亞哥舉行的第39屆神經信息處理系統年會NeurIPS上宣布了AR1。NVIDIA聲稱這是首個專注于自動駕駛的視覺-語言-行動模型。

實時路線規劃

Alpamayo-R1（AR1）以秘魯的一座山峰命名，據說在規劃路線時會“思考”。通過利用思維鏈推理，自動駕駛車輛能夠實時解讀細微且不可預測的現實環境——如即將關閉車道、車輛停在自行車道或不可預測的人類行為。

通過這種方式，它可以將傳感器在路上看到的內容轉化為自然語言的描述。另一個好處是AR1可以向設計工程師解釋為何采取某些行動，并利用這些信息規劃未來的軌跡。

讓世界為機器人出租車做好準備

英偉達的端到端自動駕駛平臺集成了人工智能驅動的計算硬件，如NVIDIA DRIVE AGX Hyperion 10，以及用于訓練的數據中心軟件和數據中心解決方案。此外，還有仿真工具如Omniverse，該平臺可在Windows和Linux等現有作系統上運行，用于測試和驗證。

公司與通用汽車、Lucid、奔馳、Rivian、Stellantis、豐田和沃爾沃等汽車公司合作，打造4級自動駕駛汽車，并與Uber合作建立了自動駕駛汽車網絡。

Uber將從2027年開始擴大其全球自動駕駛車隊規模，目標是達到10萬輛。它將由基于NVIDIA Cosmos平臺構建的聯合AI數據工廠支持。

開放獲取是NVIDIA戰略的核心。AR1基于NVIDIA Cosmos Reason構建，研究人員可為非商業應用進行定制。除了AR1，英偉達的Cosmos平臺還提供了一套用于實體AI開發的工具。其中包括LidarGen，用于生成用于視聽仿真的LiDAR數據。

與此同時，NVIDIA、Aurora和沃爾沃自動駕駛解決方案正在將4級自動駕駛擴展到由NVIDIA DRIVE平臺驅動的長途貨運。他們基于NVIDIA DRIVE AGX Thor打造的下一代系統，將加速沃爾沃即將到來的L4車隊，將NVIDIA的端到端AI基礎設施從乘客出行擴展到長途貨運。

自動駕駛超級計算平臺 10

NVIDIA DRIVE AGX Hyperion 10 生產平臺配備了 NVIDIA DRIVE AGX Thor 系統芯片;安全認證的NVIDIA DriveOS作系統;一套完全合格的多模態傳感器套件，包括14臺高清相機；九臺雷達、一臺激光雷達和12臺超聲波設備；以及合格的電路板設計。

該平臺的核心是兩套基于英偉達 Blackwell 架構的索恩車載計算平臺，每套平臺的實時算力均超過 2000 萬億次浮點運算。索恩車載計算平臺能夠整合 360 度全方位的多元傳感器數據，且針對視覺 - 語言 - 動作模型和生成式人工智能的運行需求進行了優化。依托各項安全認證與網絡安全標準，該平臺可為 L4 級自動駕駛的安全運行提供堅實保障。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

視覺-語言-行動模型為自動駕駛開辟了四級前沿

評論

相關推薦

技術專區