久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

專欄中心

EEPW首頁 > 專欄 > 智能駕駛感知算法的演進

智能駕駛感知算法的演進

發布人:地平線開發者 時間:2026-04-07 來源:工程師 發布文章
從 2D 感知到 BEV 世界模型

1.png

一、問題的本質:自動駕駛究竟要“理解”什么

智能駕駛中的感知算法,并不是單純回答“畫面里有什么”,而是要回答三個更困難的問題:

  1. 世界在三維空間中是什么樣的

  2. 不同傳感器看到的是否是同一個世界

  3. 這個世界在時間維度上如何連續變化

早期感知算法的發展,很長一段時間都停留在“看清楚圖像內容”,而不是“理解真實世界結構”。 BEV(Bird’s Eye View)路線的出現,本質上是一場從圖像認知到世界建模的范式遷移

二、2D Image-space 感知:從“能識別”開始,但止步于圖像1.典型范式

最早一代智駕感知算法幾乎全部工作在 Image-space:

  • 輸入:單目或多目 RGB 圖像

  • 輸出:2D bounding box、2D segmentation mask

  • 核心任務:檢測車輛、行人、交通標志

這一階段的算法高度繼承了通用計算機視覺的發展成果,如 Faster R-CNN、YOLO、Mask R-CNN 等。

2.png

2.這一代真正解決了什么問題

2D 感知第一次讓自動駕駛系統具備了“看懂畫面”的能力:

  • 能穩定識別物體類別

  • 能在復雜背景中找到關鍵目標

  • 能在消費級算力上實時運行

這是必要的一步,沒有這一代,后續所有感知算法都無從談起。

3.根本性缺陷

Image-space 感知存在無法通過模型規模解決的結構性問題:

  • 沒有真實幾何

  • 多相機之間缺乏統一坐標系

  • 所有空間關系只是投影結果

Image-space 感知并不真正理解世界,而是在理解像素。

三、LiDAR-first 時代:幾何優先,但語義不足1.點云帶來的改變

LiDAR 的引入讓感知系統第一次擁有真實三維信息:

  • 點云天然位于世界坐標系

  • 距離、尺寸、位置無需推測

  • 3D Box 成為可能

VoxelNet、PointPillars、SparseConv 等方法逐漸成為主流。 3.png

2.解決的關鍵問題
  • 準確的空間幾何

  • 穩定的目標定位

  • 易于與規劃模塊對接

在空間可信度上,LiDAR-first 路線顯著優于純視覺。

3.局限性
  • 成本與功耗高

  • 點云語義信息稀疏

  • 視覺信息利用不足

單一傳感器難以同時滿足幾何與語義需求。

四、BEV:統一世界坐標系的關鍵一步

4.png

BEV(Bird’s Eye View)不是一種模型,而是一種世界表示方式:

  • 所有感知結果統一到俯視視角

  • 多相機天然對齊

  • 空間關系直觀,利于規劃與預測

BEV 的出現,標志著感知開始圍繞“決策友好性”設計。

1.第一代 BEV 的實現方式

早期 BEV 依賴顯式幾何:

  • 深度估計

  • 相機標定

  • 投影矩陣

通過 image → depth → world → BEV 的方式完成映射。

2.暴露的問題
  • 深度誤差被放大

  • 對噪聲極其敏感

  • 單幀 BEV 抖動明顯

問題不在 BEV,而在從 image 到 BEV 的方式。

五、BEVFormer:讓模型學習投影關系

BEVFormer 的核心思想是:

不再顯式計算深度,而是讓模型學習 BEV 與圖像之間的對應關系。

1.核心機制
  • BEV Query:BEV 空間中的查詢點

  • Spatial Cross-Attention:BEV 與多相機特征交互

  • Temporal Self-Attention:引入歷史 BEV

2.帶來的突破
  • 擺脫顯式深度建模

  • 自動學習復雜投影關系

  • 時序建模提升穩定性

BEVFormer 讓 camera-only BEV 感知在精度上具備競爭力。

3.新問題
  • Transformer 計算復雜

  • 顯存與算力消耗大

  • 工程部署成本高

BEVFormer 是算法正確性的高峰,但也引入了工程壓力。

六、BEVFusion:多模態 BEV 的系統化嘗試1.出發點

Camera 語義強但幾何不穩,LiDAR 幾何穩但語義弱。

BEVFusion 試圖在 BEV 空間融合兩者優勢。

2.核心思想
  • Camera → BEV

  • LiDAR → BEV

  • 在 BEV 空間完成融合

3.優勢
  • 幾何穩定性提升

  • 多模態互補自然

  • 極端場景魯棒性更強

4.代價
  • 模型結構復雜

  • 多分支系統維護成本高

  • 推理鏈路變長

BEVFusion 提升了系統完整性,但工程復雜度顯著上升。

七、Sparse4D:向現實系統妥協的 BEV1.核心判斷

Dense BEV 中,大多數網格并無有效信息,計算存在浪費。

2.核心變化
  • Dense BEV → Sparse 表示

  • 空間建模 → Object-centric 建模

  • 強調時序一致性

3.解決的問題
  • 顯著降低計算量

  • 更易滿足實時性

  • 更接近可部署系統需求

4.取舍
  • 全局建模能力下降

  • 更依賴 tracking 與初始化

  • 系統設計復雜度提升

Sparse4D 是工程理性下的選擇。

八、數據與傳感器:算法演進的真正推手1.數據集演進
  • 單幀 → 長時序

  • 單傳感器 → 多模態

  • 公共數據 → 私有閉環

數據形態直接塑造算法結構。

2.傳感器現實約束
  • Camera 數量增加

  • LiDAR 成本博弈

  • Radar 作為補充角色

這些現實因素持續影響 BEV 路線的取舍。

九、結語:BEV 是基礎設施,而不是終點

BEV 的意義不在于某個具體模型,而在于:

自動駕駛系統第一次擁有了統一的世界表示。

未來模型名稱可能變化,但在世界坐標系中建模、在時間維度中理解世界,將成為不可逆的方向。


專欄文章內容及配圖由作者撰寫發布,僅供工程師學習之用,如有侵權或者其他違規問題,請聯系本站處理。 聯系我們

關鍵詞: 算法 自動駕駛 算法工具鏈 地平線 征程5

相關推薦

加密算法之MD5算法

數字PID控制算法之一

資源下載 2007-12-28

PID算法

資源下載 2007-02-16

76-81GHz自動駕駛CMOS RADAR

視頻 2018-05-31

自動駕駛的現狀與未來(節選)

視頻 2020-03-16

簡單實用的單片機CRC 快速算法

資源下載 2007-02-16

恩智浦第三代雷達收發器助力高性能成像雷達規模量產,賦能L2+至L4級自動駕駛

CRC算法原理及C語言實現

資源下載 2007-02-16

實時訓練駕駛人工智能

日產聯手優步與 Wayve,計劃在東京推出自動駕駛出租車服務

ZF與SiliconAuto推出用于自動駕駛的實時I/O芯片

為什么可擴展高性能 SoC 是自動駕駛汽車的未來

汽車電子 2026-03-06

賦能自動駕駛和機器人感知,讀懂二維可尋址VCSEL | 硬科技有點意思

攜手ADI贏得未來

視頻 2019-11-08

英偉達宣布與比亞迪、吉利展開自動駕駛業務合作

2026-03-17

ADI:傳感技術助力未來自動駕駛的發展

視頻 2020-03-16

采埃孚與SiliconAuto推出自動駕駛實時I/O接口芯片

加快實現自動駕駛(完整小組討論)

視頻 2020-06-12

英偉達 “全天候” 芯片實現毫秒級人臉檢測

地平線HSD引領智能駕駛普惠新時代

更多 培訓課堂
更多 焦點
更多 視頻

技術專區