"); //-->

智能駕駛中的感知算法,并不是單純回答“畫面里有什么”,而是要回答三個更困難的問題:
世界在三維空間中是什么樣的
不同傳感器看到的是否是同一個世界
這個世界在時間維度上如何連續變化
早期感知算法的發展,很長一段時間都停留在“看清楚圖像內容”,而不是“理解真實世界結構”。 BEV(Bird’s Eye View)路線的出現,本質上是一場從圖像認知到世界建模的范式遷移。
二、2D Image-space 感知:從“能識別”開始,但止步于圖像1.典型范式最早一代智駕感知算法幾乎全部工作在 Image-space:
輸入:單目或多目 RGB 圖像
輸出:2D bounding box、2D segmentation mask
核心任務:檢測車輛、行人、交通標志
這一階段的算法高度繼承了通用計算機視覺的發展成果,如 Faster R-CNN、YOLO、Mask R-CNN 等。

2D 感知第一次讓自動駕駛系統具備了“看懂畫面”的能力:
能穩定識別物體類別
能在復雜背景中找到關鍵目標
能在消費級算力上實時運行
這是必要的一步,沒有這一代,后續所有感知算法都無從談起。
3.根本性缺陷Image-space 感知存在無法通過模型規模解決的結構性問題:
沒有真實幾何
多相機之間缺乏統一坐標系
所有空間關系只是投影結果
Image-space 感知并不真正理解世界,而是在理解像素。
三、LiDAR-first 時代:幾何優先,但語義不足1.點云帶來的改變LiDAR 的引入讓感知系統第一次擁有真實三維信息:
點云天然位于世界坐標系
距離、尺寸、位置無需推測
3D Box 成為可能
VoxelNet、PointPillars、SparseConv 等方法逐漸成為主流。 
準確的空間幾何
穩定的目標定位
易于與規劃模塊對接
在空間可信度上,LiDAR-first 路線顯著優于純視覺。
3.局限性成本與功耗高
點云語義信息稀疏
視覺信息利用不足
單一傳感器難以同時滿足幾何與語義需求。
四、BEV:統一世界坐標系的關鍵一步
BEV(Bird’s Eye View)不是一種模型,而是一種世界表示方式:
所有感知結果統一到俯視視角
多相機天然對齊
空間關系直觀,利于規劃與預測
BEV 的出現,標志著感知開始圍繞“決策友好性”設計。
1.第一代 BEV 的實現方式早期 BEV 依賴顯式幾何:
深度估計
相機標定
投影矩陣
通過 image → depth → world → BEV 的方式完成映射。
2.暴露的問題深度誤差被放大
對噪聲極其敏感
單幀 BEV 抖動明顯
問題不在 BEV,而在從 image 到 BEV 的方式。
五、BEVFormer:讓模型學習投影關系BEVFormer 的核心思想是:
1.核心機制不再顯式計算深度,而是讓模型學習 BEV 與圖像之間的對應關系。
BEV Query:BEV 空間中的查詢點
Spatial Cross-Attention:BEV 與多相機特征交互
Temporal Self-Attention:引入歷史 BEV
擺脫顯式深度建模
自動學習復雜投影關系
時序建模提升穩定性
BEVFormer 讓 camera-only BEV 感知在精度上具備競爭力。
3.新問題Transformer 計算復雜
顯存與算力消耗大
工程部署成本高
BEVFormer 是算法正確性的高峰,但也引入了工程壓力。
六、BEVFusion:多模態 BEV 的系統化嘗試1.出發點Camera 語義強但幾何不穩,LiDAR 幾何穩但語義弱。
BEVFusion 試圖在 BEV 空間融合兩者優勢。
2.核心思想Camera → BEV
LiDAR → BEV
在 BEV 空間完成融合
幾何穩定性提升
多模態互補自然
極端場景魯棒性更強
模型結構復雜
多分支系統維護成本高
推理鏈路變長
BEVFusion 提升了系統完整性,但工程復雜度顯著上升。
七、Sparse4D:向現實系統妥協的 BEV1.核心判斷Dense BEV 中,大多數網格并無有效信息,計算存在浪費。
2.核心變化Dense BEV → Sparse 表示
空間建模 → Object-centric 建模
強調時序一致性
顯著降低計算量
更易滿足實時性
更接近可部署系統需求
全局建模能力下降
更依賴 tracking 與初始化
系統設計復雜度提升
Sparse4D 是工程理性下的選擇。
八、數據與傳感器:算法演進的真正推手1.數據集演進單幀 → 長時序
單傳感器 → 多模態
公共數據 → 私有閉環
數據形態直接塑造算法結構。
2.傳感器現實約束Camera 數量增加
LiDAR 成本博弈
Radar 作為補充角色
這些現實因素持續影響 BEV 路線的取舍。
九、結語:BEV 是基礎設施,而不是終點BEV 的意義不在于某個具體模型,而在于:
自動駕駛系統第一次擁有了統一的世界表示。
未來模型名稱可能變化,但在世界坐標系中建模、在時間維度中理解世界,將成為不可逆的方向。
專欄文章內容及配圖由作者撰寫發布,僅供工程師學習之用,如有侵權或者其他違規問題,請聯系本站處理。 聯系我們
相關推薦
加密算法之MD5算法
數字PID控制算法之一
PID算法
[轉帖]us/os就緒表的維護算法分析
76-81GHz自動駕駛CMOS RADAR
自動駕駛的現狀與未來(節選)
采用Mean-Shift和Camshift算法相結合的火焰視頻圖像跟蹤設計
簡單實用的單片機CRC 快速算法
恩智浦第三代雷達收發器助力高性能成像雷達規模量產,賦能L2+至L4級自動駕駛
CRC算法原理及C語言實現
實時訓練駕駛人工智能
日產聯手優步與 Wayve,計劃在東京推出自動駕駛出租車服務
基于LPC2138的血壓測量算法開發平臺電路圖
ZF與SiliconAuto推出用于自動駕駛的實時I/O芯片
為什么可擴展高性能 SoC 是自動駕駛汽車的未來
賦能自動駕駛和機器人感知,讀懂二維可尋址VCSEL | 硬科技有點意思
攜手ADI贏得未來
vxwokrs下靜態圖像壓縮算法(上)
英偉達宣布與比亞迪、吉利展開自動駕駛業務合作
ADI:傳感技術助力未來自動駕駛的發展
采埃孚與SiliconAuto推出自動駕駛實時I/O接口芯片
目標跟蹤算法在紅外熱成像跟蹤技術上的應用
加快實現自動駕駛(完整小組討論)
數字PID控制及其改進算法的應用
計算機科學與技術反思錄(2)
英偉達 “全天候” 芯片實現毫秒級人臉檢測
地平線HSD引領智能駕駛普惠新時代
無線傳感器網絡低功耗分簇路由算法設計
有關指紋算法
求FSK信號的解調算法,主要是鐵路上的移頻信號!