久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

EEPW首頁 > 博客 > 不同傳感器前中后融合方案簡介

不同傳感器前中后融合方案簡介

發布人:地平線開發者 時間:2025-11-14 來源:工程師 發布文章

在自動駕駛場景下,攝像頭 + 激光雷達的傳感器融合方案是最常見的感知技術路線,目標是充分利用二者的互補性:

  • 攝像頭優勢:分辨率高、紋理豐富、顏色信息齊全,有利于識別語義信息(車道線、交通燈、行人類別等)。

  • 激光雷達優勢:天然地具有深度信息,直接測得高精度距離和稠密點云,有利于構建 3D 幾何結構和檢測障礙物。

融合方式大致分為三類:前融合、中融合、后融合。

1. 前融合

前融合,是指把各個傳感器的數據采集后,經過數據同步后,對這些原始數據進行融合,因此也稱為數據級融合。將攝像頭圖像與激光雷達點云在幾何空間對齊,例如把 3D LiDAR 點云投影到 2D 圖像上, 然后檢查點云是否屬于 2D 邊界框。前融合展示如下圖:



前融合可以從整體上來處理信息,讓數據更早做融合,整體處理信息,讓數據更有關聯性,把激光雷達點云和攝像頭像素級數據進行融合,信息損失比較少;但前融合也會存在一些問題,例如:點云數據和像素數據坐標系不同,直接融合效果差;需要處理的數據量大,對算力要求較高;對融合策略要求也比較高,目前業內應用的比較少。

2. 后融合

后融合是指攝像頭和激光雷達等各傳感器獨立完成感知任務(如檢測、分割),最后在結果層面進行融合(如加權,IOU 匹配等),因此也稱之為目標級融合。例如,可以將攝像頭的 2D 邊界框投影到 3D 邊界框,然后將這些邊界框與 LiDAR 檢測過程中獲得的邊界框進行融合。

后融合的優點是傳感器獨立識別,解耦性好,易于擴展。缺點是會損失中間信息影響精度;rule-based 融合規則有局限性,難以充分利用跨模態互補信息。

后融合展示如下圖:



3. 中融合

中融合,是指先將各個傳感器通過神經網絡模型提取中間層特征(即有效特征),再融合有效主要特征,也稱為特征級融合,典型的是對有效特征在 BEV 空間進行融合。相比于前融合與后融合,在 BEV 空間進行中融合有如下優點:

  1. 跨攝像頭融合和多模融合更容易實現,因為統一了數據空間,不需要處理規則關聯不同傳感器的感知結果,算法實現更加簡單;

  2. 可以很容易地融合時序信息,形成 4D 空間,感知網絡可以更好地實現一些感知任務,如測速等;

  3. 可“腦補”出被遮擋區域目標,在 BEV 空間,給予先驗知識,對被遮擋的區域進行預測;

  4. 感知和預測在統一空間(BEV 空間)內完成,可以通過神經網絡直接做端到端優化,并行出結果,既可以避免誤差累積,也可以減少人工邏輯,讓感知網絡通過數據驅動的方式自學習,從而更好地實現功能迭代。

目前使用最多的是中融合方案。

  1. # BEVFusion

BEVFusion 是典型的中融合方法,將來自相機和 LiDAR 的原始輸入編碼到同一個 BEV 空間。如下圖所示,BEVFusion 主要由相機流、激光雷達流、動態融合模塊和檢測頭組成,分別簡單看下



相機流將多視角圖像轉到 BEV 空間,由圖像編碼器、視覺投影模塊、BEV 編碼器組成。

圖像編碼器旨在將輸入圖像編碼為語義信息豐富的深度特征,它由用于基本特征提取的 2D backbone 和用于多尺度特征提取的 FPN 組成,并采用了一個簡單的功能自適應模塊 ADP 來完善上采樣功能,如下圖所示:



視覺投影模塊采用 LSS,將圖像特征轉換到自車坐標系的 3D 表示。該方法以圖像視圖為輸入,通過離散分類的方式密集預測深度;隨后結合相機外參與預測深度,生成偽體素表示。

BEV 編碼模塊采用空間到通道(S2C)操作將 4D 偽體素特征編碼到 3D BEV 空間,從而保留語義信息并降低成本。然后使用四個 3 × 3 卷積層縮小通道維度,并提取高級語義信息。

動態融合模塊的作用是將 concat 后的 相機、 LiDAR 的 BEV 特 進行有效融合,BEVFusion 應用一個簡單的通道注意力模塊來選擇重要的融合特征,網絡結構圖如下所示:



LiDAR 流將激光雷達點轉換為 BEV 空間,BEVFusion 采用 3 種流行的方法,PointPillars、CenterPoint 和 TransFusion 作為激光雷達流,從而展示模型框架的優秀泛化能力。


*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



相關推薦

技術專區

關閉