不同傳感器前中后融合方案簡介
在自動駕駛場景下,攝像頭 + 激光雷達的傳感器融合方案是最常見的感知技術路線,目標是充分利用二者的互補性:
攝像頭優勢:分辨率高、紋理豐富、顏色信息齊全,有利于識別語義信息(車道線、交通燈、行人類別等)。
激光雷達優勢:天然地具有深度信息,直接測得高精度距離和稠密點云,有利于構建 3D 幾何結構和檢測障礙物。
融合方式大致分為三類:前融合、中融合、后融合。
1. 前融合前融合,是指把各個傳感器的數據采集后,經過數據同步后,對這些原始數據進行融合,因此也稱為數據級融合。將攝像頭圖像與激光雷達點云在幾何空間對齊,例如把 3D LiDAR 點云投影到 2D 圖像上, 然后檢查點云是否屬于 2D 邊界框。前融合展示如下圖:

前融合可以從整體上來處理信息,讓數據更早做融合,整體處理信息,讓數據更有關聯性,把激光雷達點云和攝像頭像素級數據進行融合,信息損失比較少;但前融合也會存在一些問題,例如:點云數據和像素數據坐標系不同,直接融合效果差;需要處理的數據量大,對算力要求較高;對融合策略要求也比較高,目前業內應用的比較少。
2. 后融合后融合是指攝像頭和激光雷達等各傳感器獨立完成感知任務(如檢測、分割),最后在結果層面進行融合(如加權,IOU 匹配等),因此也稱之為目標級融合。例如,可以將攝像頭的 2D 邊界框投影到 3D 邊界框,然后將這些邊界框與 LiDAR 檢測過程中獲得的邊界框進行融合。
后融合的優點是傳感器獨立識別,解耦性好,易于擴展。缺點是會損失中間信息影響精度;rule-based 融合規則有局限性,難以充分利用跨模態互補信息。
后融合展示如下圖:

中融合,是指先將各個傳感器通過神經網絡模型提取中間層特征(即有效特征),再融合有效主要特征,也稱為特征級融合,典型的是對有效特征在 BEV 空間進行融合。相比于前融合與后融合,在 BEV 空間進行中融合有如下優點:
跨攝像頭融合和多模融合更容易實現,因為統一了數據空間,不需要處理規則關聯不同傳感器的感知結果,算法實現更加簡單;
可以很容易地融合時序信息,形成 4D 空間,感知網絡可以更好地實現一些感知任務,如測速等;
可“腦補”出被遮擋區域目標,在 BEV 空間,給予先驗知識,對被遮擋的區域進行預測;
感知和預測在統一空間(BEV 空間)內完成,可以通過神經網絡直接做端到端優化,并行出結果,既可以避免誤差累積,也可以減少人工邏輯,讓感知網絡通過數據驅動的方式自學習,從而更好地實現功能迭代。
目前使用最多的是中融合方案。
# BEVFusion
BEVFusion 是典型的中融合方法,將來自相機和 LiDAR 的原始輸入編碼到同一個 BEV 空間。如下圖所示,BEVFusion 主要由相機流、激光雷達流、動態融合模塊和檢測頭組成,分別簡單看下

相機流將多視角圖像轉到 BEV 空間,由圖像編碼器、視覺投影模塊、BEV 編碼器組成。
圖像編碼器旨在將輸入圖像編碼為語義信息豐富的深度特征,它由用于基本特征提取的 2D backbone 和用于多尺度特征提取的 FPN 組成,并采用了一個簡單的功能自適應模塊 ADP 來完善上采樣功能,如下圖所示:

視覺投影模塊采用 LSS,將圖像特征轉換到自車坐標系的 3D 表示。該方法以圖像視圖為輸入,通過離散分類的方式密集預測深度;隨后結合相機外參與預測深度,生成偽體素表示。
BEV 編碼模塊采用空間到通道(S2C)操作將 4D 偽體素特征編碼到 3D BEV 空間,從而保留語義信息并降低成本。然后使用四個 3 × 3 卷積層縮小通道維度,并提取高級語義信息。
動態融合模塊的作用是將 concat 后的 相機、 LiDAR 的 BEV 特 進行有效融合,BEVFusion 應用一個簡單的通道注意力模塊來選擇重要的融合特征,網絡結構圖如下所示:

LiDAR 流將激光雷達點轉換為 BEV 空間,BEVFusion 采用 3 種流行的方法,PointPillars、CenterPoint 和 TransFusion 作為激光雷達流,從而展示模型框架的優秀泛化能力。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。







