不同傳感器前中后融合方案簡介

發布人：地平線開發者時間：2025-11-14 來源：工程師

發布文章

在自動駕駛場景下，攝像頭 + 激光雷達的傳感器融合方案是最常見的感知技術路線，目標是充分利用二者的互補性：

融合方式大致分為三類：前融合、中融合、后融合。

1. 前融合

前融合，是指把各個傳感器的數據采集后，經過數據同步后，對這些原始數據進行融合，因此也稱為數據級融合。將攝像頭圖像與激光雷達點云在幾何空間對齊，例如把 3D LiDAR 點云投影到 2D 圖像上，然后檢查點云是否屬于 2D 邊界框。前融合展示如下圖：

前融合可以從整體上來處理信息，讓數據更早做融合，整體處理信息，讓數據更有關聯性，把激光雷達點云和攝像頭像素級數據進行融合，信息損失比較少；但前融合也會存在一些問題，例如：點云數據和像素數據坐標系不同，直接融合效果差；需要處理的數據量大，對算力要求較高；對融合策略要求也比較高，目前業內應用的比較少。

2. 后融合

后融合是指攝像頭和激光雷達等各傳感器獨立完成感知任務（如檢測、分割），最后在結果層面進行融合（如加權，IOU 匹配等），因此也稱之為目標級融合。例如，可以將攝像頭的 2D 邊界框投影到 3D 邊界框，然后將這些邊界框與 LiDAR 檢測過程中獲得的邊界框進行融合。

后融合的優點是傳感器獨立識別，解耦性好，易于擴展。缺點是會損失中間信息影響精度；rule-based 融合規則有局限性，難以充分利用跨模態互補信息。

后融合展示如下圖：

3. 中融合

中融合，是指先將各個傳感器通過神經網絡模型提取中間層特征（即有效特征），再融合有效主要特征，也稱為特征級融合，典型的是對有效特征在 BEV 空間進行融合。相比于前融合與后融合，在 BEV 空間進行中融合有如下優點：

跨攝像頭融合和多模融合更容易實現，因為統一了數據空間，不需要處理規則關聯不同傳感器的感知結果，算法實現更加簡單；
可以很容易地融合時序信息，形成 4D 空間，感知網絡可以更好地實現一些感知任務，如測速等；
可“腦補”出被遮擋區域目標，在 BEV 空間，給予先驗知識，對被遮擋的區域進行預測；
感知和預測在統一空間（BEV 空間）內完成，可以通過神經網絡直接做端到端優化，并行出結果，既可以避免誤差累積，也可以減少人工邏輯，讓感知網絡通過數據驅動的方式自學習，從而更好地實現功能迭代。

目前使用最多的是中融合方案。

BEVFusion 是典型的中融合方法，將來自相機和 LiDAR 的原始輸入編碼到同一個 BEV 空間。如下圖所示，BEVFusion 主要由相機流、激光雷達流、動態融合模塊和檢測頭組成，分別簡單看下

相機流將多視角圖像轉到 BEV 空間，由圖像編碼器、視覺投影模塊、BEV 編碼器組成。

圖像編碼器旨在將輸入圖像編碼為語義信息豐富的深度特征，它由用于基本特征提取的 2D backbone 和用于多尺度特征提取的 FPN 組成，并采用了一個簡單的功能自適應模塊 ADP 來完善上采樣功能，如下圖所示：

視覺投影模塊采用 LSS，將圖像特征轉換到自車坐標系的 3D 表示。該方法以圖像視圖為輸入，通過離散分類的方式密集預測深度；隨后結合相機外參與預測深度，生成偽體素表示。

BEV 編碼模塊采用空間到通道（S2C）操作將 4D 偽體素特征編碼到 3D BEV 空間，從而保留語義信息并降低成本。然后使用四個 3 × 3 卷積層縮小通道維度，并提取高級語義信息。

動態融合模塊的作用是將 concat 后的相機、 LiDAR 的 BEV 特進行有效融合，BEVFusion 應用一個簡單的通道注意力模塊來選擇重要的融合特征，網絡結構圖如下所示：

LiDAR 流將激光雷達點轉換為 BEV 空間，BEVFusion 采用 3 種流行的方法，PointPillars、CenterPoint 和 TransFusion 作為激光雷達流，從而展示模型框架的優秀泛化能力。

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠