史上最全綜述:3D目標檢測算法匯總!(4)
主要介紹LiDAR-相機、雷達、地圖融合等方法。主要方法及融合策略見下圖及表。
基于LiDAR-相機融合的多模態檢測
相機可以提供顏色信息,從中提取豐富的語義特征,而LiDAR傳感器擅長3D定位,提供豐富的3D結構信息。很多工作已經能夠將相機和激光雷達信息進行融合來提升3D目標檢測精度。
由于基于LiDAR的檢測方法比基于相機的檢測方法性能要好得多,目前SOTA方法主要是基于激光雷達的檢測方法,并嘗試將圖像信息融入到不同階段的激光雷達檢測流程中。
鑒于基于LiDAR和基于相機的檢測系統的復雜性,將兩種模式結合在一起不可避免地會帶來額外的計算開銷和推斷時間延遲。因此,如何有效地融合多模態信息仍然是具有挑戰性的。
1、前融合方法
前融合指的是在點云還沒有進入基于LiDAR的檢測器前,將圖像的知識整合到點云中。因此,前融合框架一般采用順序構建的方式:首先利用2D檢測或分割網絡從圖像中提取知識,然后將圖像知識傳遞給點云,最后將增強后的點云反饋給基于LiDAR的點云3D目標檢測器。
根據融合類型的不同,前融合方法可分為區域級知識融合和點級知識融合兩類,具體見下圖。
前融合主要是通過圖像知識來增強點云,大多數方法都兼容大部分的LiDAR 3D目標檢測器,并可以作為一種相當有效的預處理步驟,以提高檢測性能。然而,前融合方法通常是順序進行多模態融合和3D目標檢測的,這帶來了額外的推理延遲。
考慮到融合步驟通常需要復雜的2D目標檢測或語義分割網絡,多模態融合帶來的時間成本通常很高。因此,如何在前期有效地進行多模態融合成為關鍵。
中融合方法試圖在基于LiDAR的3D目標檢測器的中間階段,例如在骨干網絡中,在proposal生成階段,或在RoI細化階段,融合圖像和激光雷達特征。具體分類見下圖。
中融合方法建議對多模態表示進行更深入的融合,并產生更高質量的3D框。然而,相機和激光雷達的特征本質上是異構的,來自不同的視角,因此在融合機制和視角對齊方面還存在一些問題。
因此,如何有效地融合異構數據,以及如何處理來自多個視角的特征聚合,仍然是研究領域面臨的挑戰。
后融合就是將圖像得到的2D結果和LiDAR得到的3D結果進行融合的方法。該方法采用相機與激光雷達并行進行目標檢測,并將輸出的2D和3D框進行融合,得到更精確的3D檢測結果。
CLOCs[194]引入了一個包含成對的2D-3D框的稀疏張量,并從這個稀疏張量學習最終的目標置信度。[195]改進了[194],引入了一種輕量級的3D檢測器提示圖像檢測器。下圖為后融合示意圖。
后融合方法以實例級融合為核心,僅對不同模態的輸出進行多模態融合,避免了中間特征或輸入點云上復雜的交互。
因此,這些方法比其他方法更有效。然而,由于不依賴于相機和激光雷達傳感器的深度特征,這些方法無法整合不同模式的豐富語義信息,限制了這類方法的潛力。
基于雷達信號的多模態檢測
在自動駕駛系統中,雷達不可缺少,相比LiDAR,在實際應用中主要有四點優勢:便宜、不太容易受到極端天氣影響、探測距離較大、提供額外的速度測量。然而,與產生密集點云的激光雷達相比,雷達只提供稀疏和有噪聲的測量。
主要的融合方式包括雷達-LiDAR融合、雷達-相機融合。
結合高精地圖的多模態檢測
高精地圖(HD maps)包含道路形狀、道路標記、交通標志、障礙物等詳細的道路信息。高精地圖提供了豐富的周圍環境語義信息,可以作為輔助3D目標檢測的有力手段。
如何將地圖信息整合到3D目標檢測器中呢?高精地圖可以很容易地轉換為鳥瞰視圖,并與柵格化BEV點云或特征圖融合。
融合可以通過簡單地將鳥瞰圖上的柵格化點云和高精地圖的通道連接起來進行[313],或者將LiDAR點云和高精地圖分成單獨的主干,融合兩種模式的輸出特征圖[70]。還有其他地圖類型,如可見性地圖[100]等。
基于時序的3D目標檢測主要分為三種:激光雷達序列檢測,流輸入檢測,從視頻中檢測。下圖為主要方法。
激光雷達序列
大多數方法專注于從單幀點云中檢測,也有許多方法利用多幀點云來實現更準確的3D目標檢測。它們通過各種時間建模工具融合多幀特征來解決時序檢測問題,也有通過將多幀目標點合并到單一幀中來獲得更完整的3D形狀。
時序3D目標檢測在離線3D自動打標簽流程中取得了巨大的成功,但在實時應用中,這些方法仍然存在延遲問題,合并多幀不可避免地會帶來額外的時間和內存成本。具體方法見下圖示意。
利用流數據進行3D目標檢測
激光雷達點云本質上是一個流式數據源,其中激光雷達數據包在掃描中順序記錄。激光雷達傳感器完整掃描360度,大約需要50-100毫秒,這意味著當點云產生時,已經不能精確的反應實時的場景信息了。而自動駕駛通常需要最少的反應時間來保證駕駛安全。
利用流數據的方法通常在動態LiDAR數據中檢測3D目標,而不用等完整掃描完成。與完整激光雷達掃描檢測相比,基于流式的3D目標檢測是一種更準確、低延遲的車輛感知解決方案。具體過程如下圖所示。
自動駕駛應用中很容易獲取視頻數據。相比基于單圖像的3D目標檢測,基于視頻的3D檢測得益于序列圖像間的時間關系。大量的研究工作集中在基于單幅圖像的3D目標檢測,研究視頻中的3D目標檢測問題的較少,主要也是通過跟蹤和融合相同目標來進行3D目標的檢測。
前面的一些3D目標檢測方法主要默認都是全監督學習,并且是在某個特定的域內進行。實際情況則不可避免的遇到跨域和標注數據缺少的問題。針對這些問題,主要從這方面去優化:域自適應、弱監督學習、半監督學習和自監督學習。
在數據收集過程中,某些域空白現象是普遍存在的。不同傳感器的設置和安裝、不同的地理位置和不同的天氣將導致完全不同的數據域。在大多數情況下, 在某一域內訓練的3D目標檢測器在其他域表現不佳。
研究人員提出了許多技術來解決3D目標檢測的域適配問題,例如利用源域和目標域的一致性,目標域的自訓練等。然而,大多數方法只關注于解決一個特定的領域轉移問題。設計一種能夠普遍應用于3D目標檢測中任何領域轉移任務的域自適應方法將是一個有前途的研究方向。
域自適應包括跨數據集的、跨天氣的、跨傳感器的、以及仿真到現實的域適應,具體參考下圖及表。
弱監督3D目標檢測
現有的3D目標檢測方法依賴大量人工標記的3D目標框,但這些3D框的標注相當昂貴。弱監督學習是解決這一問題的一個很有前途的方案,其中弱監督信號,如更容易標的2D標注,被用來訓練3D目標檢測模型。
弱監督的3D目標檢測在數據標注方面需要的人力較少,但弱監督方法與全監督方法之間仍存在不可忽視的性能差距。
弱監督3D目標檢測方法利用弱監督,而不是完全的標注3D框數據訓練3D目標檢測器。弱監督包括圖像2D框[291,199]、預訓練圖像檢測器[218]、BEV目標中心和車輛實例[175, 176]。
這些方法通常會設計新穎的學習機制來跳過3D框的監督,學習從弱信號中挖掘有用信息來實現3D目標檢測。詳見下圖示意。
半監督3D目標檢測
在現實應用中,數據標注比數據收集需要更多的人力。通常情況下,一輛數據采集車一天可以收集超過200k幀的點云,而熟練的人類每天只能標注100-200幀,大量未標注數據沒有很好的利用。
半監督學習利用少量標注數據和大量無標注數據,共同訓練出更強的模型,這是一個很有前途的方向。將3D目標檢測與半監督學習相結合可以提高檢測性能。
半監督3D目標檢測主要有兩類方法:偽標簽和教師-學生方法。偽標簽方法[17,265]首先用有標簽的數據訓練一個3D目標檢測器,然后用這個3D檢測器對未標注域的數據打上偽標簽。
最后,用未標注域上的偽標簽重新訓練3D目標檢測器。教師-學生方法[354]將Mean Teacher[255]范式應用于3D目標檢測。
首先在標注域上訓練教師檢測器,然后教師檢測器通過約束兩種檢測模型輸出的一致性來指導學生檢測器在未標記域上的訓練。具體示意見下圖。
自監督3D目標檢測
自監督預訓練(Self-supervised pre-training)被廣泛應用于許多計算機視覺任務中,首先以自監督的方式在大規模的無標注數據上對模型進行預訓練,然后在有標注的數據集上進行微調,以獲得更好的性能。
在自動駕駛場景中,用于3D目標檢測的自監督預訓練還沒有得到廣泛的探索。已有的方法試圖將對比學習等自監督方法應用于3D目標檢測問題,但多模態數據中豐富的語義信息沒有得到很好的利用。
如何有效地處理原始點云和圖像,以預訓練出高性能3D目標檢測器仍是一個挑戰。
自監督方法通常將對比學習技術[94,41]應用到3D目標檢測。具體來說,首先通過數據增強將輸入點云轉化為兩個視圖,然后使用對比學習來約束兩個點云視圖中相同3D位置的特征一致性,最后將這個預訓練模型在有標簽數據集上進行微調,得到更好性能。下圖為示意圖。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。







