久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

EEPW首頁 > 博客 > 清華最新開源MARS!第一個基于NeRF的自動駕駛開源模擬器

清華最新開源MARS!第一個基于NeRF的自動駕駛開源模擬器

發布人:計算機視覺工坊 時間:2023-08-03 來源:工程師 發布文章
0. 筆者個人體會

這幾年,NeRF可以說已經逐漸滲透進了各個領域,新視點合成、三維重建、SLAM等等很多應用都在想方設法得使用NeRF。那么自動駕駛領域呢?雖然在實車上直接邊緣部署NeRF還有難度,但是NeRF可以應用到自動駕駛的場景合成上,再用合成的場景做其他事情!普通場景下的自動駕駛算法其實已經做的很好了,但是特殊場景還是很容易出錯。主要還是因為特殊場景下的數據集太難找了!自己錄制數據也非常麻煩。顯然,NeRF強大的合成能力可以模擬極端場景下的路況,尤其是高動態場景,也就進一步模擬了真實的自動駕駛場景。

最近,清華、港科大、麥吉爾大學、北理工、新加坡國立、香港大學、帝國理工、浙江大學等11個單位聯合開源了MARS,也是第一個基于NeRF的自動駕駛開源模擬器。直接模擬真實的自動駕駛RGB、深度圖和語義分割Mask,這項工作具有實例感知、模塊化和真實性等特點,支持多模態輸入,可用于深度和語義感知組合渲染,已經獲得CICAI 2023最佳論文Runner-up獎。

1. 效果展示

先來看一下具體效果!

下面這張圖就是MARS的具體應用,第一行表示合成的圖像(已經足夠真實,用來做SLAM或者檢測完全夠用),第二行代表生成的語義分割Mask(可以直接用來做分割任務的訓練),第三行代表生成的深度圖(視覺效果很好,但是很多深度估計的定量效果都不是很準確,可以做一下三維重建驗證),第三行代表生成的動態前景目標(可以直接在靜態圖像上生成動態目標來測試動態SLAM)。

圖片

還可以直接拖動進度條來控制動態目標的運行軌跡、尺寸、外觀!(可以通過論文原文中的官方主頁來嘗鮮demo)

圖片

可以再看一下重建場景和原始RGB圖的對比,可以說幾乎找不到區別,這里不得不感嘆一下NeRF的強大!

圖片

總之,效果非常好。代碼即將開源,感興趣的小伙伴可以關注一下。下面我們來看看具體的文章信息。

2. 摘要

如今,自動駕駛汽車可以在普通情況下平穩駕駛,人們普遍認為,真實的傳感器模擬將在通過模擬解決剩余的極端情況方面發揮關鍵作用。為此,我們提出了一種基于神經輻射場(NeRFs)的自動駕駛模擬器。與現有工作相比,我們的工作有三個顯著特點:(1)實例感知。我們的模擬器通過獨立的網絡分別對前景實例和背景環境進行建模,從而可以分別控制實例的靜態(例如尺寸和外觀)和動態(例如軌跡)屬性。(2)模塊化。我們的模擬器允許在不同的現代NeRF相關的主干、采樣策略、輸入模式等之間進行靈活的切換。我們期待這種模塊化的設計能夠推動基于NeRF的自動駕駛仿真的學術進步和產業部署。(3)真實性。我們的模擬器設置了新的最先進的照片現實主義結果,給出了最佳的模塊選擇。我們的模擬器將是開源的,而我們的大多數同行都不是。這里也推薦「3D視覺工坊」新課程《深度剖析面向自動駕駛領域的車載傳感器空間同步(標定)》

3. 算法解析

MARS的輸入是RGB圖像、傳感器姿態(由IMU/GPS解算)、物體軌跡(3D邊界框、類別、實例ID),深度圖和語義分割圖可以在訓練時輔助監督。神經場構建完成以后,就可以在給定傳感器位姿時模擬RGB圖、深度圖和語義分割Mask,還支持對物體軌跡和外觀的實例編輯。

下面來看看具體的Pipeline。

MARS建模背景節點和每個前景實例節點。具體來說,給定射線r,首先計算每個可視物體的3D邊界框的交集來獲取進入和離開距離。然后,背景節點和前景對象節點都進行query,而每個節點都會采樣一組3D點集,并使用其具體的神經表征網絡來獲取點屬性(RGB、密度、語義信息)。對于物體節點,根據對象軌跡將射線原點和方向從世界空間轉換到實例幀。對于背景節點,直接像傳統NeRF那樣推理屬性,最后,對來自背景和前景節點的所有射線樣本進行合成和渲染,以產生像素級的NeRF結果。

圖片

那這里的模塊化是什么意思呢?

其實就是說針對靜態背景和動態前景對象采用不同的NeRF框架,MARS將場景分解為一個大規模****的NeRF和多個以物體為中心的NeRF。當然筆者覺得模塊化還有另一個意思,就是MARS可以支持各種NeRF主干,包括基于MLP的和基于網格的,還支持各種各樣的采樣策略。

注意,靜態背景和動態前景對象的特性是不同的,而現在很多的NeRF都是針對兩者使用統一的框架,這顯然是不太對的。而MARS就很巧妙得為背景和前景對象設計了模塊化的不同設計,并且可以很容易結合最新的重建方法。MARS的模塊化設計還使用了很多的trick,比如使用unbounded scene warping來表征圖像中的遠距離區域。

MARS的采樣方法很有意思。因為背景和前景對象的獨立采樣的,因此很可能會出現背景樣本落在前景邊界框的情況。渲染之后就會把前景樣本誤分類為背景,這樣的話,去除前景實例以后背景就會出現鬼影。理論上輸入足夠多的視角圖像,網絡可以在訓練過程中自動學習分區前景和背景。但是對于一個數據驅動的模擬器來說,車輛在道路上快速移動,獲取豐富且高質量的多視角圖像非常困難。

圖片

那么怎么解決呢?

這里是使用了正則化策略來最小化背景截斷樣本的密度和,其中P代表背景截斷樣本:

圖片

這樣就很好得解決了鬼影問題。

圖片

4. 實驗結果

實驗主要是在KITTI和V-KITTI數據集進行的,作者目前也沒有公布訓練使用了多少GPU。對于具體的網絡架構,作者的默認配置是:針對背景節點使用基于網格的NeRF和proposal sampler,針對前景對象節點使用改進的類別級表征和由粗到精的采樣。這里簡單提一句proposal sampler,來源于2022 CVPR論文"Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields",主要思想是從無輻射NeRF模型中蒸餾密度場來生成射線樣本。

模型訓練了20萬次迭代,每個batch有4096條射線,使用RAdam優化器,靜態背景的學習率從1e-3降低到1e-5,動態前景對象的學習率從5e-3降低到1e-5,主要對比的baseline也就是原始的NeRF和各種NeRF變體。

根據圖像重建的定量對比結果,可以發現MARS相較于其他SOTA方法有了很大的提升。

圖片

下面是新視點合成的定量對比結果,使用75 %的訓練數據,MARS在V-KITTI上可以達到29.79的PSNR,而之前的最優結果為23.87,提升非常明顯。

圖片

定性實驗結果也很漂亮,可以發現針對動態場景,其他的NeRF都會不同程度得出現鬼影,但是MARS可以穩定合成靜態背景和動態前景對象。這里也推薦「3D視覺工坊」新課程《深度剖析面向自動駕駛領域的車載傳感器空間同步(標定)》

圖片

感覺實例編輯是MARS中很有意義的一個工作,由于MARS是分別建模靜態背景和動態前景對象,因此可以以實例感知的方式編輯場景(好神奇)。具體來說,可以定性得刪除實例、添加新實例、還可以編輯車輛軌跡!

圖片

消融實驗驗證了不同的設計模式對背景節點表示、前景節點表示等方面的影響。這里也有一個比較重要的點,以前的工作都是在90張圖像的短序列上評估,但是MARS使用了完整的序列來評估。筆者覺得很好的一點是,MARS分別驗證了基于MLP和網格的模型,這個工作量還是挺大的。

圖片

5. 總結

MARS這篇文章提出了一個基于NeRF的有真實感的模塊化自動駕駛仿真框架,可以直接生成自動駕駛場景下的RGB圖像、深度圖和語義分割Mask,還可以單獨生成前景動態對象以及實例編輯。MARS由一個背景節點和多個前景節點組成,實現了復雜動態場景的建模,整個Pipeline在數據集上展現了SOTA的渲染性能。

至于局限性,作者也提到了MARS不能達到實時渲染,這個也是NeRF的固有問題。而且,MARS沒有考慮玻璃或其他反射材料上的動態鏡面效應,這有可能會產生鬼影。


*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



關鍵詞: AI

相關推薦

技術專區

關閉