久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

EEPW首頁 > 博客 > 大模型來了,自動駕駛還遠(yuǎn)嗎?關(guān)鍵看“眼睛”(1)

大模型來了,自動駕駛還遠(yuǎn)嗎?關(guān)鍵看“眼睛”(1)

發(fā)布人:AI科技大本營 時(shí)間:2023-05-22 來源:工程師 發(fā)布文章

圖片

感知系統(tǒng)架構(gòu)與方法

目標(biāo)的檢測與跟蹤是感知系統(tǒng)的兩大基礎(chǔ)任務(wù),主要利用不同傳感器數(shù)據(jù)輸入,完成對周圍障礙物的檢測與跟蹤,并將結(jié)果傳遞給下游規(guī)劃控制模塊完成預(yù)測、決策、規(guī)劃、控制等任務(wù)。下圖1簡要描述了此類任務(wù)的架構(gòu)。

圖片

圖1:感知系統(tǒng)架構(gòu)簡圖

圖片主流傳感器介紹自動駕駛感知領(lǐng)域中常見的傳感器主要有3類:攝像頭、激光雷達(dá),以及毫米波雷達(dá)。每種傳感器都有其優(yōu)缺點(diǎn),也影響了不同公司對技術(shù)路線的選擇。其中,攝像頭圖像數(shù)據(jù)能以低廉的成本實(shí)現(xiàn)高分辨率的成像,能夠提供豐富的紋理信息,例如國內(nèi)某造車新勢力車型搭載的攝像頭分辨率達(dá)到了800萬像素。但攝像頭對光照比較敏感,夜晚或者極端天氣下的圖像往往對感知任務(wù)帶來比較大的挑戰(zhàn)。另外,圖像僅能提供2D信息,無法直接得到深度信息。在產(chǎn)業(yè)界,純視覺技術(shù)路線以特斯拉為代表。相對攝像頭,激光雷達(dá)往往比較稀疏,機(jī)械激光雷達(dá)垂直分辨率通常僅為32線、64線、128線不等,雖然固態(tài)、半固態(tài)激光雷達(dá)在不斷提升分辨率,但相較圖像來說仍然比較稀疏。其優(yōu)勢是能夠提供深度信息,即給出每個(gè)激光點(diǎn)的距離值,這一信息對于目標(biāo)檢測任務(wù)來說至關(guān)重要,因?yàn)槟繕?biāo)檢測任務(wù)需要得到周圍交通參與者精確的位置信息。激光雷達(dá)也存在受限的應(yīng)用場景,其對于雨、雪、霧等極端天氣,甚至灰塵比較敏感,難于穿透水珠、雪花、灰塵等,容易形成噪點(diǎn),對于此類場景下的感知帶來不小的挑戰(zhàn)。目前,國內(nèi)造車新勢力中已經(jīng)廣泛應(yīng)用固態(tài)、半固態(tài)激光雷達(dá)。毫米波雷達(dá)和激光雷達(dá)類似,同樣能探測目標(biāo)的位置及速度。和激光雷達(dá)相比,由于其波長較長,能夠穿透微小顆粒,因此對極端天氣等不是很敏感,在雨、雪、霧等天氣條件下仍能產(chǎn)生不錯(cuò)的效果。但受其原理影響,毫米波雷達(dá)對靜態(tài)障礙物檢測效果較差,分辨率也較低。目前,除特斯拉以純視覺技術(shù)路線為主外,主流自動駕駛感知架構(gòu)采用多傳感器融合的方案,充分利用不同傳感器的優(yōu)勢來提升感知精度。圖片主流目標(biāo)檢測方法介紹下面從2D、3D目標(biāo)檢測任務(wù)入手,介紹當(dāng)前主流方法。2D目標(biāo)檢測2D目標(biāo)檢測是從圖像中預(yù)測目標(biāo)位置及類別的任務(wù)。2D目標(biāo)檢測網(wǎng)絡(luò)可分為兩個(gè)流派,即一階段和二階段網(wǎng)絡(luò)。所謂一階段網(wǎng)絡(luò)是直接在特征層預(yù)測目標(biāo)的分類與位置,以YOLO系列為代表,其中YOLOV7網(wǎng)絡(luò)取得了速度和精度的平衡,圖2為YOLOV1的網(wǎng)絡(luò)架構(gòu)。二階段網(wǎng)絡(luò)以RCNN系列為代表,其思想是通過RPN網(wǎng)絡(luò)生成候選區(qū),再在候選區(qū)上進(jìn)一步預(yù)測目標(biāo)的分類和位置,圖3展示了Fast-RCNN網(wǎng)絡(luò)架構(gòu)。二階段網(wǎng)絡(luò)由于需要首先生成候選區(qū),其計(jì)算量往往較大,速度較慢,但能獲得更高的精度。在自動駕駛領(lǐng)域,2D檢測廣泛應(yīng)用于紅綠燈檢測、車道線檢測等任務(wù)中。圖片圖2:YOLOV1網(wǎng)絡(luò)架構(gòu)[1]圖片圖3:Fast-RCNN網(wǎng)絡(luò)架構(gòu)[2]3D檢測任務(wù)3D目標(biāo)檢測任務(wù)利用傳感器輸入預(yù)測目標(biāo)的3D位置信息、尺寸、方向及速度,對下游規(guī)劃控制模塊的避障、預(yù)測決策至關(guān)重要。根據(jù)傳感器輸入的不同,可將其分為單模態(tài)和多模態(tài)方法。單模態(tài)只依靠一種傳感器輸入完成檢測任務(wù),如直接在2D圖像上預(yù)測3D目標(biāo)的純視覺方法,以及在三維激光點(diǎn)云上完成檢測的方法。多模態(tài)通過輸入多種傳感器數(shù)據(jù),如圖像、激光點(diǎn)云、毫米波點(diǎn)云,在網(wǎng)絡(luò)層進(jìn)行特征融合,完成3D目標(biāo)檢測任務(wù)。

  • 單目3D目標(biāo)檢測

隨著標(biāo)注方法的升級,目標(biāo)的表示由原來的2D框?qū)屈c(diǎn)表示進(jìn)化成了3D坐標(biāo)系下bounding box(邊界框)的表示 ,不同緯度表示了3D框的位置、尺寸、以及地面上的偏航角。有了數(shù)據(jù),原本用于2D檢測的深度神經(jīng)網(wǎng)絡(luò),也可以依靠監(jiān)督學(xué)習(xí)用于3D目標(biāo)框檢測。焦距適中的相機(jī),F(xiàn)OV是有限的,想要檢測車身一周目標(biāo),就要部署多個(gè)相機(jī),每個(gè)相機(jī)負(fù)責(zé)一定FOV范圍內(nèi)的感知。最終將各相機(jī)的檢測結(jié)果通過相機(jī)到車身的外參,轉(zhuǎn)換到統(tǒng)一的車輛坐標(biāo)系下。但在有共視時(shí),會產(chǎn)生冗余檢測,即有多個(gè)攝像頭對同一目標(biāo)做了預(yù)測(圖4展示了多相機(jī)俯視圖),現(xiàn)有方法如FCOS3D[3],會在統(tǒng)一的坐標(biāo)系下對所有檢測結(jié)果做一遍NMS,有重合的目標(biāo)框僅留下一個(gè)分類指標(biāo)得分最高。圖片圖4:多相機(jī)俯視示意圖[13]

  • 統(tǒng)一多視角相機(jī)的3D目標(biāo)檢測

自下而上的方法自下而上的方法,手頭的信息看到哪算哪。圖5來自CaDNN這篇文章,很好地描述了這一類方法,包括Lift、BEVDet、BEVDepth。這類方法預(yù)測每個(gè)像素的深度分布,有的方法為隱式預(yù)測,有的方法利用LiDAR點(diǎn)云當(dāng)監(jiān)督信號(推理時(shí)沒有LiDAR)。將多相機(jī)生成的深度圖轉(zhuǎn)換成車身四周的“點(diǎn)云”數(shù)據(jù),有了點(diǎn)云就可以利用現(xiàn)有的點(diǎn)云3D目標(biāo)檢測器了(如PointPillars, CenterPoint)。圖片圖 5:CaDNN網(wǎng)絡(luò)原理圖[4]自上而下的方法此類方法先確定關(guān)注的地方,如特斯拉所采用的方法(如圖6所示),簡單來說就是先確定空間中要關(guān)注的位置,由這些位置去各個(gè)圖像中“搜集”特征,然后做判斷。根據(jù)“搜集”方式的不同衍生出了下面幾種方法:圖片圖6 特斯拉自上而下的方法[12]關(guān)鍵點(diǎn)采樣如DETR3D(網(wǎng)絡(luò)架構(gòu)如圖7所示),由一群可學(xué)習(xí)的3D空間中離散的位置(包含于object queries),根據(jù)相機(jī)內(nèi)外參轉(zhuǎn)換投影到圖片上,來索引圖像特征,每個(gè)3D位置僅對應(yīng)一個(gè)像素坐標(biāo)(會提取不同尺度特征圖的特征)。圖片圖 7:DETR3D網(wǎng)絡(luò)架構(gòu)[5]


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉