久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

EEPW首頁 > 博客 > 讓機器“一葉知秋”:弱監(jiān)督視覺語義分割(2)

讓機器“一葉知秋”:弱監(jiān)督視覺語義分割(2)

發(fā)布人:深度學(xué)習(xí)大講堂 時間:2020-12-20 來源:工程師 發(fā)布文章

基于這樣的觀察,我們提出了一種self-paced的Simple to Complex訓(xùn)練框架。我們首先從網(wǎng)絡(luò)上下載大量的簡單圖片,然后通過顯著性檢測技術(shù)去獲取其對應(yīng)的顯著圖。進(jìn)而利用顯著圖和語義標(biāo)簽作為監(jiān)督信息去訓(xùn)練一個Initial的分割網(wǎng)絡(luò)。特別地,在利用顯著圖作為監(jiān)督信息的情況下每個pixel會以不同的概率屬于物體或者背景。比如屬于 “馬” 的某個像素點可能以0.9和0.1的概率分別屬于前景物體 “馬” 和背景。在Initial網(wǎng)絡(luò)訓(xùn)練完成后,其對簡單圖片已經(jīng)具備了一定的分割能力,進(jìn)而我們利用該網(wǎng)絡(luò)預(yù)測出所有簡單圖片的masks,并利用這些masks訓(xùn)練一個Enhanced語義分割網(wǎng)絡(luò)。最后我們通過Enhanced網(wǎng)絡(luò)預(yù)測更多復(fù)雜圖片的masks,并訓(xùn)練出一個更好的語義分割網(wǎng)絡(luò),即Powerful DCNN。

15.jpg

這個是我們構(gòu)建的Flickr-Clean 簡單圖像庫及部分圖片對應(yīng)顯著圖??梢钥闯鐾ㄟ^顯著圖構(gòu)建像素和語義之間關(guān)系的方式是很有效的。

14.jpg

通過左邊的表格可以看出,Initial, Enhanced和Powerful網(wǎng)絡(luò)對圖像的語義分割能力在不斷增強。通過右邊的結(jié)果圖也可以看出分割效果變得越來越好。這個方法雖然很簡單,但在Pascal VOC上比當(dāng)時最好的性能高出十個百分點。然而這個方法也有兩個很明顯的缺點:1)必須收集大量的簡單圖片,否則很難訓(xùn)練出一個性能較高的Initial網(wǎng)絡(luò)并不斷提高;2)訓(xùn)練樣本多,訓(xùn)練時間長。

13.jpg

鑒于這些不足,我們希望可以發(fā)現(xiàn)一種不依賴于簡單的圖片的方法,并可以達(dá)到較高的語義分割性能。于是我們在2017年提出了Adversarial Erasing。

12.jpg

2016年發(fā)表在CVPR上的一篇文章(CAM)發(fā)現(xiàn),分類網(wǎng)絡(luò)可以通過Top-down的方式定位出圖片上的哪些區(qū)域?qū)ξ矬w分類的貢獻(xiàn)較大,而這些區(qū)域往往屬于對應(yīng)語義的物體。然而,CAM方法的主要問題在于它只能發(fā)現(xiàn)最具判別力的一些物體區(qū)域(比如狗的頭部),這些區(qū)域往往屬于目標(biāo)物體的某個part并且分布稀疏。這同語義分割需要定位完整物體的目標(biāo)并不一致。

11.jpg

為了定位較為完整的物體,我們提出了一種Adversarial Erasing的方法。該方法的motivation主要是通過不斷擦除物體上最具判別力的一些區(qū)域,使得分類網(wǎng)絡(luò)發(fā)現(xiàn)更多的物體的其它區(qū)域。如左圖所示,我們首先將包含狗的圖片輸入分類網(wǎng)絡(luò)中,通過訓(xùn)練可以獲得屬于狗的最具判別力的區(qū)域,即狗的頭部。進(jìn)而我們將狗的頭部從圖片中擦除掉,并將擦除后的圖片輸入分類網(wǎng)絡(luò)進(jìn)行再訓(xùn)練。網(wǎng)絡(luò)會尋找其它的證據(jù)使得圖片可以被正確分類,進(jìn)而找到狗的胸部。重復(fù)此操作,狗的腳部也可以進(jìn)一步被發(fā)現(xiàn)。最后通過融合擦除掉的區(qū)域就可以獲得物體的整個區(qū)域。右圖給出了更多示例以及最后通過融合擦除區(qū)域獲得的整個物體區(qū)域。

10.jpg

由于最終的目標(biāo)是語義分割,我們最后把mining出的物體區(qū)域生成了圖像的mask并用于訓(xùn)練語義分割網(wǎng)絡(luò),這部分在本文不做過多介紹,具體細(xì)節(jié)可以參閱paper。

9.jpg

Adversarial Erasing方法沒有用到任何額外數(shù)據(jù),并在VOC12上獲得了 55. 7的mIoU值。雖然這篇工作用更簡單的方式(相對Simple to Complex) 獲得了更高的性能,但也存在兩個明顯的問題:1)需要多次訓(xùn)練分類網(wǎng)絡(luò),時耗較高;2)對于每張訓(xùn)練圖片很難確定何時停止擦除操作。我們在文章中采用通過觀察分類網(wǎng)絡(luò)收斂的loss值的方式來決定擦除的次數(shù),但該方法很難保證所有訓(xùn)練圖片都能達(dá)到最好的擦除效果。

8.jpg7.jpg

針對Adversarial Erasing的兩個缺點,我們進(jìn)一步提出了一種Adversarial Complementary Learning的方法,并被CVPR 2018錄用。首先我們發(fā)現(xiàn)Network-in-Network中提出的Global Avg Pooling (GAP) + Classification Loss的方式就可以獲得跟CAM方法中完全一樣的物體定位圖 (如右圖所示),我們在文章里也給出了數(shù)學(xué)證明。有了這個前提,我們就可以很容易的將Adversarial Erasing的思想嵌入到訓(xùn)練過程中。

6.jpg

這是我們Adversarial Complementary Learning的框架圖。我們首先利用一個分類網(wǎng)絡(luò)來發(fā)現(xiàn)一些物體的判別區(qū)域,進(jìn)而將這些區(qū)域從中間的特征圖中擦除。我們將擦除后的特征圖輸入到另外一個分支中進(jìn)行訓(xùn)練,進(jìn)而獲得同第一個分支互補的物體定位圖。最后,我們將從兩個分支獲得物體定位圖合并起來獲得最終的結(jié)果。

5.jpg

4.jpg

這是我們在ImageNet上的實驗結(jié)果。可以看出不同的分類器定位的區(qū)域是具有互補性的,并且最后融合出了我們想要的結(jié)果。通過我們的定位圖生成的物體框相比CAM方法也更加準(zhǔn)確。

3.jpg

我們的方法在ImageNet上達(dá)到了最好的定位性能。同時也測試了在Pascal VOC測試了語義分割結(jié)果,性能相比Adversarial Erasing提升了3.1個百分點(55.7->58.8)。

2.jpg

1.jpg

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞:

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉