讓機器“一葉知秋”：弱監(jiān)督視覺語義分割（2）

發(fā)布人：深度學(xué)習(xí)大講堂時間：2020-12-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

基于這樣的觀察，我們提出了一種self-paced的Simple to Complex訓(xùn)練框架。我們首先從網(wǎng)絡(luò)上下載大量的簡單圖片，然后通過顯著性檢測技術(shù)去獲取其對應(yīng)的顯著圖。進(jìn)而利用顯著圖和語義標(biāo)簽作為監(jiān)督信息去訓(xùn)練一個Initial的分割網(wǎng)絡(luò)。特別地，在利用顯著圖作為監(jiān)督信息的情況下每個pixel會以不同的概率屬于物體或者背景。比如屬于 “馬” 的某個像素點可能以0.9和0.1的概率分別屬于前景物體 “馬” 和背景。在Initial網(wǎng)絡(luò)訓(xùn)練完成后，其對簡單圖片已經(jīng)具備了一定的分割能力，進(jìn)而我們利用該網(wǎng)絡(luò)預(yù)測出所有簡單圖片的masks，并利用這些masks訓(xùn)練一個Enhanced語義分割網(wǎng)絡(luò)。最后我們通過Enhanced網(wǎng)絡(luò)預(yù)測更多復(fù)雜圖片的masks，并訓(xùn)練出一個更好的語義分割網(wǎng)絡(luò)，即Powerful DCNN。

這個是我們構(gòu)建的Flickr-Clean 簡單圖像庫及部分圖片對應(yīng)顯著圖?？梢钥闯鐾ㄟ^顯著圖構(gòu)建像素和語義之間關(guān)系的方式是很有效的。

通過左邊的表格可以看出，Initial, Enhanced和Powerful網(wǎng)絡(luò)對圖像的語義分割能力在不斷增強。通過右邊的結(jié)果圖也可以看出分割效果變得越來越好。這個方法雖然很簡單，但在Pascal VOC上比當(dāng)時最好的性能高出十個百分點。然而這個方法也有兩個很明顯的缺點：1）必須收集大量的簡單圖片，否則很難訓(xùn)練出一個性能較高的Initial網(wǎng)絡(luò)并不斷提高；2）訓(xùn)練樣本多，訓(xùn)練時間長。

鑒于這些不足，我們希望可以發(fā)現(xiàn)一種不依賴于簡單的圖片的方法，并可以達(dá)到較高的語義分割性能。于是我們在2017年提出了Adversarial Erasing。

2016年發(fā)表在CVPR上的一篇文章（CAM）發(fā)現(xiàn)，分類網(wǎng)絡(luò)可以通過Top-down的方式定位出圖片上的哪些區(qū)域?qū)ξ矬w分類的貢獻(xiàn)較大，而這些區(qū)域往往屬于對應(yīng)語義的物體。然而，CAM方法的主要問題在于它只能發(fā)現(xiàn)最具判別力的一些物體區(qū)域（比如狗的頭部），這些區(qū)域往往屬于目標(biāo)物體的某個part并且分布稀疏。這同語義分割需要定位完整物體的目標(biāo)并不一致。

為了定位較為完整的物體，我們提出了一種Adversarial Erasing的方法。該方法的motivation主要是通過不斷擦除物體上最具判別力的一些區(qū)域，使得分類網(wǎng)絡(luò)發(fā)現(xiàn)更多的物體的其它區(qū)域。如左圖所示，我們首先將包含狗的圖片輸入分類網(wǎng)絡(luò)中，通過訓(xùn)練可以獲得屬于狗的最具判別力的區(qū)域，即狗的頭部。進(jìn)而我們將狗的頭部從圖片中擦除掉，并將擦除后的圖片輸入分類網(wǎng)絡(luò)進(jìn)行再訓(xùn)練。網(wǎng)絡(luò)會尋找其它的證據(jù)使得圖片可以被正確分類，進(jìn)而找到狗的胸部。重復(fù)此操作，狗的腳部也可以進(jìn)一步被發(fā)現(xiàn)。最后通過融合擦除掉的區(qū)域就可以獲得物體的整個區(qū)域。右圖給出了更多示例以及最后通過融合擦除區(qū)域獲得的整個物體區(qū)域。

由于最終的目標(biāo)是語義分割，我們最后把mining出的物體區(qū)域生成了圖像的mask并用于訓(xùn)練語義分割網(wǎng)絡(luò)，這部分在本文不做過多介紹，具體細(xì)節(jié)可以參閱paper。

Adversarial Erasing方法沒有用到任何額外數(shù)據(jù)，并在VOC12上獲得了 55. 7的mIoU值。雖然這篇工作用更簡單的方式(相對Simple to Complex) 獲得了更高的性能，但也存在兩個明顯的問題：1）需要多次訓(xùn)練分類網(wǎng)絡(luò)，時耗較高；2）對于每張訓(xùn)練圖片很難確定何時停止擦除操作。我們在文章中采用通過觀察分類網(wǎng)絡(luò)收斂的loss值的方式來決定擦除的次數(shù)，但該方法很難保證所有訓(xùn)練圖片都能達(dá)到最好的擦除效果。

針對Adversarial Erasing的兩個缺點，我們進(jìn)一步提出了一種Adversarial Complementary Learning的方法，并被CVPR 2018錄用。首先我們發(fā)現(xiàn)Network-in-Network中提出的Global Avg Pooling (GAP) + Classification Loss的方式就可以獲得跟CAM方法中完全一樣的物體定位圖（如右圖所示），我們在文章里也給出了數(shù)學(xué)證明。有了這個前提，我們就可以很容易的將Adversarial Erasing的思想嵌入到訓(xùn)練過程中。

這是我們Adversarial Complementary Learning的框架圖。我們首先利用一個分類網(wǎng)絡(luò)來發(fā)現(xiàn)一些物體的判別區(qū)域，進(jìn)而將這些區(qū)域從中間的特征圖中擦除。我們將擦除后的特征圖輸入到另外一個分支中進(jìn)行訓(xùn)練，進(jìn)而獲得同第一個分支互補的物體定位圖。最后，我們將從兩個分支獲得物體定位圖合并起來獲得最終的結(jié)果。