自監督目標檢測：不用在ImageNet上訓練的目標檢測

發布人：CV研究院時間：2022-05-15 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

現在的自監督學習通過在ImageNet數據集上實現圖像分類來進行無監督的預訓練，通過最大化不同圖像之間的距離（相似度），最小化同一張圖像的不同視圖之間的相似度來學習一個最佳的特征表示，這種方法針對ImageNet這種分類數據集（一張圖像上一個類別物體）來說是適用的。但是...

1 簡要

無監督視覺表示學習引起了相當多的關注，旨在用大量的未標記數據生成更好的特征表示。最近的自監督學習方法取得了比監督學習方法可比較或更好的結果。他們通過執行實例級分類任務，在未標記的ImageNet數據集上訓練CNN模型，從而最大限度地提高同一圖像的不同轉換視圖之間的一致性，并可選擇地最小化不同圖像視圖之間的一致性。自監督學習pipeline的潛在先驗是，同一圖像的不同views/crops對應于同一目標，如下圖所示。

因此，最大化他們的agreement可以學習有用的特性。事實上，這個關鍵的先驗實際上高度依賴于預訓練數據集的潛在偏差：ImageNet是一個以目標為中心的數據集，可以確保潛在的先驗。當考慮到收集和清理數據的額外努力時，未標記的ImageNet數據集實際上并不是免費的。另一方面，非標志性圖像很容易收集，但可能包含多個對象，如COCO數據集。如下圖所示。

不同的隨機crop可能對應于不同的對象，其中自監督方法的有效性容易受到懷疑。此外，從實例級分類任務中學習到的獨特表示可能不是適合于對象檢測的特征。由于它應用全局池化層生成向量嵌入，可能會破壞圖像空間結構并丟失局部信息，而檢測器對空間定位敏感。

2 背景簡單介紹

Generic Object Detection

大多數現代目標檢測器，如Faster RCNN、Mask RCNN和Retinanet，都采用了“預訓練和微調”范式，預訓練網絡進行ImageNet分類，然后傳輸檢測微調的參數。最近，[Cheaper pre-training lunch: An efficient paradigm for object detection. arXiv preprint arXiv:2004.12178, 2020]以montage manner將預訓練切換到目標檢測域，以提高效率。這些工作證明了從大規模數據中學習的顯著好處，但它們也遭受了在現實應用中使用標簽數據的高成本?？紤]到遷移學習范式的成功，后來的工作表明，在從零開始訓練目標檢測任務時，往往可以匹配微調精度。然而，[Kaiming He, Ross Girshick, and Piotr Dollar. Rethinking imagenet pre-training. arXiv preprint arXiv:1811.08883, 2018]也驗證了，當這個范式進入一個小的數據體系時，它的性能會顯著下降。由于標記檢測數據的費用遠高于分類，因此大規模標記數據的依賴性仍然限制了目前的目標檢測器應用。

Self Supervised Learnin

首先介紹一下到底什么是 SSL，我們知道一般機器學習分為監督學習，非監督學習和強化學習。而 self-supervised learning 是無監督學習里面的一種，主要是希望能夠學習到一種通用的特征表達用于下游任務。其主要的方式就是通過自己監督自己，比如把一段話里面的幾個單詞去掉，用他的上下文去預測缺失的單詞，或者將圖片的一些部分去掉，依賴其周圍的信息去預測缺失的 patch。

根據我看的文章，現在 self-supervised learning 主要分為兩大類：1. Generative Methods；2. Contrastive Methods。下面我們分別簡要介紹一下這這兩種方法。

Generative Methods

首先我們介紹一下 generative methods。這類方法主要關注 pixel space 的重建誤差，大多以 pixel label 的 loss 為主。主要是以 AutoEncoder 為代表，以及后面的變形，比如 VAE 等等。對編碼器的基本要求就是盡可能保留原始數據的重要信息，所以如果能通過 decoder 解碼回原始圖片，則說明 latent code 重建的足夠好了。

source: [Towards Data Science](https://towardsdatascience.com/generating-images-with-autoencoders-77fd3a8dd368)

這種直接在 pixel level 上計算 loss 是一種很直觀的做法，除了這種直接的做法外，還有生成對抗網絡的方法，通過判別網絡來算 loss。

對于 generative methods，有一些問題，比如：

基于 pixel 進行重建計算開銷非常大；
要求模型逐像素重建過于苛刻，而用 GAN 的方式構建一個判別器又會讓任務復雜和難以優化。

對于一張人民幣，我們能夠很輕易地分辨其真假，說明我們對其已經提取了一個很好的特征表達，這個特征表達足夠去刻畫人民幣的信息，但是如果你要我畫一張一模一樣的人民幣的圖片，我肯定沒法畫出來。通過這個例子可以明顯看出，要提取一個好的特征表達的充分條件是能夠重建，但是并不是必要條件，所以有了下面這一類方法。

source: [blog](https://ankeshanand.com/blog/2020/01/26/contrative-self-supervised-learning.html)

Contrasive self-supervised learning

除了上面這類方法外，還有一類方法是基于contrastive的方法。這類方法并不要求模型能夠重建原始輸入，而是希望模型能夠在特征空間上對不同的輸入進行分辨，就像上面美元的例子。

這類方法有如下的特點：1. 在feature space上構建距離度量；2. 通過特征不變性，可以得到多種預測結果；3. 使用Siamese Network；4. 不需要pixel-level重建。正因為這類方法不用在pixel-level上進行重建，所以優化變得更加容易。當然這類方法也不是沒有缺點，因為數據中并沒有標簽，所以主要的問題就是怎么取構造正樣本和負樣本。

目前基于contrastive的方法已經取得了很好的緊張，在分類任上已經接近監督學習的效果，同時在一些檢測、分割的下游任務上甚至超越了監督學習作為pre-train的方法。

下面是這兩類方法的總結圖片。

source: [blog](https://ankeshanand.com/blog/2020/01/26/contrative-self-supervised-learning.html)

新框架分析

self-EMD提出去掉全局池化層，直接使用卷積特征圖作為Image Embedding，這樣就能保存局部與空間信息，但是這樣該如何度量兩個feature map之間的相似性呢？

而且同一個image的不同crop圖像可能包含著不同的圖像，因此，度量標準就需要在不同的局部patch中能夠挑選出最優的匹配并且最小化不相關區域之間的噪聲問題，本文提出使Earth Movier‘s Distance來作為度量標準計算所有局部patches的相似性，這種方法命名為Self-EMD。EMD適用于度量結構性表示之間相似性。給定所有元素對之間的相似性，EMD可以在擁有最小損失的結構之間獲得最優的匹配。文章采用cosine相似度來度量兩個feature map之間的不同位置之間的相似性并且為EMD約束設置一個合適的權重。

Self-EMD與BYOL不同在于去掉了最后的全局池化層，并采用卷積層替代了MLP head。采用最后的卷積特征圖作為image embedding。Earth Mover’s Distance用來度量兩組加權的目標或者加權的分布之間的距離。離散版本的EMD已經在最優傳輸問題（OTP）中已經被廣泛的研究。

該操作可以對兩種不同crop不同尺度的局部特征進行比較，增強學習的局部表示中的尺度信息。

實驗

Main detection performance of several typical detectors in terms of AP (%) on COCO val with standard 1× schedule. ‘COCO+’ denotes the COCO train 2017 set plus the COCO unlabel set. For fair comparison, BYOL and Self-EMD are both pre-trained for 300 epochs on ImageNet and 800 epochs on COCO.

Detection performance with different backbones in terms of AP (%) on COCO val

Detection performance with several pre-training methods in terms of AP (%) on VOC 2007 test.

Visualization of the optimal matching weights. We visualize the heat map of the matching weights of the crop 2 to the corresponding position (the green boxes) in the crop 1.

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

博客專欄

自監督目標檢測：不用在ImageNet上訓練的目標檢測

相關推薦

技術專區